Representatief, schaalbaar & robuust?
De representativiteit van surrogaat modellen is een belangrijk aandachtspunt wanneer deze worden gebruikt in de operationele context. Omdat machine-learning modellen niet direct zijn gekoppeld aan de fysische eigenschappen van het systeem, betekent het dat bij een verandering in het systeem het machine-learning model mogelijk niet meer representatief is. Denk bijvoorbeeld aan aanpassingen aan de riolering of een herinrichting van een woonwijk. Het machine-learning model is immers getraind op andere fysische systeemeigenschappen. Aanpassingen zullen eerst moeten worden doorgevoerd in het hydrologische model (inclusief een nieuwe kalibratie en validatie), waarna de training data voor het machine-learning model opnieuw gegenereerd moeten worden. Dit proces kost tijd en is een belangrijke overweging bij het gebruik van een machine-learning model in de operationele situatie. De ontwikkelde tools en scripts voor het genereren van de data en het trainingsproces van het machine-learning model kunnen in een dergelijke situatie wel hergebruikt worden.
Ook de schaalbaarheid is een belangrijk aandachtspunt bij het gebruik van surrogaat modellen. Bij het toepassen van machine-learning technieken, heeft de grootte en complexiteit van het studiegebied vooral invloed op de tijd die het kost om de training dataset te genereren. Daarna heeft de grootte en complexiteit van het studiegebied nog invloed op de rekentijd van het machine-learning model, maar dit gaat om slechts enkele milliseconden. In de praktijk is dit dus nauwelijks merkbaar. Het nabewerken van de resultaten kost waarschijnlijk wel meer tijd bij een groter studiegebied.
Verschillende studies hebben laten zien dat machine-learning modellen in staat zijn om wateroverlast nauwkeurig te voorspellen met een neerslag tijdreeks als input. Wanneer deze modellen in de praktijk worden gebruikt, bijvoorbeeld over aankomende wateroverlast, dan zal de neerslagverwachting worden gebruikt als input. De nauwkeurigheid van de resultaten is daarmee ook afhankelijk van de kwaliteit van de neerslagverwachting. Deze onzekerheid in de input data geldt overigens net zo goed voor hydrologische overstromingsmodellen in de operationele context. De timing en locatie van extreme buien is lastig te voorspellen en daarmee neemt de onzekerheid in de modelresultaten dus toe.
Figuur 5. Dit machine-learning model voorspelt binnen één seconde het overstromingsvolume per rioleringskolk voor Hooglanderveen (gemeente Amersfoort). Het model rekent snel ( < 1 seconde) en nauwkeurig (gemiddelde fout van 2 mm water op straat).
Bij een machine-learning model is het belangrijk om te beseffen dat het model alleen in staat is om nauwkeurig te voorspellen in de situaties waar het ook voor getraind is. Dit betekent bijvoorbeeld dat het model onnauwkeurig zal voorspellen bij een situatie die extremer is dan alle simulaties in de training dataset. Als het machine-learning model is getraind met behulp van een dataset waarbij 100 mm neerslag in één dag het maximum is, dan zal het voorspellen van 120 mm neerslag per dag lastig worden. Een aanname is ook dat de initiële condities in het watersysteem (als deze niet als input variabelen worden meegenomen), gelijk zijn met de trainingsdataset. Wanneer het machine-learning model bijvoorbeeld is getraind op een dataset waarbij de initiële (grond)waterstanden laag zijn, dan zal het model een onderschatting geven als de (grond)waterstanden in werkelijkheid hoog zijn. Een oplossing hiervoor kan zijn om variabelen die de resultaten (significant) beïnvloeden, mee te nemen in de training dataset. Een hoog aantal input variabelen maakt het trainen van het machine-learning model wel complexer en tijdsintensiever. Met behulp van kennis over het fysische proces, kunnen de juiste input variabelen gekozen worden.