Binnen één seconde wateroverlast voorspellen dankzij machine-learning

Photo credits
Shutterstock
21 mei 2024  -  15 minuten

Door klimaatverandering zal de frequentie en intensiteit van weersextremen toenemen. Daarmee neemt ook de kans op zware buien en dus wateroverlast toe. Zo was er in december 2023 nog sprake van wateroverlast in grote delen van het land door een combinatie van hoogwater vanuit de rivieren, hevige regenval en een al verzadigde bodem (AD, 2023). Hierdoor werden wegen afgesloten en liepen straten en kelders onder.

Het tijdig en nauwkeurig voorspellen van wateroverlast is belangrijk, omdat daarmee de schade zoveel mogelijk kan worden beperkt. Hydrologische 2D overstromingsmodellen kunnen het moment en de omvang van een overstroming voorspellen. Deze modellen ondersteunen waterbeheerders bij het maken van weloverwogen beslissingen en het nemen van de juiste maatregelen. Denk daarbij bijvoorbeeld aan het veranderen van de hoogte van de stuwen of het waarschuwen van relevante partijen.

Gedetailleerde hydrologische overstromingsmodellen zijn in staat om de werkelijkheid heel nauwkeurig na te bootsen, maar de rekentijd is vaak lang. Deze modellen zijn daardoor vaak niet bruikbaar in de operationele context. Bij HydroLogic gebruiken we daarom ook wel surrogaat modellen in plaats van hydrologische overstromingsmodellen voor de operationele toepassing. Surrogaat modellen zijn een benadering van gedetailleerde overstromingsmodellen en zijn, indien ze goed zijn opgebouwd en getraind, in staat om nauwkeurig én snel te rekenen.

Het bouwen, testen en operationaliseren van surrogaat modellen hebben veel inzicht opgeleverd over de toepassing van dergelijke modellen. In dit artikel delen we onze belangrijkste bevindingen.

Figuur 1. Hevige neerslag kan zorgen voor ondergelopen straten, tunnels en gebouwen. Het tijdig voorspellen van wateroverlast kan helpen bij het mitigeren van de effecten van over-stroming. Fotocredits: AS Media

Een surrogaat model: wat is dat?

Een gekalibreerd en gevalideerd hydrologisch overstromingsmodel vormt de basis van het surrogaat model. Een surrogaat model kan vervolgens op verschillende manieren worden ontwikkeld. Een manier is door gebruik te maken van machine-learning. Een voorbeeld is een neuraal netwerk, dit is een modeltype dat enigszins vergelijkbaar met onze hersenen functioneert en dat bestaat uit een netwerk van neuronen, verbindingen en gewichten. Zo’n netwerk ‘leert’ de relatie tussen input en output data. Dat leerproces heet ook wel ‘trainen’ en gebeurt onder andere door het aanpassen van de gewichten in het netwerk totdat het netwerk output data kan berekenen op basis van de input data.

Een machine-learning model leert de (niet-lineaire) verbanden tussen input en output, waardoor het na het trainen in staat is om de juiste output te voorspellen, ook in een nieuwe situatie. De input data voor het hydrologische model vormt ook de input van het machine-learning model. Hierbij kan er gekozen worden voor één of meerdere input variabelen (bijv. neerslag, initiële (grond)waterstanden). De resultaten van het hydrologische model (denk bijvoorbeeld aan de waterdiepte op het maaiveld), vormt de output data. De input en output data samen vormen vervolgens de dataset die nodig is om het machine-learning model te trainen en gewichten in het neurale netwerk te bepalen.

Het genereren van deze dataset met behulp van het hydrologisch overstromingsmodel kost relatief veel tijd. Daarom wordt bij het gebruik van machine-learning modellen de rekentijd vooral naar voren verplaatst: de tijdsintensieve stap van het rekenen gebeurt buiten de operationele context in plaats van tijdens neerslag events.

Figuur 2. Het machine-learning model wordt getraind met de input dataset van het hydrolo-gische model (bijvoorbeeld de neerslag) en met de output dataset van het hydrologische model (bijvoorbeeld de waterdiepte op het maaiveld).

Verschillende toepassingen

Bij HydroLogic gebruiken we machine-learning modellen voor verschillende toepassingen. Om een beter beeld te krijgen van de mogelijkheden, lichten we drie verschillende voorbeelden toe:

  • Voor de gemeente Amersfoort maakten we gebruik van een machine-learning model dat het overstromingsvolume voor elke rioleringskolk in het rioolstelsel voorspelt. De neerslagverwachting is daarbij de input.
  • Voor polder de Tol (Hoogheemraadschap De Stichtse Rijnlanden; gemeente Utrecht) heeft HydroLogic een machine-learning model ontwikkeld dat in staat is om supersnel en nauwkeurig ruimtelijk wateroverlast te voorspellen. Ook hierbij is de neerslagverwachting de input voor het model.
  • Voor de gemeente Tilburg gebruikten we een machine-learning model dat de maximale inundatiediepte op straat berekent (Figuur 3). De neerslagverwachting wordt als input voor het model gebruikt.

Binnen het waterbeheer zijn er verschillende toepassingsmogelijkheden van machine-learning. In alle gevallen heeft het machine-learning model een rekentijd van minder dan één seconde. Omdat de surrogaat modellen zo snel en nauwkeurig het gedetailleerde hydrologische model kunnen nabootsen, is dit een waardevol hulpmiddel voor waterbeheerders in de operationele context. Dit opent fantastische mogelijkheden voor real-time toepassing en automatische waarschuwing van gemeente ambtenaren en burgers over wateroverlast, nog voordat iemand er iets ervan heeft gemerkt of een melding heeft kunnen doen.

Figuur 3. Dit machine-learning model is getraind voor Udenhout (gemeente Tilburg) en kan binnen één seconde wateroverlast op straat te voorspellen (Janssen, 2023).

Wanneer je een surrogaat model ontwikkelt, heb je keuze tussen verschillende output variabele(n). In de voorbeelden kijken we onder andere naar wateroverlast en daarom zijn de waterdiepte op het maaiveld (zowel het maximum als een tijdreeks), het overstromingsvolume per rioleringskolk, en de waterstand in watergangen logische output variabelen. Maar ook andere variabelen zoals afvoeren, grondwaterstanden en zelfs waterkwaliteit kunnen worden berekend en voorspeld met behulp van machine-learning technieken. Met surrogaat modellen is het in principe mogelijk om elke variabele te voorspellen, zolang deze maar gemodelleerd wordt met het achterliggende hydrologische model.

Naast het trainen van neurale netwerken, kunnen machine-learning technieken ook worden gebruikt voor andere doeleinden. Denk bijvoorbeeld aan (lineaire) regressie of een classificatie probleem. Met behulp van bijvoorbeeld een ‘decision tree’ kan op basis van een aantal indicatoren een bepaalde voorspelling voor een (discrete) klasse worden gedaan. Een voorbeeld uit het waterbeheer is om op basis van de voorspelde neerslag, beschikbare bodemberging en landgebruik (indicatoren) te voorspellen: of er weinig, gemiddeld of veel kans is op wateroverlast. Machine-learning modellen kunnen dus voor veel verschillende toepassingen in het waterbeheer worden ingezet.

Data kwantiteit en kwaliteit

Om een betrouwbaar machine-learning model te bouwen, is vooral voldoende data van goede kwaliteit nodig. Dit heeft het machine-learning model nodig om de soms complexe relaties tussen de input en output data goed te kunnen nabootsen. Uit eerdere studies van HydroLogic (Hop, 2023), bleek dat de data van 1600 simulaties ruim voldoende was om een machine-learning model te trainen voor een landelijk gebied. Dit machine-learning model voorspelt voor polder De Tol (Hoogheemraadschap De Stichtse Rijnlanden) de inundatiediepte op het maaiveld in de vorm van een tijdreeks, op basis van de neerslagverwachting. De gemiddelde fout van het machine-learning model ten opzichte van het hydrologische overstromingsmodel is slechts 0.0001 m. Dit model is dus in staat om zeer nauwkeurig en snel de wateroverlast in het landelijke gebied te voorspellen. Zo ontstaat meer handelingsperspectief voor waterbeheerders, boeren en burgers.

Figuur 4. Het machine-learning model van Hop (2023) is in staat om binnen enkele seconden en zeer nauwkeurig (mean average error van 0.0001 m) de waterdiepte op het maaiveld te berekenen. Linksboven een voorbeeld van de output van het hydrologische overstromingsmodel, en rechtsboven de voorspelling van het machine-learning model. Linksonder laat het verschil tussen het machine-learning model en het hydrologische model ruimtelijk zien en rechtsonder per pixel. 

Bij de studie voor de gemeente Tilburg bleek dat 80 simulaties niet voldoende is voor het machine-learning model om de complexe relatie op te pikken tussen de maximale waterdiepte en de neerslag tijdreeks in een stedelijk gebied. Het ging hierbij om een gebied met 28.000 grid cellen van elk 5 m x 5 m.

Bij de studie voor de Gemeente Amersfoort hebben we gekeken naar het overstromingsvolume per tijdstap voor 230 rioleringskolken in Hooglanderveen. Hieruit bleek dat een dataset van 125 simulaties voldoende was om het machine-learning model nauwkeurig te trainen en te valideren. Het aantal benodigde simulaties is in de praktijk sterk afhankelijk van de complexiteit van het na te bootsen proces en de grootte van het studiegebied.

Representatief, schaalbaar & robuust?

De representativiteit van surrogaat modellen is een belangrijk aandachtspunt wanneer deze worden gebruikt in de operationele context. Omdat machine-learning modellen niet direct zijn gekoppeld aan de fysische eigenschappen van het systeem, betekent het dat bij een verandering in het systeem het machine-learning model mogelijk niet meer representatief is. Denk bijvoorbeeld aan aanpassingen aan de riolering of een herinrichting van een woonwijk. Het machine-learning model is immers getraind op andere fysische systeemeigenschappen. Aanpassingen zullen eerst moeten worden doorgevoerd in het hydrologische model (inclusief een nieuwe kalibratie en validatie), waarna de training data voor het machine-learning model opnieuw gegenereerd moeten worden. Dit proces kost tijd en is een belangrijke overweging bij het gebruik van een machine-learning model in de operationele situatie. De ontwikkelde tools en scripts voor het genereren van de data en het trainingsproces van het machine-learning model kunnen in een dergelijke situatie wel hergebruikt worden.

Ook de schaalbaarheid is een belangrijk aandachtspunt bij het gebruik van surrogaat modellen. Bij het toepassen van machine-learning technieken, heeft de grootte en complexiteit van het studiegebied vooral invloed op de tijd die het kost om de training dataset te genereren. Daarna heeft de grootte en complexiteit van het studiegebied nog invloed op de rekentijd van het machine-learning model, maar dit gaat om slechts enkele milliseconden. In de praktijk is dit dus nauwelijks merkbaar. Het nabewerken van de resultaten kost waarschijnlijk wel meer tijd bij een groter studiegebied.

Verschillende studies hebben laten zien dat machine-learning modellen in staat zijn om wateroverlast nauwkeurig te voorspellen met een neerslag tijdreeks als input. Wanneer deze modellen in de praktijk worden gebruikt, bijvoorbeeld over aankomende wateroverlast, dan zal de neerslagverwachting worden gebruikt als input. De nauwkeurigheid van de resultaten is daarmee ook afhankelijk van de kwaliteit van de neerslagverwachting. Deze onzekerheid in de input data geldt overigens net zo goed voor hydrologische overstromingsmodellen in de operationele context. De timing en locatie van extreme buien is lastig te voorspellen en daarmee neemt de onzekerheid in de modelresultaten dus toe.

Figuur 5. Dit machine-learning model voorspelt binnen één seconde het overstromingsvolume per rioleringskolk voor Hooglanderveen (gemeente Amersfoort). Het model rekent snel ( < 1 seconde) en nauwkeurig (gemiddelde fout van 2 mm water op straat).

Bij een machine-learning model is het belangrijk om te beseffen dat het model alleen in staat is om nauwkeurig te voorspellen in de situaties waar het ook voor getraind is. Dit betekent bijvoorbeeld dat het model onnauwkeurig zal voorspellen bij een situatie die extremer is dan alle simulaties in de training dataset. Als het machine-learning model is getraind met behulp van een dataset waarbij 100 mm neerslag in één dag het maximum is, dan zal het voorspellen van 120 mm neerslag per dag lastig worden. Een aanname is ook dat de initiële condities in het watersysteem (als deze niet als input variabelen worden meegenomen), gelijk zijn met de trainingsdataset. Wanneer het machine-learning model bijvoorbeeld is getraind op een dataset waarbij de initiële (grond)waterstanden laag zijn, dan zal het model een onderschatting geven als de (grond)waterstanden in werkelijkheid hoog zijn. Een oplossing hiervoor kan zijn om variabelen die de resultaten (significant) beïnvloeden, mee te nemen in de training dataset. Een hoog aantal input variabelen maakt het trainen van het machine-learning model wel complexer en tijdsintensiever. Met behulp van kennis over het fysische proces, kunnen de juiste input variabelen gekozen worden.

Snel én nauwkeuring overstromingen modelleren

Machine-learning modellen zijn significant sneller dan gedetailleerde 2D hydrologische overstromingsmodellen: binnen één seconde voorspelt het machine-learning model de output variabele van een hydrologische overstromingsmodel voor elke tijdstap in elke cel. Dit maakt machine-learning modellen erg geschikt om wateroverlast te voorspellen in de operationele situatie. Dit besef is er ook bij de heer Jan Janssens-Baan van de gemeente Tilburg:

“Doordat neural networks zo snel kunnen rekenen, denk ik dat dit soort modellen veel potentieel hebben en goed gebruikt zouden kunnen worden voor het voorspellen van wateroverlast in de operationele setting.”

- Jan Janssens-Baan, expert Stedelijk Water bij Gemeente Tilburg.

Mits we kunnen beschikken over voldoende trainingsdata van goede kwaliteit, zijn machine-learning modellen in staat om erg nauwkeurig een hydrologisch overstromingsmodel te benaderen. Wel zijn er een aantal belangrijke overwegingen bij het gebruik van machine-learning modellen in het waterbeheer. De robuustheid en schaalbaarheid van het machine-learning model zijn belangrijke aandachtspunten. Wanneer eenzelfde model vaak wordt ingezet, zoals bijvoorbeeld in de operationele context, dan kan een machine-learning model van grote toegevoegde waarde zijn. Waterbeheerders kunnen deze modellen gebruiken om real-time, snel en nauwkeurig wateroverlast te voorspellen. Daarmee ontstaat voor hen en ook andere belanghebbenden meer handelingsperspectief, kunnen tijdig de juiste maatregelen worden genomen en kan overlast en schade worden beperkt. Deze ontwikkelingen en innovaties zijn nu al toepasbaar in de praktijk en beloven nog veel meer voor de toekomst!

Meer weten? Neem contact op met Arnold Lobbrecht. Of lees de Master thesis van Laura Janssen: http://essay.utwente.nl/96434/1/Janssen_MA_ET.pdf of de Master thesis van Fedde Hop: http://essay.utwente.nl/94319/1/Hop_MA_ET.pdf.

Referenties

AD. (2023, 12). Nederland kampt met hoogwater:kelders en straten onder water. AD. Opgehaald van https://www.ad.nl/video/productie/nederland-kampt-met-hoogwater-kelders-en-straten-onder-water-418227

Hop, F. (2023). Rapid generation of probabilistic inundation forecasts by utilizing cloud computing and deap. Master thesis, University of Twente. Retrieved from http://essay.utwente.nl/94319/1/Hop_MA_ET.pdf

Janssen, L. (2023). Surrogate models: a solution for real-time inundatino forecasting? Master thesis, University of Twente. Retrieved from http://essay.utwente.nl/96434/1/Janssen_MA_ET.pdf