Nr. 246: Ny fosformodel til estimering af årlig vandføringsvægtet koncentration af total fosfor fra diffuse kilder i ID15-oplande

Larsen, S.E., Kjeldgaard, A., Windolf, J., Tornbjerg, H. & Kronvang, B. 2022. Ny fosformodel til estimering af årlig vandføringsvægtet koncentration af total fosfor fra diffuse kilder i ID15-oplande. Aarhus Universitet, DCE – Nationalt Center for Miljø og Energi, 80 s. - Teknisk rapport nr. 246. http://dce2.au.dk/pub/TR246.pdf

Sammenfatning

I denne rapport er der i flere trin gennemført statistiske analyser med det formål at udvikle en ny model til estimering af den vandføringsvægtede total fosfor koncentration i vandløb, der afvander typeoplande med et oplandsareal på i gennemsnit ca. 20 km². Slutproduktet er en model for årskoncentrationen af total fosfor (TP) udviklet i maskinlæringssoftwaren ’DataRobot’.

Der er i de statistiske analyser arbejdet med at udvikle en model på logaritme-transformerede data. Der indgår i datasættet til udvikling af modellen et datasæt fra i alt 207 vandløbsoplande med 2389 observationer af den vandføringsvægtede årskoncentration af TP som input til krydsvalideringen i DataRobot. I et helt uafhængigt datasæt indgår der data fra i alt 142 vandløbsoplande med i alt 1261 observationer af den vandføringsvægtede årskoncentration af TP.

Den til slut udviklede maskinlæringsmodel er af typen ‘eXtreme Gradient Boosted Trees Regressor with early stopping’ og indeholder i alt 13 forklarende variable, herunder, som eksempler på de mest betydende variable i modellen, viden om omfanget af dræning i oplandet, befæstet areal i oplandet, dyrkningsgrad i oplandet, omfanget af brinkerosion i oplandet og den årlige nedbørsafvigelse fra et langtidsgennemsnit.

De tre lag i udviklingen af maskinlæringsmodellen i DataRobot har følgende forklaringsgrader: Træningsdatasættet, som består af 64 % af data (R² = 0,69), valideringsdatasættet, som består af 16 % af data (R² = 0,71), og hold out datasættet med 20 % af data (R² = 0,67). Hertil kommer en validering af modellen på det uafhængige datasæt, som har en god forklaringsgrad (R²) både før (0,62) og efter (0,41) tilbagetransformering. Den nye udviklede TP-model har derfor en langt større forklaringsgrad end den tidligere anvendte TP-model i NOVANA-beregningerne.

Ved skifte fra den nuværende anvendte bias-korrigerede TP-model til den nyudviklede maskinlærings TP-model i denne rapport falder den hidtidige beberegnede TP-tilførsel til kystvande i Danmark med ca. 3 % i perioden 1990-2019. Skiftet til den nye TP-model vil i enkelte år maksimalt ændre tilførslen til 2.-ordens kystafsnit med fald på fra 0,9-6,9 %.

Usikkerheden på den udviklede nye maskinlærings-TP-model er beregnet på baggrund af valideringen af modellen på det helt uafhængige valideringsdatasæt af typeoplande (N=1261) samt kalibreringsdatasættet (N=2389). Root Mean Square Error (RMSE) er beregnet til at være lille og modellen derfor god (<0,2) for langt de fleste georegioner baseret på det uafhængige validerings datasæt. Tilsvarende er Mean Absolute Error (MAE) relativ lille for de fleste georegioner (0,003-0,055 mg P/l).

Revideret 12.09.2023