MHWM: Wykorzystanie metod uczenia maszynowego Random Forest do oceny jakości wód powierzchniowych
W magazynie naukowym Meteorology Hydrology and Water Management ukazał się artykuł poświęcony analizie skuteczności metod uczenia maszynowego, w szczególności modelu regresji Random Forest (RF), w prognozowaniu wartości wybranych wskaźników jakości wody, w którym przeprowadzono identyfikację parametrów wpływających na ich kształtowanie. W publikacji “Assessing the efficiency of a random forest regression model for estimating water quality indicators” przedstawiono wyniki dla trzech wybranych wskaźników – tj. zawartości rozpuszczonego tlenu (DO), przewodności właściwej (K) i zmętnienia (Tu) – w odniesieniu do 11 zlewni w stanach Wirginia, Maryland i Dystrykcie Kolumbii. Wykorzystano dzienne dane pomiarowe z dziesięciu lat na temat jakości wód oraz informacje hydrometeorologiczne (takie jak opady) i wybrane charakterystyki zlewni (w tym wielkość, rodzaj gleby, użytkowanie gruntów).
Model regresji RF opracowywano dla sześciu zestawów danych uczących, zwiększając liczbę zmiennych wejściowych modelu. W początkowym zestawie zakres informacji wejściowej obejmował wskaźniki jakości wody: DO, K i Tu, natomiast zestaw szósty zawierał wszystkie dostępne zmienne. Ocenę wyników modeli opartych na RF przeprowadzono na podstawie następujących kryteriów: względny błąd średniokwadratowy, współczynnik korelacji i procent wariancji wyjaśnionej. Oszacowane wagi poszczególnych parametrów wejściowych modelu stanowiły podstawę ich uszeregowania pod względem istotności w procesie kształtowania się poziomów analizowanych wskaźników zanieczyszczeń.
Autorzy wykazali, że model RF daje bardzo dobre wyniki w przypadku prognozy wskaźnika DO. Słabsze uzyskano w przypadku wskaźnika K, najgorsze dla wskaźnika Tu. Zestaw danych uczących, opracowany w oparciu o wskaźniki jakości wody, dane hydrometeorologiczne i parametry fizjograficzne zlewni, zapewnił największą efektywność modelu pod względem jakości uzyskiwanych wyników a ilością informacji potrzebnych do opracowania modelu. Zdaniem autorów pokrycie terenu odgrywa znaczącą rolę w prognozowaniu wskaźników jakości wody z zastosowaniem analizowanej metody. Ponadto technika uczenia maszynowego z wykorzystaniem regresji RF może mieć szerokie zastosowanie w zlewniach o zróżnicowanym reżimie klimatycznym.
Więcej szczegółów https://doi.org/10.26491/mhwm/183734.