Entwicklung eines Tools zur maschinellen Identifikation von Schweizer Pflanzenarten basierend auf Fotos und Standorteigenschaften

Projektleitung

Niklaus Zimmermann

Stellvertretung

Dirk Karger

Projektmitarbeitende

Philipp Brun
Patrice Descombes
Lucienne Claudine de Witte

Projektdauer

2020 - 2022

Kooperation

Finanzierung

Swiss Data Science Center

Entwicklung eines Tools zur maschinellen Identifikation von Schweizer Pflanzenarten basierend auf Fotos und Standorteigenschaften

Ziel des Projektes

Die immensen Fortschritte der maschinellen Bildklassifikation während der letzten zehn Jahre erlaubten die Entwicklung von Mobiltelefon-Apps zur automatischen Erkennung von Pflanzenarten auf Fotos, welche insbesondere für 'Citizen Scientists' sehr hilfreich sind. Solche Apps funktionieren besonders gut für häufige Arten mit charakteristischem Aussehen, während die Bestimmungsgenauigkeit für seltenere Arten, oder Arten die sich ähneln, derzeit bedeutend tiefer ist. In diese zweite Kategorie der ungenau bestimmbaren Arten fallen besonders viele der ca. 4000 Schweizer Pflanzenarten. In diesem Projekt entwicklen wir eine neue Methode zur automatisierten Pflanzenerkennung basierend auf 'deep learning'. Wir ergänzen Bildinformation mit Information über Standortbedingungen und Detailangaben zu entscheidenden Pflanzenmerkmalen. Wir erwarten, dass die Kombination dieser wichtigen Informationstypen die Klassifikationsgenauigkeit erheblich verbessern wird, und dass diese Verbesserungen schlussendlich 'Citizen scientists' im Feld bei der Erhebung von genauen Daten unterstützen werden.

Welche Art ist das? Mit den geplanten Entwicklungen in diesem Projekt erwarten wir dereinst solch ähnliche Arten automatisch unterscheiden zu können in dem wir Fotos sowie Standorteigenschaften berücksichtigen.

Das Tool, welches in diesem Projekt entwickelt wird, soll dereinst 'Citizen Scientists' bei der Bestimmung von Pflanzenarten im Feld unterstützen, sowie eine Qualitätsprüfung von Artbeobachtugen in Biodiversitätsdatenbanken erlauben

Mai 2022

Wir konnten nun eine fünfte Generation neuronaler Netze mit 1.19 Millionen Bildern und 8.04 Millionen Beobachtungen für 2’516 Arten trainieren. Die Bilddatenbank konnte mit 35'746 Fotos, die das Projekt „Flora des Kantons Zürich“ beisteuert, 5'917 Fotos, die seit Dezember neu auf die Info Flora-Datenbank geladen wurden und 184’882 zusätzlichen GBIF-Bildern erweitert werden. Für diese Generation haben wir die Validierung des Modells mit manuell ausgewählten Testbildern gestartet. Dies konnte für rund einen Drittel der Arten gemacht werden. Zudem wird nun nicht nur mehr mit Bildausschnitten (Center Crops) validiert, sondern mit den ganzen Fotos.

Neu kann das Modell 77.7% der einzelnen Testbilder korrekt identifizieren, während für 93.2 % der einzelnen Testbilder der korrekte Name unter den ersten fünf Arten ist, die das Modell als am wahrscheinlichsten erachtet. Für Beobachtungen mit mehreren Bildern (typischerweise 3), konnte die Identifikationsgenauigkeit auf 84.4% (top 1) und auf 96.8% (top 5) verbessert werden. Der Einbezug der Standortinformationen erhöhte die Statistiken für Einzelbilder in dieser Generation in einem ähnlichen Rahmen wie zuvor auf 81.8% (top 1), respektive 95.0% (top 5). Für Beobachtungen mit mehreren Bildern wurden die Statistiken auf 85.4% (top 1) und 97.2% (top 5) erhöht. Eine aktuelle Übersicht über die Bestimmungsgenauigkeiten auf Art-Ebene befindet sich in diesem PDF Dokument.

Die klare Steigerung der Bestimmungsgenauigkeit aufgrund der manuell ausgewählten Bilder von guter Qualität zeigt uns, dass die zufällige Auswahl von Testbildern das Potenzial des Modells unterschätzt hatte. Die Hauptursache für diese Unterschätzung liegt darin, dass bei der zufälligen Auswahl von Testbildern auch solche verwendet werden, die zu unscharf sind oder falsche Bildinformation wie z.B. Falschidentifikationen enthalten. Daher werden wir die manuelle Testbildauswahl die kommenden Monate fortsetzen. Gleichzeitig wollen wir unsere Feldkampagne weiterführen, um die Datenbank mit Bildern von jenen Arten zu ergänzen, die immer noch zu wenig oft fotografiert wurden.

Januar 2022

Über den Jahreswechsel konnten wir eine vierte Generation neuronaler Netze mit 1.17 Mio Bildern für 2’533 Arten trainieren. Die Datenbank konnten wir folgendermassen erweitern:

9’200 zusätzliche Trainingsbilder für 265 schwierig identifizierbare Taxa, die während der Feldsaison 2021 vom COMECO Team gemacht wurden
57’471 neue Fotos, die seit August 2021 auf die Info Flora-Datenbank hochgeladen wurden
158’226 neue Bilder, die seit August 2021 auf der GBIF-Datenbank erhältlich sind

Neu dabei waren insbesondere Pflanzenarten, die schwer zu identifizieren sind, darunter einige Grasarten z.B. der Gattung Festuca. Wir erwarteten deshalb eine etwas tiefere Identifikationsgenauigkeit des Modells gegenüber der letzten Generation. Die neuen Resultate zeigen allerdings, dass dieser Rückgang in der Genauigkeit marginal war: Das Modell identifiziert wiederum 73.0% aller Testbilder richtig und für 90.9% der Testbilder ist die richtige Art unter den fünf Arten, die das Netz als am Wahrscheinlichsten erachtet. Daraus schliessen wir, dass die vielen zusätzlichen Bilder pro Art die Identifikationsgenauigkeit beträchtlich verbessern konnten.

Der Einbezug der Standortinformationen erhöhte die Statistiken in dieser Generation in einem ähnlichen Rahmen wie zuvor auf 77.3% respektive, 92.8%. Eine aktuelle Übersicht über die Bestimmungsgenauigkeiten auf Art-Ebene kann in diesem PDF-Dokument eingesehen werden.

In den kommenden Monaten arbeiten wir vor allem an der detaillierten manuellen Auswahl von Testbildern. Damit werden wir auch testen können, welche Motive (z.B. Blätter, Blüten oder Früchte) die genauesten Bestimmungen erlauben.

Während der Feldsaison 2021 konnte das COMECO Team mehrere tausend Fotos schiessen, für rund 300 Arten auf unserer Prioritätenliste. Das ermutigt uns für die kommende Saison, dass wir einen grossen Teil der verbleibenden Arten auf dieser Liste fotografieren können. Trotzdem sind wir auf die Hilfe von Experten angewiesen, insbesondere für gewisse schwierige Arten. Daher möchten wir erneut alle BotanikerInnen bitten, uns Bilder ihrer eigenen Sammlungen zur Verfügung zu stellen. Zu den Arten mit hoher Priorität gehören Grasartige, Apiaceae und Asteraceae sowie Arten der Gattungen Alchemilla, Campanula, Euphorbia, Euphrasia, Gentiana, Ranunculus, Salix und Saxifraga.

Weitere Informationen über prioritäre Arten und Tipps zum Fotografieren gibt es im Abschnitt «Das Projekt unterstützen». Bitte zögert nicht, uns mit euren Fragen oder Bildern einfach via Email zu kontaktieren: luciennec.dewitte_at_wsl.ch

Um dem wachsenden Interesse am COMECO-Projekt gerecht zu werden und Bürgerwissenschaftler zu informieren, wie sie profitieren und mithelfen können, offerieren wir Vorträge und öffentliche Exkursionen in denen wir das Melden von Pflanzenfunden erklären und Tipps für die Pflanzenfotografie geben. Am 11. März gibt es ein gratis Webinar von Info Flora über die Benutzung des Mobiltelefon-Apps «FlorApp» und am Nachmittag des 1. April gehen wir auf Exkursion mit der Basler Botanischen Gesellschaft.

Ende Juni 2021

Soeben haben wir die Berechnungen für die dritte Generation der neuronalen Netze abgeschlossen. Diesen Monat sind folgende Neureungen hinzugekommen:

Inklusion aller InfoFlora Beobachtungen und Bilder die vom 23. April bis zum 26. Mai gemacht wurden.
Inklusion von manuellen Zuschnitten für Fotos aller Arten (max. 20 pro Art).
Inklusion von 1.5 Millionen Fotos, die in öffentlich zugänglichen Biodiversitäts-Datenbanken erhältlich sind. Insbesondere für weitverbreitete und kultivierte Arten konnten wir so die Datengrundlage beträchtlich verbessern.
Verbesserung des neuronalen Netzes zur Vorselektion der Bilder: Für jedes Bild führen wir eine Voranalyse durch um dessen Qualität un Eignung zu prüfen und zum Beispiel verschwommene Bilder oder Bilder von Landschaften heraus zu filtern. Diese verbesserte Vorselektion ist auch etwas strenger als die vorherige, was bedeutet, dass jetzt ein kleinerer Teil der Bilder für die Hauptanalyse verwendet wird.

Mit diesen Erweiterungen konnten wir die Datengrundlage beträchtlich vergrössern und deren Qualität verbessern. Wir haben jetzt knapp eine Million geeignete Trainingsbilder von 2350 Arten, also 651 Arten mehr als im Vormonat. Das neue Bilderkennungs-Netz identifiziert jetzt 72.9% aller Testbilder richting und für 90.4% der Testbilder ist die richtige Art unter den fünf Arten, die das Netz als am Wahrscheinlichsten erachtet. Wenn man Standortinformationen hinzu nimmt, erhöhen sich die Statistiken auf 77.7% respektive 93.0%. Eine aktuelle Übersicht über die Bestummungsgenauigkeiten auf Art-Ebene kann in diesem Dokument eingesehen werden. Weitere Informationen über die Statistiken und prioritäre Arten zum Fotografieren finden Sie im 'Priorität'-Tab im Abschnitt 'Das Projekt Unterstützen'.

Neben einigen kleinen Verbesserungen arbeiten wir als nächstes an einer detailierten Auswahl von Testbildern, so dass wir ein gutes Verständnis dafür entwicklen können, in welchen Fällen die Bestimmungen genauer oder weniger genau sind. Zudem werden wir prüfen in welchen Fällen die Bilder der öffentlichen Biodiversitäts-Datenbanken besonders nützlich waren und wo es mögliche Probleme gibt und wir werden uns darauf konzentrieren möglichst viele gute Bilder von Arten zu sammeln für welche die Bestimmung bis jetzt noch nicht gut funktioniert.

Zehnter Mai 2021

Dieses Wochenende konnten wir die zweite Generation unserer neuronalen Netzte fertigstellen. Die Neureungen im Vergleich zu letztem Monat sind:

Inklusion aller InfoFlora Beobachtungen und Bilder, die vom 9. März bis zum 23. April gemacht wurden
Inklusion der Bilder vom Atlas der Flora des Kantons Waadt als Trainingsbilder
Inklusion von manuellen Ausschnitten von InfoFlora Bildern für ca. 1000 Arten.

Diese Vergrösserung der Datengrundlage und Vesserung derer Qualität hat die Genauigkeit der Netze erhöht. So identifizert das neue Bilderkennungs-Netz jetzt 74.4% der Testbilder richtig, und für 91.1% der Testbilder ist die richtige Art unter den fünf Arten, die das Netz als die wahrscheinlichsten erachtet. Werden Bild- und Standortinformation kombiniert, erreichen wir jetzt eine Genauigkeit von 78.3% und 93.1% in den entsprechenden Statistiken. Wenn das Bilderkennungsnetz zwei Bilder zur Verfügung hat, um die Art einer Testbeobachtung zu Erkennen, wird die Art in 85.3% der Fälle richtig identifizert. Zudem konnten wir die Anzahl Arten, für welche wir ausreichend Bildmaterial zur Verfügung haben, um 40 auf 1699 erhöhen. Neu hinzugekommen sind:

Anemone blanda Schott & Kotschy
Anthriscus caucalis M. Bieb.
Armoracia rusticana G. Gaertn. & al.
Asparagus officinalis L.
Asplenium billotii F. W. Schultz
Aubrieta deltoidea (L.) DC.
Butomus umbellatus L.
Camelina microcarpa DC.
Cistus salviifolius L.
Clypeola jonthlaspi L.
Cotoneaster salicifolius Franch.'
Diplotaxis muralis (L.) DC.
Dorycnium herbaceum Vill.
Draba tomentosa Clairv.
Drosera ×obovata Mert. & W. D. J. Koch
Euphorbia myrsinites L.
Forsythia ×intermedia Zabel
Galega officinalis L.
Gentiana insubrica Kunz
Hemerocallis fulva (L.) L.
Himantoglossum robertianum (Loisel.) P. Delforge
Hymenolobus pauciflorus (W. D. J. Koch) Schinz & Thell.
Isopyrum thalictroides L.
Lathyrus sphaericus Retz.
Laurus nobilis L.
Lonicera nitida E. H. Wilson
Lythrum portula (L.) D. A. Webb
Muscari armeniacum Baker
Myosotis discolor Pers.
Nigella damascena L.
Peucedanum venetum (Spreng.) W. D. J. Koch
Pisum sativum L.
Potentilla heptaphylla L.
Primula acaulis × veris
Pteris cretica L.
Quercus cerris L.
Scilla siberica Haw.
Sisymbrium irio L.
Spirodela polyrhiza (L.) Schleid.
Symphytum bulbosum K. F. Schimp.
Thuja plicata D. Don
Veronica praecox All.
Viola collina Besser

(Drei Arten wurden nach Modifikationen an der Datenbank wieder unter die Limite von 30 Beobachtungen mit Bildern gefallen.) Eine aktualisierte Übersicht über Bestimmungsgenauigkeiten auf Art-Ebene kann in diesem Dokument eingesehen werden. Weitere Informationen über die Statistiken und prioritäre Arten zum Fotografieren finden Sie im 'Priorität'-Tab im Abschnitt 'Das Projekt Unterstützen'.

Wichtig ist, dass dies vorläufige Resultate sind, die mit Vorsicht betrachtet werden sollten. In den kommenden Monaten werden wir Trainings- und vor allem Testdaten noch gründlich säubern und anpassen, weshalb die Qualitäts-Werte, insbesondere auf Art-Ebene, noch deutlich ändern können. Angaben darüber, ob das vorhandene Bildmaterial reicht oder nicht, sind da schon zuverlässiger.

Ostern 2021

Wir haben soeben die ersten neuronalen Netze trainiert und erreichen schon ordentliche Klassifikationsgenauigkeiten für 1659 Arten. Nur basierend auf Bildinformation identifizert das beste Netz bis jetzt 72.2% der Testbilder richtig, und für 90.4% der Testbilder ist die richtige Art unter den fünf Arten, die das Netz als am wahrscheinlichsten errechnet. Wenn wir Standortinformationen hinzunehmen, erhöhen sich die Werte auf 76.0% richtige Klassifizierungen und 92.4% unter den fünf wahrscheinlichsten Vorschlägen. Obwohl dies ermutigende erste Resultate sind, zeigen sie auch, dass es noch zahlreiche Arten gibt, für welche die Bestimmungen noch nicht gut funktionieren. Zudem reicht das Bildmaterial momentan nicht aus für die Beurteilung von fast 2000 Arten. Eine detaillierte Übersicht über Bestimmungsgenauigkeiten auf Art-Ebene kann in diesem Dokument eingesehen werden. Weitere Informationen über die Statistiken und prioritäre Arten zum Fotografieren finden Sie im 'Priorität'-Tab im Abschnitt 'Das Projekt Unterstützen'.

Allgemein

Warum wir Ihre Unterstützung brauchen

Damit wir einen zuverlässigen Algorithmus entwickeln können, brauchen wir ca. 100 gute Bilder für sämtliche Schweizer Pflanzenarten, egal ob einheimisch, naturalisiert oder kultiviert. Wir greifen dafür auf die anonymisierten Einträge der Info Flora-Datenbank zurück, die momentan ca. 500'000 Pflanzenbilder enthält. Für ein paar wenige, weitverbreitete Arten haben wir schon sehr viele Bilder, für die allermeisten Arten reichen die Bilder momentan aber bei Weitem nicht (siehe Priorität-Tab). Der Erfolg dieses Projekts ist also zu einem guten Teil davon abhängig wieviele gute Pflanzenfotos wir von BotanikerInnen und 'Citizen Scientists' in der Saison 2022 erhalten werden.

Wie Sie helfen können

Wir führen dieses Projekt in Zusammenarbeit mit «Info Flora» durch und verwenden Info Flora-Datenbank und Infrastruktur. Info Flora bietet eine benutzerfreundliche Plattform mit welcher alle Interessierten Pflanzenbeobachtungen in der Schweiz mit Bildbelegen in standardisierter Weise melden können. Dies ist insbesondere mit der «FlorApp» für Mobiltelefone möglich, mit welcher Beobachtungen direkt im Feld gemacht werden können (siehe Anleitung). Wer es bevorzugt, Pflanzenfotos nicht mit der Mobiltelefon-Kamera zu machen, kann die Feldbeobachtungen über das «Online-Feldbuch» nachträglich ergänzen.

Wenn Sie über eine grössere und informative Bilddatenbank verfügen, z.B. mit über 1000 Fotos, die Sie für dieses Projekt beisteuern möchten, kontaktieren Sie uns am besten direkt via Email: luciennec.dewitte_at_wsl.ch. Diese Fotos sollten nicht bereits in die Info Flora-Datenbank aufgenommen und mit korrekten Artnamen beschriftet sein.

Wie Ihre Unterstützung der Gemeinschaft zugutekommt

Wir planen den entwickelten Algorithms in Zukunft als Bestimmungsmodul in der «FlorApp» für alle frei zugänglich zu machen. Es soll Interessierte bei der Bestimmung von Pflanzenarten in Echtzeit unterstützen und ihnen so die Möglichkeit geben, ihre botanischen Kenntnisse effizient zu verbessern. Je mehr Bilder wir erhalten, desto grösser wird diese Unterstützung sein.

Priorität

Priorität haben insbesondere Arten, für welche wir momentan weniger als 30 Beobachtungen haben, und Arten, welche momentan nur ungenau identifiziert werden können anhand der vorhandenen Bilder in der Datenbank. Alle Arten, die das betrifft, haben wir in dieser PDF-Datei zusammengestellt, wobei als Qualitätskriterium eine Top1-Genauigkeit des Grundalgorithmus von weniger als 50% definiert ist. Es ist zu beachten, dass die Qualitäts-Werte provisorisch und nicht immer zuverlässig sind. Wir haben vor, die Prioritätskriterien noch enger zu definieren und auf ein paar hundert Schlüsselarten zu begrenzen. Wer die Qualitätsdaten lieber in tabellarischer Form hat, um die Daten besser sortieren zu können, findet hier eine XLS-Datei der vollen Qualitätsliste.

Erklärungen zu den Dokumenten

Zum Bestimmen der Klassifikationsgenauigkeit sortieren wir für jede Art mindestens fünf Fotos aus, welche der Algorithmus in der Trainingsphase nicht 'zu sehen' bekommt. Für jedes dieser Fotos errechnet der Algorithmus in der Testphase dann, mit welcher Wahrscheinlichkeit die verschiedenen Arten darauf abgebildet sein könnten. Daraus leiten wir folgende Statistiken ab:

Top 1: Die Art, welche der Algorithmus als die wahrscheinlichste bewertet, ist die richtige.
Top 5: Die richtige Art ist unter den fünf Arten, die vom Algorithms als am wahrscheinlichsten bewertet werden.
Ungenüngend Bildmaterial (dunkelrote Ringe): Wir hatten weniger als 30 Beobachtungen mit geeigneten Bildern zur Verfügung. Die Eignung der Fotos wird in einer vorgeschalteten Eignungsanalyse automatisch beweretet. Im Tab 'Wie man nützliche Fotos macht' sind die Kriterien beschrieben, die wir dabei beachten. Die grösse des dunkelroten Rings weist dabei auf die Anzahl Beobachtungen mit geeigneten Bildern hin.
Bild: Grundalgorithmus, der Klassierungen nur basierend auf Bildinformation und unabhängig vom Standort macht.
Bild & Ort: Erweiterter Algorithmus, der auch ökologische Standorteigenschaften für die Klassierungen berücksichtigt.

Wie man nützliche Fotos macht

Bildformat

Um den Bilderkennungs-Algorithmus zu trainieren benutzen wir quadratische Bildformate. Pflanzenbilder sollten idealerweise eine Auflösung von 500×500 Pixel oder mehr haben. Falls eingesendete Bilder nicht qudratisch zugeschnitten sind, wird für die Analyse automatisch das grösstmögliche zentrale Quadrat ausgeschnitten.

Bildinhalt

Die Bilder sollten gut belichtet und scharf sein, und hauptsächlich die gemeldete Pflanzenart enthalten. Diese sollte sich in der Bildmitte befinden. Mehrere Fotos, die verschiedene Ansichten einer Beobachtung wiedergeben sind erwünscht. Diese sollten nach Möglichkeit auf verschiedene Organe fokussieren, insbesondere Blüte, Blatt, Frucht, und Stengel, und aus verschiedener Distanz aufgenommen werden, insbesondere Gruppen von Individuen, Individuen, und Organe. Zudem sind Beobachtungen von Individuen in verschiedenen Lebensstadien hilfreich, wobei das Pflanzenmaterial frisch/grün sein sollte. Unscharfe und schlecht belichtete Bilder, Bilder von Landschaften oder mehreren Arten auf einmal müssen aussortiert werden und sind daher nicht erwünscht.