Sektorspezifische Workshops zu Potentialen und Wirkung annotierter Daten
Im Rahmen des Forschungsvorhabens „LabelledGreenData4All“ untersuchen wir, in welchen Anwendungsbereichen und mit welchen Daten die größten Potenziale für den Einsatz von Künstlicher Intelligenz (KI) im Umweltbereich bestehen und wie das Teilen von annotierten Umweltdaten aus der Ressortforschung des Bundes unterstützt werden kann. Aber in welchen Sektoren entfalten annotierte Daten die größte Wirkung? Welche Chancen und Risiken sowie aktuellen Hemmnisse gibt es in Bezug auf die Bereitstellung und Nutzung annotierter Datensets? Diese und weitere Fragen diskutierten wir in drei sektorspezifischen Workshops mit Fokus auf die Bereiche Landwirtschaft, Forstwirtschaft und Biodiversität.
Annotationen als limitierender Faktor in der Landwirtschaft
Unser Auftaktworkshop am 27.09.2024 befasste sich mit dem Potential annotierter Daten in der digitalen Landwirtschaft. Florian Männer vom Fraunhofer IGD in Rostock stellte dazu den Facettenreichtum an möglichen Anwendungen im Bereich Smart Farming vor - angefangen von der Erstellung von Bodenfeuchtekarten aus Satellitendaten, über die Identifikation von ökologischen Vorrangflächen, der KI-basierten Analyse von Drohnenbildern zur Biodiversitätsbestimmung, das Erkennen von Pilzerkrankungen und Insektenbefall an Erdbeerpflanzen im Folientunnel bis hin zu Analysen in den Bereichen Tierhaltung, Tierwohl und Tiergesundheit (zum Beispiel Lahmheitserkennung von Kühen, Schmerzerkennung bei Mäusen).
In der anschließenden Diskussion ging es vor allem um die Wiederverwendbarkeit annotierter Daten und um Strategien für das effektive Arbeiten mit wenigen Trainingsdaten. Vor allem die Nachnutzung annotierter Daten gestaltet sich oft sehr schwierig, da die Anwendungsfälle meist heterogen und spezifisch sind und es nur wenige Überschneidungen in Bezug auf Daten und / oder die Methodik gibt. Eine Ausnahme bildet der Pflanzenbau, in welchem häufig zweidimensionale Bilder verwendet werden und ein vergleichsweise homogenes Bild an Daten besteht. Im Gegensatz dazu sind die Ansätze in den Bereichen Tierwohl und Tiergesundheit sehr individuell.
Das größte Potential in der Landwirtschaft sieht Florian Männer in der Ökologie und Artenerkennung. Er räumt jedoch ein, dass dieses nur dann ausgeschöpft werden kann, wenn die entsprechenden Daten zur Verfügung stehen. In diesem Zusammenhang weist er darauf hin, dass es derzeit nur wenige Drohnendaten für die Artenerkennung gibt. Sein Team setzt daher auf die Generierung synthetischer Daten, um künstlich eine Vielfalt zu erzeugen, die in der Natur so nicht vorkommt. Florian Männer betonte auch, dass die zeitliche Mehrfachdatenerfassung für die Bereitstellung von Trainingsdaten in der Landwirtschaft ebenfalls sehr wertvoll ist.
Im Workshop haben wir gemeinsam festgestellt, dass nicht die Erfassung der Daten die größte Herausforderung darstellt, sondern vielmehr der zeitliche Aufwand und die intensive Arbeit, die für eine qualitativ hochwertige Annotation der Daten erforderlich sind.
Ergebnisse
- Intelligente Landwirtschaft profitiert enorm von Big Data und maschinellem Lernen (ML).
- ML hat zu erheblichen Fortschritten bei Effizienz, Nachhaltigkeit und Produktivität geführt.
- Die Landwirtschaft gehört zu den Vorreitern im Bereich des Einsatzes von KI und ist dabei den meisten anderen Sektoren voraus.
- Ökologie und Artenerkennung haben großes Potential, wobei die Wiederverwendbarkeit von annotierten Daten ein zentraler Aspekt ist.
- Hohe manuelle Aufwände in der Datenannotation (Annotation durch Expertinnen*Experten).
- Mangelnde Standardisierung und Einschränkungen aufgrund von Datenaggregation limitieren die Verfügbarkeit und Nutzbarkeit von Daten, so dass das Potential nicht voll ausgeschöpft werden kann.
Externer Link zur Aufzeichnung des Impulsvortrages von Florian Männer zu „Bioökonomie – Smart Farming | Projekte zur digitalen Landwirtschaft"
„Es gibt keine Kultur des Standardisierens und des Datenteilens in der Forstwirtschaft“
Im zweiten Workshop am 30.09.2024 lag unser Fokus auf dem Potential annotierter Daten für die Digitalisierung der Forstwirtschaft. In seinem Impulsvortrag zeigte Richard Georgi von der OGF GmbH die derzeitigen Grenzen der Standardisierung von Metadaten und Trainingsdaten auf und bekräftigte, dass auch in der Forstwirtschaft die Verfügbarkeit der Daten ein großes Problem darstellt. Er betonte das Potential, das in der Standardisierung und der gemeinsamen Nutzung von Trainingsdaten für die Forstwirtschaft liegt. Dabei wies er darauf hin, wie wichtig es ist, durch die Bündelung der Kräfte und die Etablierung gemeinsamer Standards für Daten und Metadaten ein vernetztes Ökosystem zu schaffen, das es ermöglicht, das volle Potenzial von KI in der Forstwirtschaft auszuschöpfen und nachhaltige Lösungen zu entwickeln.
In der anschließenden Diskussion standen die Themen Standardisierung, Datenverfügbarkeit und Transparenz im Mittelpunkt. Richard Georgi hob hervor, dass ein erhebliches Defizit zwischen den Möglichkeiten und der tatsächlichen Umsetzung in der Praxis besteht - und das vor allem aufgrund der mangelnden Verfügbarkeit von standardisierten und qualitätsgeprüften Daten. So werden Forstinventurdaten und Forschungsdaten in diesem Bereich aktuell nur eingeschränkt geteilt, was das effektive Training von Algorithmen für ML stark einschränkt.
Der Workshop endete mit der klaren Erkenntnis, dass die Einführung eines gemeinsamen Standards für die Datenbereitstellung im Forstsektor unerlässlich ist, um das volle Digitalisierungspotenzial auszuschöpfen. Datenräume bieten hier eine vielversprechende Möglichkeit.
Ergebnisse
- Es besteht eine große Diskrepanz zwischen dem, was technisch möglich ist und dem, was tatsächlich in der Praxis umgesetzt wird, so dass das Potenzial nicht ausgeschöpft wird.
- Datenschutz als zentraler Aspekt für das Datenteilen.
- Transparenz fördert Effizienz.
- Derzeit gibt es keinen gemeinsamen Standard für die Aufbereitung von forstlichen Daten.
- Datenräume als nachhaltige Lösung
Externer Link zur Aufzeichnung des Impulsvortrages von Richard Georgi zu „Trainingsdaten standardisiert erzeugen und gemeinsam nutzen: Der Weg zur KI-gestützten Baumartenerkennung in der Fortswirtschaft“
„KI ist nur so schlau wie die*der Expertin*Experte dahinter“
Der letzte Workshop am 02.10.2024 befasste sich mit dem Thema Biodiversität. Florian Männer vom Fraunhofer IGD stellte in seinem Impulsvortrag aktuelle Technologien und Anwendungen zur Biodiversitätsbestimmung im Grünland, in Mooren und Agrarlandschaften vor. Auf Basis von Luftbilddaten trainiert sein Team Machine Learning-Algorithmen zur Erkennung von Pflanzenarten, Pflanzenbiodiversität und Biotopvielfalt. Dies erfolgt mit annotierten Daten aus eigens dafür erhobenen Datensätzen mittels Drohnen oder Flugzeugbefliegungen, aber auch mit Bilddaten, die bereits annotiert sind oder nachträglich annotiert werden.
Ähnlich wie in der Forstwirtschaft erweist sich die Datenverfügbarkeit auch in der Landwirtschaft als sehr schwierig, da diese Daten direkt von den Landwirtinnen*Landwirten erhoben und bereitgestellt werden. Neben annotierten Daten wurden auch Kontextdaten, wie zum Beispiel Bewirtschaftungsdaten, als wichtige Parameter angesprochen. Bestehende Plattformen wie Flora Incognita sowie Crowdsourcing wurden als mögliche Optionen diskutiert, um zusätzliche Daten in die Analysen einfließen zu lassen.
Aktuell setzt das Fraunhofer IGD auf manuelle Annotationen durch Personen mit botanischem Fachwissen, wie Botaniker*innen oder Ökologinnen*Ökologen. Gleichwohl ist es durch den „Human-in-the-loop“-Ansatz perspektivisch möglich, den manuellen Annotationsaufwand sukzessive zu reduzieren und Algorithmen langfristig effektiver zu trainieren.
Ergebnisse
- ML-Methoden haben vielfältige Anwendungsmöglichkeiten in der Biodiversitätsforschung
- Crowdsourcing als Möglichkeit, die Datenverfügbarkeit zu verbessern
- Expertinnen und Experten sind für das Training von KI unverzichtbar
- „Human-in-the-Loop“ als zentraler Ansatz für die kollaborative und optimierte Datenannotation
Externer Link zur Aufzeichnung des Impulsvortrages von Florian Männer zu „Digitale Lösungen zur Biodiversitätserfassung“
Das Potenzial annotierter Daten im Umweltsektor
Die Erkenntnisse aus unserer Workshop-Reihe werden als Grundlage für die weiteren Potential- und Wirkungsanalysen innerhalb von LabelledGreenData4All genutzt. Ziel ist die Entwicklung strategischer und politischer Handlungsempfehlungen, in welchen Anwendungsbereichen und mit welchen Daten die größten Potentiale für den Einsatz von ML-Modellen im Umweltsektor bestehen.
Community Event am 02.09.2024
Herausforderungen für den souveränen Umgang mit Daten im Umweltbereich und das Potential von Geodatenräumen
Ein zentraler Aspekt des Forschungsvorhabens „LabelledGreenData4All“ ist es, die Verfügbarkeit von annotierten Umweltdaten und umweltrelevanten Daten zu verbessern und diese in grünen Datenräumen sektorübergreifend zu teilen. Doch wer profitiert von einem souveränen Zugang zu Umweltdaten? Welche Interessen und Anforderungen sollten berücksichtigt werden? Welchen Mehrwert bieten Datenräume für die verschiedenen Sektoren im Umweltbereich?
All diese Fragen haben wir in unserem Community Building Event am 2. September 2024 diskutiert.
„Alles steht und fällt mit den Trainingsdaten“
Einer kurzen Projektvorstellung durch Thorsten Reitz (wetransform GmbH) folgte ein Impulsvortrag zur Innovationskraft annotierter Daten. Anhand von Beispielen zeigte Kevin Kocon vom Fraunhofer IGD, warum annotierte Daten eine so hohe Innovationskraft haben und wie Künstliche Intelligenz helfen kann, Zeit und Kosten zu sparen. Dabei räumte er ein, dass dieses Potential von den Trainingsdaten abhängt. Anhand eines Beispiels aus der wissenschaftlichen Praxis zeigte er anschaulich, vor welchen Herausforderungen Forschende im Umgang mit Trainingsdaten stehen. Zudem erläuterte er, welche Ansätze es gibt, um mit wenigen Trainingsdaten zu arbeiten. Kevin Kocon schloss seinen Vortrag mit einem Appell an die Community und fasste die wichtigsten Anforderungen an Trainingsdaten in Form der folgenden „Wunschliste“ zusammen:
- Das Wissen, wo Trainingsdaten zu finden sind…
- …und wie darauf zugegriffen werden kann.
- Metadaten / Beschreibungen, die es ermöglichen, möglichst rasch den „Fitness for Use“ für eine bestimmte Trainingsaufgabe zu bestimmen.
- Das Wissen, unter welchen Nutzungsbedingungen die Daten für ein Training verwendet werden dürfen…
- …und welche Konsequenzen das für die Verwertung des resultierenden Modells hat.
- Und vieles mehr…
Datenräume als digitales Ökosystem
Anschließend stellte Thorsten Reitz das Datenraumkonzept als wichtige Lösungsstrategie zur Verbesserung der Zugänglichkeit sowie der Interoperabilität von Umweltdaten vor. Kritisch sieht Reitz, dass derzeit direkt wiederverwendbare Umweltdaten für Maschinelles Lernen in vielen Bereichen eher die Ausnahme sind. Zudem sind annotierte Daten häufig schwer auffindbar und hinsichtlich ihrer Qualität bewertbar. Hinzu kommt, dass es insbesondere im wissenschaftlichen Bereich keine einheitlichen Standards für das Datenmanagement gibt. Obwohl viele Daten erhoben würden, seien für deren Nachnutzung nur wenige Prozesse etabliert, so Reitz. Darin sieht er die Hauptursachen dafür, dass Daten nicht geteilt werden oder nicht auffindbar sind.
Um dem dysfunktionalen Datenmarkt in Europa entgegenzuwirken, wurde die Europäische Datenstrategie entwickelt. Reitz sieht Datenräume als einen zentralen Baustein im Rahmen der Umsetzung der Strategie. Diese ermöglichen die volle Kontrolle über die geteilten Daten und schließen damit die Lücke zwischen Open Data und Closed Data. Datenräume bieten viele Möglichkeiten, die durch Aktivitäten auf EU-Ebene (z.B. GREAT-Projekt, SAGE-Projekt) realisiert werden können. Auf europäischer Ebene gibt es viele Initiativen zur Schaffung eines funktionierenden Marktes sowie Bestrebungen, die Interoperabilität über Datenräume hinweg zu gewährleisten. Neben den zahlreichen Chancen sind jedoch auch viele Herausforderungen zu bewältigen, auf die Reitz hinweist. Seiner Meinung nach liegt die Hauptherausforderung nicht in der Technologie, sondern vielmehr in der Governance, dem „sich einigen“ aller Beteiligten.
Reitz schließt mit einem optimistischen Blick in die Zukunft ab, da die Dynamik in diesem Bereich in den letzten Jahren enorm zugenommen hat. Nach seiner Auffassung hat diese im Vergleich zu INSPIRE eine ganz andere Dimension erreicht und er geht davon aus, dass es in den nächsten ein bis zwei Jahren zu bedeutenden Entwicklungen kommen wird.
Chancen
- Datenräume als perfektes Gegenmodell zu zentralisierenden, allmächtigen Plattformen
- Adaption allgemeiner, standardisierter Lösungen fördert Zugänglichkeit, reduziert Lock-in
- Nutzung personenbezogener und sicherheitskritischer Daten unter kontrollierten Bedingungen
- optimierte KI-Modelle durch Zusammenführung kleiner Datensätze
- standardisierte Anwendungen
- Souveränität auf Daten- und Verarbeitungsebene
- Aufbau auf bestehenden Dateninfrastrukturen
Herausforderungen
- fehlende rechtliche Vorgaben zur Umsetzung und zu den Konsequenzen
- Governance (gemeinsame Regeln zum Beispiel zur Datennutzung) als zentrale Hürde
- Zusätzliche Komplexität
- teilweise unausgereifte Technologie und Infrastruktur
- Bereitstellung von ausreichend Daten
- Interoperabilität beim Aufbau von Datenräumen
Externer Link zur Aufzeichnung des Community-Events
Erfolgreicher erster Stakeholder – Workshop
In unserem ersten Stakeholder-Workshop im Ressortforschungsprojekt „LabelledGreenData4All“ am 13.06.2024 haben wir das Thema „Machine Learning-Modelle und Datenannotation und deren Datenbedarf im Umweltsektor” diskutiert. Insgesamt haben wir 26 Teilnehmende mit unterschiedlichen Hintergründen und Erfahrungen und aus verschiedensten Organisationen insbesondere aus den Bereichen Wissenschaft, Forschung und öffentlicher Verwaltung begrüßt.
Einer kurzen Projektvorstellung durch Cathleen Mitzschke (Umweltbundesamt, Referat Z 2.3 „Digitale Transformation und Beratungsstelle Green IT“) und Franziska Hochenegger (wetransform) folgte ein Impulsvortrag, welcher „Daten als das neue Gold“ thematisierte. Anhand einer Fallstudie zeigte Kevin Kocon vom IGD Frauenhofer, welchen Herausforderungen Forschende gegenüberstehen, wenn es um die Verfügbarkeit und die Beurteilung von Trainigsdaten sowie annotierten Daten für Machine Learning geht. Dabei stellte er auch Ansätze zum Umgang mit wenigen Trainingsdaten vor, wie beispielsweise Pseudo-Labelling und Transfer Learning.
Anschließend gab Stephan Klingner vom Anwendungslabor für Künstliche Intelligenz und Big Data am UBA einen kurzen Überblick über die aktuellen Anwendungsfälle aus dem Umweltressort, welche von der Detektion und geographischen Verortung von Windenergie- und Freiflächen-Photovoltaik-Anlagen mithilfe von Satellitenbildern bis hin zu KI-gestützten Analysetools zum Erkennen von illegalem Artenhandel auf Onlinehandelsplattformen reichen.
Durch die anschließende Diskussion entlang der Komponenten Datenverfügbarkeit, Datenprozessierung und Dateninfrastruktur führte Thorsten Reitz, CEO der Firma wetransform. Die Teilnehmenden waren sich einig, dass für die Aufbereitung von annotierten Datensätzen nachwievor viel manuelle Arbeiten nötig sind. Entscheidendes Kriterium dabei bildet die Qualität, nicht nur der Datensätze, sondern auch der Metadaten. Dies ist auch der Grund, weshalb sich die Wiederverwendung annotierter Datensätze als äußerst schwierig gestaltet. Auch die Bereitschaft zum Teilen der Daten sowie Unsicherheiten in Bezug auf damit einhergehende Nutzungsbedingungen und Lizenzsysteme haben die Teilnehmenden als limitierende Faktoren benannt.
Die Beiträge und Erkenntnisse aus dem Workshop werden als Grundlage für die weiteren Bedarfs- und Potentialanalysen von Datenannotationen innerhalb von LabelledGreenData4All verwendet. Der Austausch soll in weiteren Stakeholder-Workshops und Interviews mit Expertinnen*Experten im weiteren Verlauf des Forschungsvorhabens fortgesetzt und vertieft werden.