
- Forschung
- Wissenstransfer & Innovation
Meldung vom: | Verfasser/in: Ute Sch?nfelder
Forschende der Universit?t Jena, der Westf?lischen Hochschule und der Universit?t Prag haben eine Plattform entwickelt, die mittels künstlicher neuronaler Netzwerke chemische Strukturformeln in eine maschinenlesbare Form übersetzt. Damit haben sie ein Werkzeug geschaffen, mit dem diese Informationen aus wissenschaftlichen Ver?ffentlichungen automatisiert in Datenbanken eingespeist werden k?nnen. Bislang war das sprichw?rtlich Handarbeit und entsprechend zeitaufwendig. In der aktuellen Ausgabe des Fachmagazins ?Nature Communications“ stellt das Team um Prof. Dr. Christoph Steinbeck und Prof. Dr. Achim Zielesny die neueste Version ihres Tools DECIMER.ai vor (DOI: 10.1038/s41467-023-40782-0Externer Link), die Forschende weltweit nutzen k?nnen.
Wie chemische Verbindungen aufgebaut sind, das hei?t, aus welchen Atomen sie bestehen, wie diese r?umlich angeordnet und miteinander verbunden sind, wird in sogenannten Strukturformeln dargestellt. Für Chemikerinnen und Chemiker l?sst sich aus einer Strukturformel unter anderem ableiten, welche Moleküle miteinander reagieren k?nnen und welche nicht, wie sich komplexe Verbindungen synthetisieren lassen oder welche Naturstoffe eine therapeutische Wirkung haben k?nnten, weil sie mit Zielmolekülen in Zellen zusammenpassen.?
Im 19. Jahrhundert entwickelt, hat sich die Darstellung von Molekülen als Strukturformeln bew?hrt und wird bis heute in jedem Chemie-Lehrbuch genutzt. Doch was die chemische Welt für Menschen intuitiv erfassbar macht, ist für eine Software nur eine Ansammlung schwarzer und wei?er Pixel. ?Um die Informationen aus Strukturformeln in Datenbanken nutzbar zu machen, die automatisiert durchforstet werden k?nnen, müssen sie in einen maschinenlesbaren Code übersetzt werden“, erl?utert Christoph Steinbeck, Professor für Analytische Chemie, Chemieinformatik und Chemometrie der Uni Jena.
Aus einem Bild wird ein Code
Und genau das kann die Künstliche Intelligenz ?DECIMER“, die das Team um Prof. Steinbeck und seinen Kollegen Prof. Achim Zielesny von der Westf?lischen Hochschule entwickelt hat. DECIMER steht für ?Deep Learning for Chemical Image Recognition“ und ist eine open-source Plattform, die für jedermann im Internet frei verfügbar ist und in einem normalen Internetbrowser genutzt werden kann. Dort lassen sich wissenschaftliche Artikel, die chemische Strukturformeln enthalten, einfach per drag and drop hochladen und sofort beginnt die KI ihre Arbeit.?
?Als erstes wird das gesamte Dokument nach Abbildungen durchsucht“, erkl?rt Steinbeck. Danach identifiziert der Algorithmus die enthaltene Bildinformation und klassifiziert diese danach, ob es sich um eine chemische Strukturformel oder irgendein anderes Bild handelt. Die erkannten Strukturformeln werden schlie?lich in den chemischen Strukturcode übersetzt oder in einem Struktureditor dargestellt, so dass sie weiterbearbeitet werden k?nnen. ?Dieser Schritt ist der Kern des Projektes und die eigentliche Leistung“, macht Steinbeck deutlich.
Strukturformel von Koffein
Abbildung: gemeinfreiAuf diese Weise wird zum Beispiel aus der chemischen Strukturformel (Abbildung) für das Molekül Koffein der maschinenlesbare Strukturcode CN1C=NC2=C1C(=O)N(C(=O)N2C)C. Dieser l?sst sich anschlie?end direkt in eine Datenbank hochladen und mit weiteren Informationen zum jeweiligen Molekül verknüpfen.
Für die Entwicklung von DECIMER haben die Forschenden moderne KI-Methoden genutzt, die sich erst in jüngster Zeit etabliert haben und zum Beispiel auch in den aktuell viel diskutierten Large Language Models (wie ChatGPT) verwendet werden. Um seine KI zu trainieren, hat das Team aus den heute bereits vorhandenen maschinenlesbaren Datenbanken Strukturformeln erzeugt und als Trainingsdaten genutzt, rund 450 Millionen bisher. Neben Forschenden nutzen bereits auch Firmen das KI-Tool, etwa um aus Patentschriften Strukturformeln in Datenbanken zu übertragen.
Auf die Idee, eine KI für die Dekodierung chemischer Abbildungen zu entwickeln, sind Steinbeck und Zielesny vor einigen Jahren gekommen. Die beiden Chemiker interessierten sich für die Entwicklung von KI-Methoden im Zusammenhang mit dem jahrtausendealten asiatischen Brettspiel Go. 2016 verfolgten sie, wie Millionen Menschen weltweit das spektakul?re Turnier zwischen dem damals besten Go-Spieler der Welt, dem Südkoreaner Lee Sedol, und der Computersoftware ?AlphaGo“, was die Maschine 4:1 für sich entschied.?
?Das war ein Paukenschlag, der uns gezeigt hat, wie m?chtig KI sein kann“, erinnert sich Steinbeck. Bis dahin galt es praktisch als undenkbar, dass es ein Algorithmus mit der menschlichen Kreativit?t und Intuition in diesem Spiel aufnehmen kann. ?Als wenig sp?ter eine KI quasi übermenschliche Spielst?rke entwickelte, indem sie nicht – wie noch AlphaGo – aufwendig mit unz?hligen Verl?ufen von menschlichen Spielen trainiert wurde, sondern einfach dadurch, dass das System immer wieder gegen sich selbst spielte und dabei seine Spielweise optimierte, wurde uns klar, dass diese neuen Methoden mit genügend Trainingsdaten auch andere sehr komplexe Probleme l?sen k?nnen. Das wollten wir für unseren Forschungsbereich nutzen.“?
Wissenschaftliche Informationen nachhaltig nutzbar machen
Steinbeck und sein Team hoffen mit DECIMER irgendwann s?mtliche für sie interessante chemische Literatur, zurück bis in die 1950er Jahre, maschinell lesen und in offene Datenbanken übersetzen zu k?nnen. Denn das vorhandene Wissen nachhaltig zu sichern und der wissenschaftlichen Gemeinde weltweit zur Verfügung zu stellen, ist ein zentrales Anliegen von Steinbeck, der auch Sprecher der Nationalen Forschungsdateninfrastruktur für die Chemie ist.?
Das KI-Tool DECIMER ist verfügbar unter: https://decimer.aiExterner Link
Original-Publikation:
Rajan, K., Brinkhaus, H.O., Agea, M.I. et al. DECIMER.ai: an open platform for automated optical chemical structure identification, segmentation and recognition in scientific publications. Nat Commun 14, 5045 (2023).?https://doi.org/10.1038/s41467-023-40782-0Externer Link