
- Forschung
Meldung vom: | Verfasser/in: Marco K?rner
GPT-3, das Sprachmodell hinter dem bekannten KI-System ChatGPT, kann auch in der Chemie eingesetzt werden, um verschiedene wissenschaftliche Aufgaben zu l?sen. Das demonstrierte ein Team von Forschenden an der ?cole polytechnique fédérale de Lausanne (EPFL), der Friedrich-Schiller-Universit?t Jena sowie des Helmholtz-Instituts für Polymere in Energieanwendungen (HIPOLE) Jena. Wie das Team im Fachmagazin ?Nature Machine Intelligence“ berichtet, umgingen sie hierbei das Problem, dass es in der Chemie oftmals an den ben?tigten gro?en Datenmengen fehlt, die für das Training einer KI ben?tigt werden.
Kuratierte Fragen und Antworten statt gro?er Datenmengen
?Eines von verschiedenen Beispielen, die wir verwendet haben, sind sogenannte lichtempfindliche Schalter“, illustriert Kevin Jablonka, Erstautor der Arbeit. ?Das sind Moleküle, die ihre Struktur ?ndern wenn Licht einer bestimmten Wellenl?nge auf sie f?llt. Diese Art von Molekülen gibt es auch im menschlichen K?rper: In unseren Netzhautzellen befindet sich das Molekül Rhodopsin, das auf Licht reagiert und damit letztendlich als chemischer Schalter dient, der optische Signale in Nervenimpulse umwandelt“, erg?nzt er. ?Die Frage, ob und wie ein bislang unbekanntes Molekül durch Licht schaltbar ist, ist also durchaus relevant – etwa wenn es darum geht, Sensoren zu entwickeln“, fasst er zusammen. ?Aber auch die Frage, ob ein Molekül in Wasser gel?st werden kann, haben wir eingebracht“, nennt Jablonka als weiteres Beispiel, ?denn gerade bei pharmakologischen Wirkstoffen ist die Wasserl?slichkeit ein wichtiger Faktor, damit die gewünschte Wirkung im K?rper entfaltet wird.“
Um ihr GPT-Modell so zu trainieren, dass es diese und andere Fragen beantworten kann, musste die Gruppe jedoch ein grundlegendes Problem l?sen: ?GPT-3 kennt den gr??ten Teil der chemischen Fachliteratur nicht“, erkl?rt Jablonka. ?Die Antworten, die wir von diesem Modell erhalten, beschr?nken sich also üblicherweise auf das, was man auch in der Wikipedia finden kann.“
Stattdessen, so erkl?rt Jablonka weiter, habe die Gruppe GPT-3 mit einem Datensatz aus vergleichsweise wenigen Fragen und Antworten gezielt verbessert. ?Wir haben also das Modell mit Fragen gefüttert – etwa nach lichtempfindlichen schaltbaren Molekülen, aber auch zur L?slichkeit bestimmter Moleküle in Wasser und anderen chemischen Aspekten – wobei wir bei unseren ,Lehrbeispielen‘ auch die jeweils zugeh?rige bekannte Antwort mit angegeben haben“, führt er aus. So haben er und sein Team ein Sprachmodell erschaffen, das in der Lage ist, zu verschiedenen chemischen Problemstellungen korrekte Erkenntnisse zu liefern.
Schnell, akkurat und leicht zu benutzen
Anschlie?end wurde das Modell getestet. ?Die wissenschaftliche Frage nach einem durch Licht schaltbaren Molekül kann etwa so aussehen“, verdeutlicht Jablonka: ?Was ist die Wellenl?nge des pi–pi*-?bergangs von CN1C(/N=N/ C2=CC=CC=C2)=C(C)C=C1C?“ Da das Modell textbasiert ist, k?nnen keine Strukturformeln angegeben werden, erkl?rt er. ?Aber unser GPT arbeitet gut mit den sogenannten SMILES-Codes für Moleküle, wie im oben genannten Beispiel“, sagt er. ?Aber auch andere Notationen erkennt es. Dazu geh?ren auch chemische Namen die der sogenannten IUPAC-Nomenklatur folgen, wie man sie vielleicht noch aus dem Chemie-Unterricht kennt“, so Jablonka weiter.
In den Tests l?ste das Modell verschiedenste chemische Problemstellungen. Hierbei schnitt es oftmals sogar besser ab als ?hnliche Modelle, die bisher in der Wissenschaft entwickelt und mit gro?en Datenmengen trainiert wurden. ?Das Entscheidende aber ist, dass unser GPT so einfach zu bedienen ist wie eine Literaturrecherche, die für viele chemische Probleme funktioniert – etwa zu Stoffeigenschaften wie die L?slichkeit, aber auch thermodynamische und photochemische Eigenschaften wie die L?sungsenthalpie oder die Interaktion mit Licht – und natürlich das chemische Reaktionsverm?gen“, erg?nzt Prof. Dr. Berend Smit von der EPFL Lausanne.
Original-Publikation:
Kevin Maik Jablonka, Philippe Schwaller, Andres Ortega-Guerrero, Berend Smit: ?Leveraging large language models for predictive chemistry“, Nature Machine Intelligence 2023, DOI: 10.1038/s42256-023-00788-1Externer Link