Der Fortschritt in der Marktreife von Foundation Modellen (vgl. ChatGPT, GPT-4) – Computermodellen auf dem Gebiet der künstlichen Intelligenz – wird voraussichtlich zu einer deutlichen Verbesserung in der Qualität der Einsatzszenarien führen. Dieses enorme Potenzial wird auch in der Industrie, beispielsweise durch Pharmafirmen, wahrgenommen. In den meisten Fällen ist jedoch die Unterstützung bei der Umsetzung nützlicher Anwendungen durch vertrauenswürdige und lokal ausführbare Modelle erforderlich.
Die Vielzahl an Daten aus Patientenakten, präklinischer Forschung und klinischen Studien macht es erforderlich, neue Methoden des maschinellen Lernens zu entwickeln, um die Datenmengen bewältigen zu können. Im Rahmen des Fraunhofer CIMD Projekts »PARIS« [GC1] werden bereits Daten aus klinischen Studien sowie klinische Daten rheumatologischer Patienten mittels großer Sprachmodelle analysiert und in strukturierter Form aufbereitet. Diese sind jedoch auf vordefinierte Anwendungsszenarien ausgerichtet. Die Erfahrungen und der Austausch mit medizinischen Expertinnen und Experten bilden die Basis für die Entwicklung eines Foundation-Modells für pharmakologische Anwendungen. Sie können im Bereich medizinisches Vokabular und Semantik in der weiteren Entwicklung genutzt werden.
Künstliche Intelligenz für flexible pharmakologische Use Cases
Im Fokus unseres Projekts steht die Entwicklung eines Foundation-Models für die Pharmakologie. Diese großen Sprachmodelle der künstlichen Intelligenz (vgl. ChatGPT, GPT-4) haben in kürzester Zeit ein enormes Potenzial für viele Aufgaben im Bereich der Verarbeitung von natürlicher Sprache aufgezeigt. Besonders die Flexibilität, auf verschiedenste Anfragen zu reagieren, kontextuelles Wissen einzubeziehen und Referenzen zu verstehen, erschließt in allen Branchen neue Möglichkeiten. Informationen können extrahiert, Dokumente zusammengefasst oder gänzlich neue Texte können automatisch erstellt werden.
Von dieser Entwicklung kann insbesondere die pharmakologische Forschung profitieren. Der Fokus der Entwicklung liegt auf local-deployble und damit privacy-preserving Large Language Models (LLMs), die für flexible pharmakologische Use Cases eingesetzt werden können. Dazu gehören beispielsweise die Detektion von Überdosierungen, unerwünschten Nebenwirkungen und sogenannten fast Respondern. Existierende große Sprachmodelle besitzen nicht das fachspezifische Vorwissen und Vokabular der Pharmakologie. Weiterhin bestehen Herausforderungen bezüglich Faktentreue und Datenschutz.
In unserem Projekt nutzen wir die Expertise mehrere Bereiche, darunter Künstliche Intelligenz, speziell generative KI, Natural Language Processing und Large Language Models. Zudem nutzen wir die Kompetenzen in der Planung, Durchführung und Analyse klinischer Studien.
Ausblick
Um einen möglichst effizienten Einstieg in die Nutzung des KI-Modells für Unternehmen zu gewährleisten, erfolgt die Umsetzung einzelner Use Cases in agiler Zusammenarbeit mit den Unternehmen, im sogenannten »Enterprise Innovation Campus«. Dabei entwickeln Datenwissenschaftler von Fraunhofer und den Unternehmen gemeinsam lauffähige Prototypen.
Die Entwicklung adäquater Modelle stellt eine wesentliche Herausforderung dar, ebenso wie die Operationalisierung in der Praxis und die Vertrauenswürdigkeit der Modellausgaben. Für die Bewältigung dieser Aufgaben ist eine vertrauenswürdige Dateninfrastruktur erforderlich, die insbesondere auf die Anforderungen von Machine Learning (ML) Modellen ausgerichtet ist. Darüber hinaus werden Pipelines für ML Trainings- und Einsatz (Deployment) der Foundation Models benötigt. Die Trainingspipeline zielt darauf ab, eine Pipeline zu erstellen, mit der das Modelltraining leicht auf weitere Daten skaliert werden kann. Die genannten Maßnahmen ermöglichen eine systematische Evaluierung, einen Vergleich sowie die Ablage der Modelle in einem Modell-Store. Das Ziel der Deployment-Pipeline besteht in der Einbettung der entwickelten Modelle in eine Serving-Applikation bzw. der Integration in einen umgebenden Prozess.