Wissensmanagement in der medizinischen Forschung Mit Knowledge Graphen alle Daten im Blick

Autor / Redakteur: Dirk Möller* / Susanne Ehneß

Die Forschung in Deutschland ist zu wenig vernetzt und datengetrieben. So lautet ein erstes Fazit des Wissenschaftsrats zur COVID-19-Pandemie. Der große Erfolg in der Impfstoffentwicklung dürfe nicht über deutliche Schwächen im deutschen Wissenschaftssystem hinwegtäuschen. Das betrifft unter anderem die Vernetzung und das Management von Daten. Graphtechnologie und Knowledge Graphen eröffnen hier neue Wege für die Forschung.

Firmen zum Thema

Die Forschung muss besser vernetzt werden
Die Forschung muss besser vernetzt werden
(© ipopba - stock.adobe.com)

Der Nachholbedarf beim Datenmanagement in der Gesundheitsforschung hat mehrere Gründe. Medizinische Daten, egal ob aus der Grundlagenforschung, klinischen Studien, Fachpublikationen oder internationalen Forschungsvorhaben, sind in der Regel heterogen und unstrukturiert. Die Informationen liegen als Text vor, aber auch als Bild- und Videodatei oder in Formeln, Kurven und Diagrammen.

Nicht alle Daten sind gleich aufbereitet. Messgeräte, Methoden und Standards unterscheiden sich je nach Forschungseinrichtung. Wissenschaftler forschen größtenteils unabhängig voneinander. Und schließlich blicken viele Organisationen auf jahrzehntelange Forschungsarbeit zurück, deren Daten zunächst normalisiert werden müssen, ehe Vergleiche und Analysen möglich sind. Das alles macht es schwierig, Daten zu verknüpfen und in einen standort-, disziplin-, spezies- oder datenübergreifenden Kontext zu stellen.

Eine weitere Herausforderung ist die Menge an Daten, die massiv und in immer schnellerem Tempo wächst. Nur als Beispiel: Die COVID-19 Open Research Datenbank (CORD-19) zählte im März 2020 bereits über 44.000 wissenschaftliche Artikel. Mittlerweile sind es mehr als 280.000, und ein Ende ist nicht in Sicht.

Wer solche Datenberge in öffentlich zugänglichen Datenquellen und Literaturdatenbanken für sich nutzen will, hat also erst einmal alle Hände voll zu tun, um den dort vergrabenen Wissensschatz sicher zu bergen. Innerhalb von Einrichtungen sieht es oft kaum besser aus. Hier hindern historisch gewachsene Datensilos die Wissenschaftler daran, schnell, frei und unkompliziert auf relevante Daten zuzugreifen.

Speichern und abfragen

Wie lassen sich solche Aufgaben lösen und Daten besser nutzen? Herkömmliche Datenmanagement-Tools bieten darauf nur wenig Antworten. Schon allein deshalb nicht, weil diese Systeme in der Regel nicht darauf ausgelegt sind, Wissen in Form von vernetzten Daten zu speichern und Zusammenhänge offenzulegen. Am deutlichsten zeigt sich das in relationalen Datenbanken. Sie speichern Informationen in Spalten und Tabellen.

Sucht man nach Verbindungen zwischen den Daten, sind sogenannte Joins nötig, die sehr aufwändig, zeitintensiv und damit teuer sein können. Je größer und unstrukturierter die Datenmengen, desto schneller stoßen diese Systeme an ihre Grenzen.

Dass es auch anders geht, beweist Graphtechnologie. In sogenannten Knowledge Graphen werden Daten als „Knoten“ gespeichert, die über „Kanten“ miteinander verbunden sind. Sowohl Knoten als auch die Kanten können mit Eigenschaften versehen und analysiert werden. Heterogene Daten aus unterschiedlichen Quellen werden dabei in einer Gesamtansicht verknüpft.

Mittels Text Mining-Verfahren lassen sich Daten extrahieren und ins Graphmodell überführen
Mittels Text Mining-Verfahren lassen sich Daten extrahieren und ins Graphmodell überführen
(© neo4j)

Es entsteht ein semantischer Kontext, ähnlich einer Mind-Map, in dem neue Zusammenhänge, Muster und Auffälligkeiten schnell ersichtlich sind. So lassen sich beispielsweise kom­plexe Prozesse, Stoffwechselwege, ­Gene oder Proteine bildhaft visualisieren. Wissenschaftler können Verknüpfungen über mehrere ­Knoten hinweg folgen, in Datengruppen eintauchen und sich frei in alle Richtungen vor und zurück bewegen – investigatives Forschen im wahrsten Sinne des Wortes.

Wissensdatenbank für die Diabetesforschung

Genau aus diesem Grund entwickelte das Deutsche Zentrum für Diabetesforschung (DZD) einen Knowledge Graphen, der eine Art „Gelbe Seiten“ der Diabetesforschung darstellt. In der zentralen Wissensdatenbank DZDconnect sind Metadaten aus klinischen Studien mit disziplinübergreifenden Forschungsdaten aus öffentlichen Quellen verknüpft. Dazu gehören neben der Genetik und Proteomik auch Daten zu Folge- oder Nebenerkrankungen wie Schlaganfall, Herzinfarkt, Krebs oder Alzheimer. Humane Daten aus der klinischen Forschung werden um hochstandardisierte Daten aus Tiermodellen (z. B. Mäuse) ergänzt. So erhoffen sich die Forscher, Rückschlüsse von Modellorganismus auf das humane System ziehen zu können und Ähnlichkeiten bei einzelnen Genen und Stoffwechselvorgängen aufzudecken.

Der Knowledge Graph liegt dabei als Layer über den bestehenden Datenbanken und fungiert als standortübergreifende Anlaufstelle für Healthcare und Medical Professionals des DZDs. Der Vorteil: Abfragen lassen sich nicht nur deutlich schneller stellen. Auch die Fehleranfälligkeit beim Extrahieren und Aggregieren von Daten aus unterschiedlichen Quellen sinkt. Die Vielfältigkeit und Detailtiefe erlaubt einen neuen Blickwinkel auf wissenschaftliche Fragestellungen.

Daten der Diabetesforschung in einer zentralen Wissensdatenbank
Daten der Diabetesforschung in einer zentralen Wissensdatenbank
(© DZD)

Mit Hilfe integrierter Graph-Algorithmen wie Community-Detection kann das DZD zum Beispiel neue Patienten-Cluster identifizieren. Ziel ist es, die verschiedenen Subtypen des Typ-2-Diabetes zu erforschen und neue Erkenntnisse für die Prävention und Therapie zu gewinnen (Stichwort: Precision Medicine).

Medikamente schneller entwickeln

Auch die Pharmaindustrie setzt auf Knowledge Graphen, zum Beispiel wenn es um die Entwicklung neuer Medikamente geht. Das Schweizer Biotechnologie- und Pharmaunternehmen Novartis nutzt die Technik, um seine rund eine Milliarde historischen Datensätze aus der Grundlagenforschung weiter nutzen zu können. Ziel war es, die Daten im Kontext der weltweiten medizinischen Forschung sowie vor dem Hintergrund neu erhobener Daten zu analysieren.

Dabei wächst die Zahl der Daten täglich weiter an. Über automatisierte Verfahren werden Bilddaten erfasst und die Wechselwirkung von medizinischen Wirkstoffen und therapeutischen Angriffspunkten („Targets“) untersucht. So entstehen Terabytes an phänotypischen Daten. Hinzu kommen rund 25 Millionen Texte aus über 5.600 wissenschaftlichen Zeitschriften aus der PubMed der National Institutes of Health (NIH), die mit Hilfe von Text Mining-Verfahren analysiert und extrahiert werden.

Alle diese Informationen bündelt Novartis in einem Knowledge Graphen, wo sie in 15 Knoten-Kategorien und 90 möglichen Beziehungstypen sauber und akkurat abgelegt sind. Die ganzheitliche Abbildung des biologischen Gesamtwissens von Novartis erlaubt es den Forscherteams, frei im Dreieck aus Krankheit-Target-Wirkstoff zu navigieren und Medikamente schneller auf den Weg zu bringen.

microRNA-Tests

Ein anderes Beispiel für den Einsatz von Knowledge Graphen kommt vom US-amerikanischen Biotechnologieunternehmen Miroculus. Das Unternehmen entwickelte eine digitale Mikrofluidik-Plattform, die es Wissenschaftlern und medizinischem Personal ermöglicht, Krankheiten wie Magenkrebs mit Hilfe von microRNAs zu erkennen. Um die spezifischen ­microRNA-Biomarker zu isolieren, müssen Forscher die Daten kontinuierlich aktualisieren und auf dem neuesten Stand der Wissenschaft halten. Eine Aufgabe, die angesichts der schieren Menge an Texten, Fachpublikationen und Studien ohne smarte und automatisierte Tools nicht mehr zu bewältigen ist.

Mit Hilfe von Natural Language Processing (NLP) extrahiert Miroculus relevante Daten aus über einer Milliarde Fachartikeln und integriert sie in den Knowledge Graph. Dabei führen Algorithmen semantische Analysen der Texte durch, klassifizieren relevante ­Entitäten und verknüpfen sie direkt mit Informationen in der ­Datenbank. Basierend auf einem Machine-Learning-Modell lassen sich Beziehungen zwischen relevanten Schlüsselwörtern und ­Themen herstellen. Damit läuft die Datenmigration in den Graphen automatisiert ab.

Dirk Möller
Dirk Möller
(© neo4j)

Technologien rund um Knowledge Graphen, NLP und ML entwickeln sich zu Schlüsselfaktoren in der digitalen Transformation des Wissenschaftssystems. Sie automatisieren Prozesse, eröffnen einen neuen, holistischen Blick auf unstrukturierte Daten und können langfristig die Forschungspraxis von Ärzten und Wissenschaftlern revolutionieren. Forschung fokussiert sich dann nicht mehr länger auf das Generieren und Sammeln von Daten, sondern auf den dadurch erworbenen Wissensvorsprung im Kampf gegen Krankheiten.

*Der Autor: Dirk Möller, Area Director of Sales CEMEA beim Graphdatenbanken-Anbieter Neo4j

(ID:47758044)