Dieses Arbeitspaket liefert die Grundlage für die Integration von Daten aus Labor (Labor-Datenbank), Hygiene (HyBase) und dem Klinischen Informationssystem (KIS) und den Ergebnissen der schnellen Labordiagnostik (AP1).
Das Arbeitspaket definiert ein interoperables Datenmodell und entwickelt auf der Basis dieses Modells ein semantisches Warehouse, in das Daten in regelmäßigen Abständen integriert werden können. Dieses semantische Warehouse ist die Basis für die Arbeiten in AP3, AP4 und AP5.
Das Warehouse ist in dem Sinne semantisch, dass es auf Interoperabilität achtet und Daten semantisch beschreibt und über Primärquellen hinweg verknüpft. Für die Speicherung und Integration von Daten wird ein Semantisches Warehouse aufgebaut, das auf sog. Wissensgraphen als Datenmodell aufbaut. Wissensgraphen sind eine Technologie, die mittlerweile von Playern wie Google, Amazon, Microsoft oder Facebook zur Modellierung von Daten und Wissen verwendet wird, um Daten semantisch zu beschreiben.
Bei der Entwicklung des Wissensgraphen werden existierende Vokabulare wiederverwendet, um klinische Daten zu beschreiben, wie z.B. die Human Phenotype Ontology, UMLS, SNOMED-CT, Foundational Model of Anatomy (FMA), Gene Ontology, Ontology of Clinical Research, etc.
Bei der Entwicklung des Datenmodells orientieren wir uns an den HL7-FHIR-Profilen sowie an dem im Rahmen der Medizininformatik-Initiative entwickelten Kerndatensatz.
Es wird ein Ansatz entwickelt, der ein verteiltes Data Warehouse realisiert, siehe Abbildung. Das Data Warehouse ist aufgeteilt in eine Klinik-spezifische Komponente, sowie eine zentrale Komponente (Collaboration Zone). Die Klinik-spezifische Komponente ist nochmals unterteilt in eine Healthcare Zone, in der sich die IT-Systeme der Krankenversorgung befinden, und eine hinreichend entkoppelte Research Zone. Die Extraktion und Qualitätssicherung der Daten aus den Primärsystemen erfolgt in der Healthcare Zone.
Nach Anonymisierung bzw. Pseudonymisierung und ggf. weiterer Aufbereitung gelangen die Daten auf die Server in der Research Zone des jeweiligen Krankenhauses. Dort werden die in AP3 entwickelten Modelle trainiert und abgelegt. Damit verlassen klinische Daten nicht die Krankenhäuser.
In den Research Zonen werden die Daten über Primärquellen integriert und in einem über die Kliniken hinweg einheitlichen Datenmodell abgelegt. Das ermöglicht klinikübergreifende Auswertungen und Abfragen für das KINBIOTICS Projekt.
Die maschinell gelernten Modell werden dezentral und lokal in den verschiedenen Research Zones trainiert; die Modelle werden über Instanzen hinweg trainiert und geteilt während die Daten nie die eigene Research Zone verlassen.
Der zweite Bestandteil des verteilten Data Warehouses ist die sog. Collaboration Zone. In der Collaboration Zone werden hygienische Daten aus den drei beteiligten Kliniken aggregiert. Diese Daten sind komplett anonymisiert und haben keinerlei Patient*innenbezug. Sie dienen als Basis zur Entwicklung des Observatoriums in AP4.