Purpose In Germany, record linkage of claims and cancer registry data is cost‐ and time‐consuming, since up until recently no unique personal identifier was available in both data sources. The aim of this study was to evaluate the feasibility and performance of a deterministic linkage procedure based on indirect personal identifiers included in the data sources. Methods We identified users of glucose‐lowering drugs with residence in four federal states in Northern and Southern Germany (Bavaria, Bremen, Hamburg, Lower Saxony) in the German Pharmacoepidemiological Research Database (GePaRD) and assessed colorectal and thyroid cancer cases. Cancer registries of the federal states selected all colorectal and thyroid cancer cases between 2004 and 2015. A deterministic linkage approach was performed based on indirect personal identifiers such as year of birth, sex, area of residence, type of cancer and an absolute difference between the dates of cancer diagnosis in both data sources of at most 90 days. Results were compared to a probabilistic linkage using “direct” personal identifiers (gold standard). Results The deterministic linkage procedure yielded a sensitivity of 71.8% for colorectal cancer and 66.6% for thyroid cancer. For thyroid cancer, the sensitivity improved when using only inpatient diagnosis to define cancer in GePaRD (71.4%). Specificity was always above 99%. Using the probabilistic linkage to define cancer cases, the risk for colorectal cancer was estimated 10 percentage points lower than when using the deterministic approach. Conclusions Sensitivity of the deterministic linkage approach appears to be too low to be considered as reasonable alternative to the probabilistic linkage procedure.
Zusammenfassung Hintergrund Die Bereitstellung von Real-World-Daten im Sinne der FAIR-Prinzipien ist die Voraussetzung einer effizienten Ausschöpfung des Potenzials von Gesundheitsdaten für Prävention und Versorgung. Ziel der Arbeit Möglichkeiten und Limitationen der Nachnutzung und Verknüpfung von Gesundheitsdaten in Deutschland werden dargestellt. Material und Methoden Es werden Initiativen zur Schaffung einer verbesserten Forschungsdateninfrastruktur vorgestellt und an einem Beispiel die Einschränkungen illustriert, die das Record Linkage personenbezogener Gesundheitsdaten behindern. Ergebnisse In der Regel erfüllen Gesundheitsdaten in Deutschland nicht die Anforderungen der FAIR-Prinzipien. Ihre Auffindbarkeit scheitert bereits daran, dass entweder keine Metadaten zur Verfügung stehen oder diese nicht standardisiert in suchbare Repositorien eingestellt werden. Die Verknüpfung von personenbezogenen Gesundheitsdaten ist durch restriktive Datenschutzbestimmungen und das Fehlen eines sog. Unique Identifiers extrem eingeschränkt. Datenschutzkonforme Lösungen für die Verknüpfung von Gesundheitsdaten, die in europäischen Nachbarländern erfolgreich praktiziert werden, könnten hier als Vorbild dienen. Schlussfolgerung Die Schaffung einer Nationalen Forschungsdateninfrastruktur (NFDI), insbesondere für personenbezogene Gesundheitsdaten (NFDI4Health), ist nur mit erheblichen Anstrengungen und Gesetzesänderungen realisierbar. Bereits vorliegende Strukturen und Standards, wie sie z. B. durch die Medizininformatik-Initiative und das Netzwerk Universitätsmedizin geschaffen wurden, sowie internationale Initiativen wie z. B. die European Open Science Cloud müssen dabei berücksichtigt werden.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.