1 / 13

Record Linkage: Simulatie Resultaten

Record Linkage: Simulatie Resultaten. Adelaide Ariel Biolink NL 28 maart 2014. Overzicht. Achtergrond informatie Doel van simulatie Details simulatie Simulatie resultaten Conclusies. Achtergrond informatie. Doel:

platt
Télécharger la présentation

Record Linkage: Simulatie Resultaten

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Record Linkage:Simulatie Resultaten Adelaide Ariel Biolink NL 28 maart 2014

  2. Overzicht • Achtergrond informatie • Doel van simulatie • Details simulatie • Simulatie resultaten • Conclusies

  3. Achtergrond informatie Doel: Een “best practice” ontwikkelen voor het koppelen van privacy gevoelige data, o.b.v. persoonlijke identifiers (naam, geboortedatum, etc). De beschikbare literatuur over het koppelen van data beschrijft meestal zeer specifieke koppelprojecten. • De gekozene koppelingsmethode is afhankelijk van persoonlijke keuze (bijv. voorkeur voor deterministisch koppelen omdat het makkelijker is). • De gekozene koppelingsvariabelen zijn afhankelijk van alle beschikbare variabelen tussen de te koppelen datasets (hoe meer hoe beter). Het is nooit onderzocht of minder koppelingsvariabelen vergelijkbare resultaten zal opleveren.

  4. Achtergrond informatie We houden rekening met de volgende factoren: • Variaties binnen de registraties • Omvang • Populatie dekking en kenmerken • Kwaliteit van variabelen (afhankelijk van hoe belangrijk een variabele is voor het onderzoek) • Variaties tussen de te koppelen data • Omvang van de populatie overlap • Beschikbaarheid van koppelingsvariabelen

  5. Doel van simulatie Vraag die we willen beantwoorden: Welke linking methode is geschikt bij bepaalde omvang van data sets en de omvang van fouten?

  6. Simulatie gegevens Er zijn 3 simulatie onderdelen: • Genereren van simulatie data sets • Ontwikkelen van koppelingsscenario’s • Selecteren van koppelingsmethode

  7. Simulatie gegevens Genereren van simulatie data • Drie data sets met verschillende omvang en populatie dekking die representatief te zijn voor biobank/registraties: • Grote data set (160.000 records, algemene populatie dekking zoals beschreven in StatLine CBS) • Medium data set (16.000 records, specifieke populatie dekking zoals beschreven op IKNL website over Kanker Statistiek) • Klein data set (1.600 records, zeer specifieke populatie dekking geïmiteerd van OMEGA vrouwen cohort ) • Elke data set bevat: achternaam, geboortedatum, geslacht, postcode • Achternamen zijn gegenereerd met behulp van de meest populaire Nederlandse achternamen volgens het Meertens Instituut

  8. Simulatie gegevens Ontwikkelen van koppelingsscenario’s Bepalen omvang van overlap (shared population: 10%, 60%, 90%), omvang van fouten (10%, 20%, 30%) Toevoegen van fouten aan de koppelingsvariabelen (behalve geslacht) • Typische fouten in Nederlandse registraties (vooral o.b.v. CBS ervaring, zie Arts, Bakker & van Lith, 2000) • Denkbare fouten genoemd in de literatuur (o.a. Oberaigner, 2007 en Christen & Pudjijono, 2009)

  9. Simulatie gegevens

  10. Simulatie gegevens Koppelingsmethode, bij voorkeur: Simpel maar doeltreffend, en geschikt voor encryptie Geselecteerde koppelingsmethode voor evaluatie: • Probabilistisch met afstand maat (Jaro-Winkler) • Probabilistisch met afstand maat, geschikt voor encryptie (Bigram) • Basic probabilistisch • Basic deterministisch

  11. Simulatie resultaten: Sensitiviteit Sensitiviteit (aantal correcte links gevonden/totaal links), per error rate

  12. Simulatie resultaten: Precisie Precisie (aantal correcte links/total links gevonden), per error rate

  13. Belangrijkste conclusies Onze conclusies op grond van de simulatie resultaten: • Probabilistische methode is meer geschikt dan deterministisch methode indien: • de kwaliteit van de variabelen laag is (in ons geval: 30% fout) • meer variabelen beschikbaar zijn als koppelvariabelen, en bij voorkeur discriminerende variabelen • Deterministische methode is aan te raden voor het koppelen van data van hoge kwaliteit, vooral als de omvang van de overlap gering is (in ons geval 10%).

More Related