Synthetische data als nieuw onderdeel van het data tijdperk?

donderdag, 12 oktober 2023 - 15:00 tot 17:30

Evenementregistratie is niet meer mogelijk.

Data speelt een steeds belangrijkere rol voor beleidsmakers en onderzoekers bij overheden en bedrijven en daarmee ook de behoefte aan meer data. Er is ook steeds meer data beschikbaar, niet meer alleen via primaire dataverzameling voor onderzoek, maar ook uit interne administratieve bestanden van overheden en bedrijven of via bronnen zoals social media of registerbestanden. Tegelijkertijd zijn er ontwikkelingen die een rem zetten op deze ongebreidelde groei en behoefte aan data. Wetgeving rond privacy beperkt het gebruik van gegevensverzameling op persoonsniveau en consumenten zijn zich steeds meer bewust van de gevaren om data te delen en weigeren vaker deel te nemen aan surveys of staan niet toe dat onderzoeksbureaus hun gegevens delen met derden.

Synthetische data heeft de laatste jaren een grote vlucht genomen als oplossing voor deze beperkingen aan het gebruik van micro-data. Door kunstmatige respondenten te creëren, die door modellering worden aangevuld met onderzoeksgegevens, kunnen antwoorden nooit terug te leiden zijn tot individuele patronen. En ook non-respondenten kunnen op deze manier goed gerepresenteerd worden in onderzoek.

Het NPSO organiseert op 12 oktober een online lezingenmiddag over Synthetische data, om in te gaan op de filosofie en praktische

Datum: 12-10-2023
Tijd: 15:00 – 17:30
Deelname: Online

Programma

15:00    Opening door dagvoorzitter Harm Hartman

15:10    Thom Volker (Universiteit Utrecht)
             Het evalueren van de kwaliteit van synthetische data: Een density ratio
             aanpak

15:45    Manel Slokom en Peter-Paul de Wolf (CBS)
             Hoe synthetische data af te leiden uit geaggregeerde economische data?

16:20    Pauze

16:35    Marco Spruit (LUMC) - ELAN-VIPP
             Het ELAN Virtuele Patiënten en Populatie project

17:10    Discussie en afsluiting

17.30    Einde

 

Het evalueren van de kwaliteit van synthetische data: Een density ratio aanpak

Thom Volker (Universiteit Utrecht)

Synthetische data is een steeds populairder wordende oplossing om onthullingsrisico’s bij het delen van onderzoeksdata tegen te gaan. De synthetische data is echter alleen nuttig voor algemene inferentiële doeleinden als de verdeling van de synthetische data vergelijkbaar is met de verdeling van de geobserveerde data. Synthetische data van hoge kwaliteit wordt vaak stapsgewijs gegenereerd, waarbij na elke stap de kwaliteit van de genereerde data wordt beoordeeld, en, indien noodzakelijk, het synthetische data model wordt aangepast. Hierbij is het cruciaal om afwijkingen tussen de geobserveerde en synthetische data in kaart te brengen. Hoewel er meerdere methoden bestaan om de kwaliteit van synthetische data te beoordelen, geven deze meestal een incompleet beeld. Om het evaluatieproces van synthetische data te verbeteren brengen we het density ratio estimation-raamwerk naar dit veld. We laten zien hoe schattingen van een density ratio gebruikt kunnen worden om tot een interpreteerbare maat voor de kwaliteit van synthetische data te komen. Daarnaast laten we zien hoe het schatten van density ratios het gat tussen specifieke en algemene maten van de kwaliteit van synthetische data overbrugt. In gesimuleerde voorbeelden laten we zien dat density ratio estimation gebruikt kan worden voor een test met meer statistische power dan conventionele technieken en tegelijkertijd op een gedetailleerd niveau discrepanties tussen de geobserveerde en synthetische data kan weergeven. Daarnaast heeft de voorgestelde aanpak meerdere bijkomende voordelen, zoals het kunnen kwantificeren van de kwaliteit van individuele synthetische observaties, automatische modelselectie en beschikbare hoog-dimensionale extensies. Middels het R-package `densityratio` wordt het density ratio estimation raamwerk toegankelijk gemaakt, zodat het optimaal gebruikt kan worden binnen synthetische data workflows.

Hoe synthetische data af te leiden uit geaggregeerde economische data?

Manel Slokom en Peter-Paul de Wolf (CBS)

 

ELAN-VIPP: Het ELAN Virtuele Patiënten en Populatie project"

In deze presentatie introduceer ik ELAN-VIPP, het ELAN Virtuele Patiënten en Populatie project, zoals wij dit sinds 2021 uitvoeren vanuit het LUMC. ELAN is het Extramurale LUMC Academische Netwerk van de Health Campus Den Haag, inclusief een domein-overstijgende, transdisciplinaire data-infrastructuur. Een van onze strategische doelen is het ontwikkelen en in gebruik nemen van een digitale tweeling met élan, voor beter onderwijs, onderzoek en zorgpraktijk. Wij onderzoeken zowel regel-gebaseerde, neuraal netwerk-gebaseerde als commerciële technologieën, alsook ethische implicaties. Ik schets onze bevindingen tot dusver en onze plannen voor de nabije toekomst.

 

 

 

Eerstvolgend evenement

Momenteel zijn er geen aankomende evenementen.