NPSO jaarbijeenkomst - Big data: verkennen, verwerken en analyseren.

Wanneer: 2 mei 2017 van 10:30u tot 17:00u

Waar: Hof Van Liere, Universiteit Antwerpen

Adres: Prinsstraat 13, 2000, Antwerpen. Zaal: F. de Tassiszaal

NPSO jaarbijeenkomst: Big data: verkennen, verwerken en analyseren

Wanneer: 2 mei 2017 van 10:30u tot 17:00u in F. de Tassiszaal, Hof Van Liere, Universiteit Antwerpen

Adres: Prinsstraat 13, 2000, Antwerpen

Big data speelt in toenemende mate een rol in beleidsvorming en zeker in ook de survey wereld. Nieuwe toepassingen om gevoelens, opinies en meningen van personen te meten, zoals opinion mining, online sentiment expression, gebruik van Twitter, etc. worden in toenemende mate gebruikt. Aan de andere kant zijn er vragen rondom het nut en de bruikbaarheid van het gebruik van big data. Levert het wel betrouwbare informatie op? Wat is de meerwaarde t.o.v. traditionele methoden van data verzamelen? Daarom organiseert het Nederlandstalig Platform voor Survey onderzoek dit jaar een bijeenkomst die geheel staat in het teken van ontwikkelingen op het gebied van big data. Verschillende initiatieven die op het gebied van big data worden ontplooid in de wetenschap, bij de overheid en in het bedrijfsleven komen hierbij aan bod. Hierbij wordt vooral ingegaan op het proces om van big data tot statistieken te komen. Het gaat dan om vragen als: Hoe big data te verkennen op haar bruikbaarheid voor statistieken? Welke aandachtspunten zijn er in dergelijke verkenning? Is het verwerken van big data maatwerk of is er meer algemene methodologie mogelijk? Welke verwerkingsstappen van big data worden overschat of onderschat? Hoe kun je big data analyseren? Kunnen uitkomsten van analyses op reguliere wijze geïnterpreteerd worden in termen van significantie en toetsing of vraagt dit een andere benadering?

Dagprogramma

Dagprogramma van NPSO bijeenkomst over Big Data 2 mei
10:30 – 11:00	inloop en registratie
11:00 – 11:15	opening dagvoorzitter B. Braaksma (CBS)
11:15 – 11:45	I. Hajnal (GfK Belgium) – *Big Data en Marktonderzoek: Opportuniteiten en gevaren*
11:45 – 12:15	L. Kuijten (CentERdata/JADS) – *Innovatieve dataverzameling en de introductie van data science en machine learning binnen de social sciences*
12:15 – 13:15	Lunchpauze
13:15 – 13:45	M. Roos (CBS) – *Het gebruik van Big data bij het Centraal bureau voor de Statistiek: nieuwe bronnen voor nieuwe inzichten*
13:45 – 14:15	J. Burger (CBS) - *Generaliseren uit niet-kanssteekproeven*
14:15 – 14:45	N. Tollenaar (WODC/UU) – *Welke methode voorspelt recidive het best? Een vergelijking van statistische, machine learning en data mining voorspellingsmodellen op dichotome en survivaluitkomsten.*
14:45 – 15:15	Pauze
15:15 – 15:45	M. Debusschere (Statistics Belgium) - *Big data en Statistics Belgium*
15:45 – 16:15	D. Oberski (UU) - *Een canon van parabels over big data… en hun vervolg*
16:15 – 16:30	Discussie en afsluiting door de dagvoorzitter
16:30 – 17:30	Borrel

Aanvullende informatie over sprekers en presentaties.

Dagvoorzitter is Barteld Braaksma. Barteld Braaksma is innovatiemanager bij het CBS. Vanuit die rol is hij betrokken bij diverse vernieuwingen, in veel gevallen in samenwerking met partners uit de hele maatschappij. Thema’s zijn bijvoorbeeld big data en smart cities. Op deze en verwante onderwerpen is Barteld ook internationaal actief in diverse verbanden.

Big Data en Marktonderzoek: Opportuniteiten en gevaren

Istvan Hajnal (GfK Belgium)

Korte inhoud presentatie

Sinds de opkomst van Big Data zijn er in de marktonderzoekswereld grosso modo twee reacties te onderscheiden. Enerzijds is er een groep die, ten dele uit angst voor het onbekende, en ten dele uit terechte methodologische bekommernissen, zich grotendeels afzijdig heeft gehouden van deze tendens, en anderzijds een groep die zich, bijna kritiekloos, hartstochtelijk in de armen heeft geworpen van alles wat naar technologische vernieuwing ruikt. Zoals zo vaak ligt de meest rationele houding ergens tussen in. In deze presentatie zal ik trachten te beargumenteren dat Big Data en marktonderzoek best hand in hand kunnen gaan. Om te beginnen zal ik aan de hand van een kort historisch overzicht aantonen dat er altijd al een sterke band geweest is tussen technologische innovatie en marktonderzoek. Vervolgens zal ik de sterke punten en de zwakke punten van Big Data belichten en aangeven welke de rol van marktonderzoek in deze nieuwe context kan zijn. Tenslotte zal ik een aantal voorbeelden bespreken van hoe de combinatie van Big Data en marktonderzoek succesvol kan zijn.

Korte bio

Istvan Hajnal is Insights Director, Marketing & Data Sciences bij GfK België. Daarvoor was hij eigenaar van Hajnalytics, een consultancy in Data Science en Big Data. Daarvoor had hij verschillende Europese en globale rollen bij The Nielsen Company. Hij startte z’n loopbaan als wetenschappelijk medewerker, eerst in Diepenbeek en dan aan het departement sociologie van de K.U.Leuven. Istvan heeft een masterdiploma in de informatica en een doctoraat in de sociale wetenschappen

Innovatieve dataverzameling en de introductie van data science en machine learning binnen de social sciences

Lennard Kuijten (CentERdata/JADS)

Korte inhoud presentatie

Via het LISS panel en het CentERpanel verzamelt dataverzameling- en onderzoeksinstituut CentERdata al jarenlang kennis en opinie voor de wetenschap. Het LISS panel is samengesteld uit mensen uit alle lagen van de Nederlandse bevolking. Sinds 2011 wordt er bij de panelleden, naast het afnemen van vragenlijsten, ook data verzameld met behulp van sensortechnologie en apparatuur die data verstuurt over het internet. Na ook het ontwerpen en inzetten van enkele smartphone apps werd gaandeweg duidelijk hoe het was om met grotere hoeveelheden ongestructureerde data aan de slag te moeten. Sinds 2016 is er een klein team dat data science technieken en machine learning algoritmes inzet om tot nieuwe analyses en toepassingen te komen. Deze verhaallijn wordt uiteengezet aan de hand van enkele toepassingen uit onderzoeken.

Korte bio

Na een vijftal jaren als wetenschappelijk software ontwikkelaar (online portalen, databases, dataverzameling, dashboards, apps en algoritmiek) nu in de rol van operationeel management en projectmanagement op het gebied van data science en toepassing van machine learning voor toegepast onderzoek. Binnen CentERdata heeft Lennard software ontwikkeld ten behoeve van dataverzameling en datadisseminatie voor wetenschappelijk onderzoek. Op Europees niveau samengewerkt om dataverzameling en dataverwerking op grote schaal te automatiseren en te beveiligen. Ontwikkeling van dataprotocollen ten behoeve van innovatieve dataverzameling via de ontwikkeling van apps en api’s voor sensor-apparaten over IP (i.o.t.).
Lennard behaalde zijn masters Cognitieve Psychologie en Geneeskunde aan de Universiteit van Maastricht. Daarnaast haalde hij een bachelorsdiploma cum laude in Kunstmatige Intelligentie van de Universiteit van Amsterdam. Naast cognitiewetenschappelijk onderzoek bij TNO, heeft Lennard toegepast wetenschappelijk werk verricht bij Philips Research op het gebied van zorg-IT architectuur. Sinds de oprichting van JADS (Jheronimus Academy of Data Science in Den Bosch) betrokken bij de inrichting en ondersteuning van het onderwijs en onderzoek op het gebied van data science op verschillende thema’s.

Het gebruik van Big data bij het Centraal bureau voor de Statistiek: nieuwe bronnen voor nieuwe inzichten

Marko Roos (CBS)

Korte inhoud presentatie

De presentatie zal gaan over de CBS ervaringen met Big data. Dat zijn er vrij veel en hebben met verschillende facetten te maken. Zo is er gewerkt met data uit verkeerslussen, mobiele telefoongegevens, twitterdata en andere sociale media content. Het CBS werkt met verschillende manieren om die data inzichtelijk te maken en gebruiken de beschikbare data om tot nieuwe informatieproducten te komen. Er komen een aantal visualisaties aan bod (o.a. de daytime population, AIS data en Twitterdata) en ook een aantal inzichten waarbij ingespeeld werd op de realiteit (de pepernotenindex, bijvoorbeeld). Verder wordt ingegaan op de plannen voor de toekomst en de partnerships die er worden aangegaan en de manier waarop dat binnen het CBS is vormgegeven.

Korte bio

Marko Roos werkt nu ongeveer 20 jaar bij het CBS in verschillende functies. De laatste jaren is hij werkzaam bij de Divisie Dataverzameling. Dataverzameling is altijd het werkvlak geweest waar hij zich mee bezig heeft gehouden en dan met name om data op andere manieren binnen te halen dan met vragenlijsten. Hij gelooft in het meten van echte gebeurtenissen die digitale footprints achterlaten. Vanaf 2017 is hij werkzaam als themacoördinator bij het Centre for Big Data Statistics van het Centraal Bureau voor de Statistiek. Hij coördineert daarbij de werkzaamheden rond de thema’s Arbeidsmarkt en Mobiliteit. Daarvoor werkte hij als onderzoeker bij de sector methodologie. Hij heeft daar eerder projecten (mee)geleid die te maken hadden met het verwerken van administratieve bronnen, mobiele telefoongegevens en Twitterfeeds.

Generaliseren uit niet-kanssteekproeven

Joep Burger¹, Bart Buelens¹ en Jan van den Brakel^1,2

¹Sector Procesontwikkeling en Methodologie, Centraal Bureau voor de Statistiek, Heerlen

²Afdeling Kwantitatieve Economie, Universiteit Maastricht, Maastricht

Korte inhoud presentatie

De laatste jaren verkennen sociologen en economen niet-kanssteekproeven zoals big data als alternatief voor het meer traditionele enquête- en registeronderzoek. Big data dekken doorgaans een onbekend deel van de doelpopulatie. Het negeren van deze potentiële afwijking kan al snel leiden tot vertekende schattingen. Wij stellen een algemeen raamwerk voor waarmee ontbrekende waarden kunnen worden voorspeld. Dit raamwerk bevat drie klassen voorspelmethoden: ontwerpgebaseerd, modelgebaseerd en machinaal leren. In een simulatiestudie creëren we selectieve samples uit echte data over kilometrages van auto’s, generaliseren we naar het hele wagenpark en vergelijken we de prestaties van de voorspelmodellen. De resultaten laten zien dat machinaal leren de andere methoden kan overtreffen. Conclusies trekken uit big data kan snel en goedkoop zijn maar vereist methoden die de ontbrekende data kunnen verklaren.

Korte bio

Joep Burger is afgestuurd en gepromoveerd bioloog en werkt sinds 2008 als methodoloog bij het Centraal Bureau voor de Statistiek. Hij is breed geïnteresseerd in onder andere steekproeftheorie, grafentheorie, duurmodellen en de analyse van niet-kanssteekproeven.

Welke methode voorspelt recidive het best? Een vergelijking van statistische, machine learning en data mining voorspellingsmodellen op dichotome en survivaluitkomsten.

Nikolaj Tollenaar (WODC en Universiteit Utrecht)

Korte inhoud presentatie

In deze presentatie wordt de voorspelbaarheid van algemene, gewelddadige en seksuele recidive op basis van justitieregistratiedata bekeken met een reeks van verschillende algoritmen/modellen op een binaire uitkomst (recidive ja/nee). Er wordt gekeken welk model optimaal is wat betreft het leveren van accurate kansen, classificatieaccuratesse en discriminerend vermogen. Tevens wordt de voorspelbaarheid van recidivekansen over de tijd bekeken met algoritmen en modellen voor survivalanalyse. We gaan in op de overwegingen die er komen kijken bij het selecteren van een model voor het gebruik voor verschillende doeleinden in de praktijk.

Korte bio

Nikolaj Tollenaar werkt als onderzoeker bij het WODC van het Nederlandse Ministerie van Veiligheid en Justitie. Daar doet hij onderzoek naar recidive, veelplegers en voorspellingsmodellen op dit gebied. Hij werkt tevens gedetacheerd bij de Afdeling Methoden en Statistiek van de Faculteit Sociale Wetenschappen van de Universiteit Utrecht voor onderwijs en onderzoek op het gebied van data science.

Big data en Statistics Belgium

Marc Debusschere (Statistics Belgium)

Korte inhoud presentatie

De presentatie geeft een overzicht van het gebruik van big data in Statistics Belgium, de lopende pilootprojecten (dit alles binnen een Europees kader waar op dit moment heel veel gebeurt), en van een mogelijk toekomstperspectief.

Korte bio

Marc Debusschere is coördinator administratieve & big data van Statistics Belgium (vroeger het Nationaal Instituut voor de Statistiek). Daarvoor was hij onder andere werkzaam als hoofd van de eenheid Conjunctuurindicatoren, directeur Informatie & Communicatie, Quality manager en, als gedetacheerd expert, grondlegger/hoofdredacteur van Statistics Explained, Eurostat's online publicatieplatform en –website.

Een canon van parabels over big data… en hun vervolg

Daniel Oberski (Universiteit Utrecht)

Korte inhoud presentatie

Over big data doen een aantal wijze lessen de ronde, meestal verteld in de vorm van een pakkend verhaal. Deze parabels moeten de lezer onderwijzen in de gevaren en onzinnigheden van de big data hype. Soms bestaan er oudere versies van de verhalen die de hype juist ondersteunen, en zijn de geactualiseerde versies van het verhaal de parabel. Een goed voorbeeld is de parabel van Google Flu Trends: in een ver verleden (Mayer-Schoenberger & Cukier 2013) het paradepaardje van de big data profetie; nog geen jaar later “mislukt” en door zijn eigen geestesvader Google als een lam geofferd aan de publieke opinie – wat een verhaal!

Kortom, er wordt wat af geëvangeliseerd, zowel door de big data profeten als de big data Farizeeën. In dit praatje wil ik daar samen met u doorheen prikken. Er zijn bijvoorbeeld nieuwe studies die suggereren dat Google Flu trends eigenlijk prima werkt; maar of het werkelijk nuttig is valt toch te bezien. Ik probeer vier verhalen verder te vertellen, niet om big data zwart te maken of juist op te hemelen, maar om te ontdekken hoe wij als onderzoekers verder moeten. Wie weet worden parabels zo ooit wetenschappelijke inzichten.

In onderstaande krantenartikelen vindt u de meeste verhalen waar ik naar verwijs:

Harford, Tim (2014). Big data: are we making a big mistake? https://www.ft.com/content/21a6e7d8-b479-11e3-a09a-00144feabdc0

Gressegger, Hannes & Mikael Krogerus (2016). Ich habe nur gezeigt, dass es die Bombe gibt. https://www.dasmagazin.ch/2016/12/03/ich-habe-nur-gezeigt-dass-es-die-bombe-gibt/

[Engelse vertaling: https://motherboard.vice.com/en_us/article/how-our-likes-helped-trump-win ]

Singer, Natasha (2015). With a Few Bits of Data, Researchers Identify ‘Anonymous’ People. https://bits.blogs.nytimes.com/2015/01/29/with-a-few-bits-of-data-researchers-identify-anonymous-people/

Korte bio

Daniel Oberski is universitair hoofddocent methodologie van Data Science aan de Universiteit Utrecht. Hij heeft onder andere gewerkt aan voorspellingsmodellen voor de kwaliteit van vragen in sociale surveys, het schatten van meetfouten in surveys en administratieve registers, en het ontwikkelen van latente variabele modellen. Verder is hij betrokken bij de coordinatie van het Focusgebied Data Science van de Universiteit Utrecht en voorzitter van de Data Science sectie van de Vereniging voor Statistiek en OR (http://sectiedatascience.nl).

NPSO jaarbijeenkomst - Big data: verkennen, verwerken en analyseren.

Registration form

Downloads

Eerstvolgend evenement

Kernleden

NPSO mailinglijst