Bijschatten non-respons op enquetevragen
Geschreven door: ABF Research BV
Wat doet u met 'Missing values' in uw bestanden? Weglaten en dan vervolgens gemiddelden presenteren alsof er geen ontbrekende waarden zijn?
Onderzoeksvraag
De meeste enquetes bevatten vragen die niet door iedereen zijn ingevuld. Hoe ga je daarmee om? Door deze records/cases weg te laten ga je er impliciet vanuit dat degenen die niet geantwoord hebben hetzelfde gedrag vertonen als de mensen die wel een antwoord hebben gegeven. Dat kan een vertekend beeld geven net zoals het vervangen van de missing value door het gemiddelde, mediaan of modus. Hoe ga je op een goede manier om met 'missing values' in je analyses.
Oplossing
De enige goede manier om met 'missing values' om te gaan is het imputeren van de ontbrekende waarden. Dit is wat anders dan de beste schatter zoeken met bijvoorbeeld een regressie-model. Met imputeren wordt bij elke 'missing value' een groep 'donorrecords' gezocht met dezelfde daarmee samenhangende kenmerken en willekeurig een donor geselecteerd waarvan de wel ingevulde waarde wordt overgenomen. Er zijn veel imputatietechnieken waar ABF zeer efficiente programmatuur voor heeft ontwikkeld.Doorlooptijd
Dit is afhankelijke van de grootte van het bestand en het aantal variabelen met 'missing values'.
Resultaat
Gedragsvariabelen (zoals 'op welke partij gaat u stemmen?') worden niet bijgeschat. Alle andere gewenste variabelen wel. Voor het WoON-onderzoek imputeert ABF in opdracht van het CBS elke 3 jaren alle item non-respons voor honderden variabelen. Het grote voordeel is dat onderzoekers die met de bestanden werken niet eigen oplossingen gaan gebruiken voor omgaan met ontbrekende waarden met allemaal verschillende resultaten voor dezelfde indicatoren.