Statistiek wordt overschat. Twee onderzoeken presenteerden onlangs tegenovergestelde conclusies over de bijwerkingen van een medicijn, en met wat handige statistiek kun je zelfs aantonen dat je leeftijd omlaag gaat van het luisteren naar een Beatles liedje. Waarom geloven we dan nog zo heilig in statistiek? Laten we ons blinde vertrouwen in de zogenaamde significante resultaten opzij zetten, en met een kritischer blik bekijken wat voor wetenschap er achter vandaan komt.
De Wall Street Journal berichtte onlangs over de volgende tegenspraak: een geneesmiddel tegen osteoporose zou volgens één onderzoeksgroep een verhoogde kans op slokdarmkanker geven, en volgens een andere groep juist niet. Beide onderzoeken waren correct uitgevoerd, en maakten zelfs gebruik van dezelfde database met patiëntgegevens. Er waren verschillende statistische methodes gebruikt, maar in beide gevallen was er een significant resultaat gevonden.
Dit soort tegenstrijdigheden komt wel vaker voor in de wetenschap. Verschillende statistische methodes kunnen verschillende resultaten geven, en ook verschillende selecties van data kunnen tot uiteenlopende resultaten leiden. Op statistiek kun je dus niet zomaar blind vertrouwen, óók niet als de resultaten significant zijn: met een p-waarde onder de magische grens van 0,05.
Want wat betekent die p-waarde eigenlijk precies? Een onderzoeker die een experiment uitvoert, heeft altijd kans dat zijn resultaten slechts het gevolg van toevalligheden zijn. Bijvoorbeeld bij het testen van een geneesmiddel: misschien dat patiënten zich toevallig beter gingen voelen, zonder dat dat iets met de werking van het medicijn te maken had. Pas als de onderzoeker aannemelijk maakt dat het echt niet zomaar toeval was, geloven we in de werking van het medicijn en noemen we het gevonden resultaat significant.
Significante verjongingskuur
Hoe kleiner de p-waarde, hoe kleiner de kans dat er sprake is van toevalligheid, en groter dus de geloofwaardigheid van het onderzoek. Zo’n check op significantie werkt echter alleen als de onderzoeksgegevens zinnig zijn, en op een objectieve manier verzameld. Bij elk onderzoek zouden we dus verder moeten kijken dan de p-waarde groot is: we zouden veel kritischer moeten zijn op de achterliggende data, en de manier waarop die verkregen is.
Precies dit punt maakten Joseph Simmons, Leif Nelson en Uri Simonsohn afgelopen najaar al in een prachtig artikel met de boodschap: met wat creatieve statistiek is alles wel significant te maken. Als voorbeeld tonen ze onder andere aan dat mensen jonger worden door te luisteren naar het liedje When I’m Sixty-Four van de Beatles. Let op: niet jonger voelen, maar letterlijk jonger worden.
Simmons en collega’s lieten 20 studenten luisteren naar When I’m Sixty-Four, of naar Kalimba, een liedje dat gratis bij Windows 7 wordt geleverd. Daarna noteerden de studenten hun geboortedatum, en de leeftijd van hun vader. Uit het onderzoek bleek dat de studenten na het luisteren van het Beatles nummer tenminste anderhalf jaar jonger waren, te zien aan hun geboortedata. Met een p-waarde van 0,04, een significant resultaat dus.
De mazen van de statistiek
Simmons en collega’s benadrukken dat de opzet van hun onderzoek volledig voldoet aan de huidige academische standaard. Waarbij ze die standaard omwille van hun argument zo ver mogelijk hebben opgerekt. Door bijvoorbeeld achteraf pas te bepalen hoeveel proefpersonen nodig waren en welke variabelen interessant, beïnvloedden ze in dit geval bewust hun resultaten. Zo verzamelden ze bijvoorbeeld allerlei extra gegevens van de studenten waaronder de leeftijd van de vader, maar ook leeftijd van de moeder, politieke voorkeur, de wortel van 100, en of ze het eens waren met de uitspraak ‘computers zijn ingewikkelde apparaten’.
Al deze extra gegevens konden aangewend worden om te laten zien dat de groep die naar het Beatles liedje luisterde echt vergelijkbaar was met de Kalimba-groep. Want daar ging het natuurlijk om: statistiek bedrijf je door twee groepen tegen elkaar af te zetten. In dit geval zouden die aan het begin nog dezelfde gemiddelde leeftijd hebben gehad, maar na het luisteren van de nummers niet meer. Dat de groepen inderdaad vergelijkbaar waren, ‘garandeerden’ onderzoekers door te controleren dat de gemiddelde leeftijd van de vaders in beide groepen hetzelfde was. Was deze garantie met de leeftijd van de vaders niet gevonden, dan hadden ze altijd nog een van de andere variabelen kunnen gebruiken.
Verder besloten de onderzoekers te werken met series van ongeveer tien proefpersonen. Na elke serie zou worden vastgesteld of met een van de variabelen een significant resultaat was bereikt. In werkelijkheid hadden er 34 studenten meegedaan aan het onderzoek, maar was de gewenste significantie al bij 20 gevonden.
De moraal van hun verhaal: wie eerst zoveel mogelijk data gaat verzamelen en vervolgens achteraf gaat zoeken naar significantie, vindt altijd wel wat. Daarom beschrijven Simmons en consorten een zestal regels dat elke onderzoeker volgens hen zou moeten volgen om zulke valse positieven te voorkomen. Zo bepleiten ze bijvoorbeeld dat bij elk experiment van te voren vastgesteld moet worden welke data verzameld gaat worden, en hoeveel. De volledige dataset zou dan openbaar gemaakt moeten worden in de publicatie, inclusief alle gemeten variabelen. Zodat we als lezer kunnen inzien waarom we niet hoeven te dromen van verjongingskuren met Beatles-nummers.
Gepubliceerd op Sciencepalooza en in de Volkskrant.