Profiel: Statistiek

PROFIEL STATISTIEK
CBS
RESPONS
MEDISCHE ANALYSES
MISLEIDEN
VOLKSTELLING
HANDEL
DATAMINING
HISTORIE
TAKEN
INFORMATIE
METHODEN
GESCHIEDENIS
PRIVACY
GRAFIEKEN
LINKS

Te veel factoren spelen ongemerkt een rol

Rob van den Berg
Bij statistische analyses die het succes van medische experimenten moeten aantonen, zijn tal van vraagtekens te plaatsen.

WIE TE VEEL ZOUT eet, krijgt een te hoge bloeddruk, dat weet iedereen. Miljoenen mensen doen daarom bewust wat rustiger aan met zout om de kans op hart- en vaatziekten te verkleinen. Al sinds 1972 wordt er onderzoek gedaan naar het schadelijke effect van zout op onze gezondheid en de voordelen van een zoutarm dieet. Maar al dat onderzoek en alle analyses ten spijt, bestaat er nog altijd geen hard bewijs dat zout echt slecht is. Zo'n bewijs kan alleen maar komen uit statistisch onderzoek onder twee representatieve groepen patienten.

Dat lijkt misschien een eenvoudige opgave, maar eventuele effecten moeten via ingewikkelde berekeningen uit de uitkomsten worden gepeuterd en dat leidt maar al te vaak tot grote onzekerheden en veel discussie. Hetzelfde geldt voor veel analyses in de psychologie en de sociologie en helemaal voor onderzoek naar de effectiviteit van geneesmiddelen. Het zal niet de eerste keer zijn dat een nieuw middel tegen kanker of hart- en vaatziekten als bijzonder veelbelovend uit de eerste klinische tests komt, om in de praktijk zijn faam niet waar te kunnen maken. In 1992 wezen tests bijvoorbeeld uit dat anistreplase de overlevingskans na een hartaanval zou verdubbelen. Voor magnesiuminjecties gold hetzelfde. Maar toen in 1995 The Lancet de resultaten presenteerde van een grote internationale studie onder 58.000 patienten bleek er van de wonderbaarlijke effecten van beide geneesmiddelen zo goed als niets meer over.

Nu wordt wel aangevoerd dat deelnemers aan klinische tests uitgebreid worden gescreend: ze hebben alleen die kwaal waar het middel goed voor is en mogen geen andere geneesmiddelen gebruiken. Voor de 'gemiddelde patient', die later in de dagelijkse praktijk hetzelfde middel krijgt toegediend, geldt dat in het algemeen niet. Ook wordt wel beweerd dat patienten die meedoen aan een onderzoek een betere behandeling krijgen. Of dat wetenschappelijk onderzoek naar de effectiviteit van geneesmiddelen nu eenmaal vaak wordt gehouden in de grotere, beter uitgeruste academische centra.

Dat mag allemaal zo zijn, maar langzamerhand begint duidelijk te worden dat het probleem heel ergens anders ligt, namelijk in de aard van de gebruikte statistische tests. Wanneer de analyses volgens een andere methode worden uitgevoerd, dan blijkt dat veel geneesmiddelen zelfs in de fase van de klinische tests al door de mand hadden moeten vallen. De grote schuldige voor deze 'fouten' is de Engelse wiskundige en geneticus Sir Ronald Fisher, de vader van de moderne statistiek. Hij ontwikkelde in 1925 een recept dat zo eenvoudig was en toch zo krachtig dat het een enorme populariteit verwierf en tot op de dag van vandaag op brede schaal wordt gebruikt. Zijn methode is te vergelijken met een bewijs uit het ongerijmde: de juistheid van een wiskundige stelling wordt aangetoond door uit te gaan van het tegenovergestelde, en te laten zien dat dat tot onwaarheden leidt. In de statistiek toets je een hypothese aan de hand van de uitkomsten van je onderzoek. Daarmee hoop je die oorspronkelijke veronderstelling met een liefst zo groot mogelijke waarschijnlijkheid te verwerpen of te bewijzen.

Stel dat een arts wil uitzoeken of het innemen van vitamine C helpt bij een verkoudheid. Daartoe neemt hij twee vergelijkbare groepen (verkouden) patienten, geeft de ene helft een placebo en de andere helft vitamine C-tabletten. Dat gebeurt allemaal heel netjes: de arts weet niet wat hij geeft en de patienten weten niet wat ze krijgen. Na een zekere periode wordt bepaald bij hoeveel patienten er verlichting is opgetreden. Dan komt de toetsing. Daarvoor wordt meestal uitgegaan van de zogenoemde nulhypothese dat vitamine C juist niet helpt en dat een eventueel gevonden verschil dus volkomen toevallig is. Dat kan natuurlijk best: wie een heleboel keren met een dobbelsteen gooit, gooit wel eens vijf keer achter elkaar zes. Zoiets hoeft niet te betekenen dat er met de dobbelsteen is gerommeld. Wanneer het echter keer op keer gebeurt, wordt die laatste mogelijkheid waarschijnlijker.

Voor een dobbelsteen kun je dat meestal vrij eenvoudig met een berekening aantonen, maar ook in een statistisch onderzoek zijn daar technieken voor. Je berekent dan bijvoorbeeld hoe groot de kans is dat je een verschil vindt, zelfs als je van de nulhypothese uitgaat dat vitamine C niet helpt. Als die kans heel groot is, dan is het gevonden verschil hoogstwaarschijnlijk toe te schrijven aan puur toeval. Als de kans echter heel klein is, dan is de nulhypothese blijkbaar niet juist en dient zij te worden verworpen.

Maar wat versta je nu onder een 'kleine' kans? Nog altijd wordt de keuze die Fisher daarvoor maakte - een zogenoemde waarschijnlijkheidsdrempel van 1 op de 20 - vrij klakkeloos gevolgd, al is dat niet onomstreden. Verder is een veel gehoorde misvatting dat uit het verwerpen van de nulhypothese automatisch volgt dat de alternatieve hypothese - het middel is wel significant beter - daarmee tegelijkertijd wordt bevestigd.

Ten slotte blijkt de 'methode-Fisher' de significantie van onderzoeksresultaten stelselmatig te overschatten, waardoor er effecten worden aangetoond die er in werkelijkheid helemaal niet zijn.

Er heeft zich dan ook een alternatieve school van statistici gevormd die de methoden van de achttiende-eeuwse Engelse dominee Bayes propageren. Bayesiaanse methoden proberen niets anders dan zo goed en zo kwaad als het kan in wiskundige termen te vatten hoe groot bepaalde kansen zijn op basis van iemands persoonlijk geloof of inzicht. Helemaal vreemd is dat niet. Geen enkele wetenschapper doet zijn werk immers in volledige isolatie en zonder voorkennis van de resultaten van anderen.

Maar ook de methoden van Bayes zijn niet zonder bezwaren. Het belangrijkste dat ertegen wordt aangevoerd, is dat ze subjectief zijn en dat ze een inschatting vragen van kansen. Hoewel bayesianen er af en toe in slagen hun zegje te doen in de verschillende wetenschappelijke tijdschriften, voeren ze vooralsnog een ongelijke strijd.

Er zitten echter nog veel meer addertjes onder het gras bij de analyse van statistische resultaten. Dat is het beste te illustreren aan de hand van een voorbeeld. Stel dat iemand wil proberen aan het licht te brengen welke factoren kunnen bijdragen aan het ontstaan van de ziekte van Alzheimer. De onderzoeker stelt daartoe eerst een groep dementen samen en een even grote controlegroep. Vervolgens worden beide groepen ondervraagd aan de hand van een lange lijst met zo'n honderd factoren als gezinsachtergrond, godsdienst etc. Elke factor wordt getoetst tegen de nulhypothese. Met een waarschijnlijkheidsdrempel van een op twintig zal er voor minimaal vijf factoren een significant verband worden gevonden, of dat er nu ook echt is of niet. Nu zou elke goede onderzoeker zich natuurlijk bewust moeten zijn van dit soort fouten, maar het blijft heel verleidelijk om een artikel te publiceren waarin je het effect van die vijf factoren beschrijft, met weglating van de andere factoren die je hebt getoetst.

Het kan ook op een andere manier fout gaan, maar dan zonder dat iemand daar iets aan kan doen. Wanneer twintig verschillende onderzoeksgroepen de effectiviteit van een geneesmiddel testen, dan zal gemiddeld een van die groepen dat verband ook werkelijk vinden (op grond van de waarschijnlijkheidsdrempel van Fisher), opnieuw of dat nu echt bestaat of niet. Als een homeopathisch middel maar voldoende vaak wordt getest, dan zal onherroepelijk iemand moeten concluderen dat het werkt. En dat resultaat wordt waarschijnlijk als enige nog gepubliceerd ook. Er valt immers niets op aan te merken: alle analyses zijn netjes uitgevoerd.

Omdat er zo'n overvloed aan wetenschappelijke output is, wordt er weinig tot geen ruimte gemaakt in publicaties voor de andere, negatieve uitkomsten. De meeste wetenschappelijke tijdschriften kunnen het zich niet veroorloven om aandacht te schenken aan een 'mislukte' herhaling van een reeds gepubliceerd experiment.

Daarom was het goed dat het British Medical Journal en honderd andere medische tijdschriften eind vorig jaar medisch onderzoekers opriepen hun ongepubliceerde resultaten bekend te maken. Zo kan een evenwichtiger beeld ontstaan van de effectiviteit van een bepaald geneesmiddel of een therapie. Een hulpmiddel daarbij zijn de zogenoemde meta-analyses, waarbij de uitkomsten van vele kleinere onderzoeken worden gecombineerd, zelfs wanneer deze op heel verschillende, dus moeilijk met elkaar te vergelijken manieren zijn uitgevoerd.

Meta-analyses, nulhypotheses en bayesiaanse waarschijnlijkheden, het zijn allemaal wapens die artsen of psychologen in de strijd gooien om inzicht te bieden in de chaos die inherent is aan de resultaten van experimenten met zoiets ingewikkelds als een proefpersoon. Er zijn eenvoudig te veel factoren die vaak ongemerkt een rol spelen. Maar hoe feilbaar de verschillende statistische analyses ook zijn, ze vormen het enige hulpmiddel dat we daar tegenover kunnen stellen.

NRCWebpagina's
7 JANUARI 1999

Bovenkant pagina