teller

NIEUWS |  TEGENSPRAAK | SUPPLEMENT | AGENDA | ARCHIEF | ADVERTENTIES | SERVICE Overzicht eerdere
afleveringen


PROFIEL STATISTIEK
CBS
RESPONS
MEDISCHE ANALYSES
MISLEIDEN
VOLKSTELLING
HANDEL
DATAMINING
HISTORIE
TAKEN
INFORMATIE
METHODEN
GESCHIEDENIS
PRIVACY
GRAFIEKEN
LINKS

Domweg liegen met cijfers

Arlen Poort
Statistieken liegen niet. Maar wel de mensen die statistiek gebruiken. Of het nu over de Spice Girls, seks voor hogeropgeleiden gevechtspiloten of over aandelen gaat.

WIE NIET OPLET, kan zich alles laten wijsmaken. Bijvoorbeeld dat het beter is niet door te leren na de middelbare school. Want, zo leerde ooit een Amerikaans onderzoek, hogeropgeleiden hebben minder vaak seks dan lageropgeleiden. Een meisje dat naar aanleiding van dit alarmerende feit door de krant USA Today werd geinterviewd, zei dat ze altijd van plan was geweest te gaan studeren, ,,maar nu moet ik er nog eens over nadenken''.

De fout die zij maakte, was correlatie te verwarren met causaliteit. Ofwel het domweg aannemen dat dingen die gelijktijdig gebeuren of bij dezelfde groep optreden een oorzaak-gevolgrelatie hebben. Als er al een oorzakelijk verband is, kan het net zo goed andersom zijn: mensen die slechts een geringe drang tot seks hebben, hebben nu eenmaal meer tijd om te studeren.

De Amerikaanse organisatie Statistical Assessment Service (STATS) verzamelt voorbeelden als deze. De doelstelling van STATS is te voorkomen dat statistiek verkeerd wordt gebruikt in de media. Want als journalisten niet opletten in het vertalen van wetenschappelijk onderzoek, kan het publiek van alles op de mouw worden gespeld. De stelling van Mark Twain (die ook wel aan Benjamin Disraeli wordt toegeschreven) dat er drie soorten leugens zijn, ,,lies, damned lies and statistics'', wordt bewaarheid door de verkeerde omgang met statistiek. Want het zijn niet de statistieken die liegen, maar de mensen die statistiek gebruiken.

Deels gebeurt dit onopzettelijk. Mensen willen nu eenmaal verbanden zien en voorspellingen doen. Zoals de beursverslaggever die schreef dat een daling van de aandelenkoers van platenmaatschappij EMI met 1,9 procent was veroorzaakt door het vertrek van een van de leden van hun Spice Girls. Maar een soortgelijke koersverandering was al vele malen voorgevallen, dus waarom zou nu Ginger Spice ineens de schuldige zijn?

Wetenschappers en opinieonderzoekers publiceren elke dag hun statistieken: 23 procent van alle vrouwen vindt dit, 56,8 procent van de kinderen doet dat, en van alle gepensioneerde mannen krijgt 12,4 procent te maken met zus of zo. De zinsnede 'uit onderzoek is gebleken dat' in combinatie met een percentage is altijd een nieuwsbericht waard. Maar dat het bericht lang niet altijd waar is, blijkt uit de vele voorbeelden die door STATS in de Amerikaanse pers zijn gevonden.

Het persbureau Associated Press (AP) meldde op 3 november 1998 dat ,,high school-scholieren die veel naar televisie en muziekvideo's kijken meer geneigd zijn tot het drinken van alcohol dan andere jongeren, terwijl diegenen die video's huren minder risico lopen''. AP citeerde een studie van de Stanford Universiteit waaruit een correlatie bleek tussen tv kijken en alcoholconsumptie. Wat de betekenis van de correlatie was, bleef echter onduidelijk. Immers: het gedrag van ouders en vrienden is vaak sterk bepalend voor het gedrag van jongeren. Deze factoren waren in het onderzoek niet bekeken.

Ook onderzoek naar de relatie tussen de sociaal-economische positie van mensen en hun gezondheid levert geen eenduidige conclusies op. Vaak genoeg is aangetoond dat mensen met een goedbetaalde baan gezonder zijn dan mensen met een laag inkomen. Maar wat is de oorzaak? Niet mag worden vergeten dat wie een slechte gezondheid heeft een kleinere kans heeft om werk te vinden. En wie een lage opleiding heeft, zal vaker gevaarlijk werk doen. Aan de andere kant kan iemand met veel geld zich vaak betere gezondheidszorg veroorloven.

Associated Press berichtte op 11 september 1997 dat 29 procent van alle sterfgevallen onder ex-werknemers van een nucleair laboratorium te wijten was aan kanker. Een alarmerende conclusie, zo leek het. Maar volgens het Amerikaanse centrum voor gezondheidsstatistiek is binnen de totale bevolking kanker de oorzaak van 35 procent van alle sterfgevallen onder 44- tot 65-jarigen en 25 procent van alle sterfgevallen in de totale bevolking boven de 44 jaar. De ex-werknemers van het laboratorium stierven dus ongeveer even vaak aan kanker als de rest van de Amerikanen.

Veel onderzoek is gebaseerd op steekproeven. Op basis van gedragingen of meningen van een kleine groep mensen kunnen conclusies worden getrokken die gelden voor (een deel van) de gehele bevolking. Die kleine groep mensen moet dan wel goed worden gekozen. Ofwel: representatief zijn voor dat deel van de bevolking waarover uitspraken worden gedaan. Het onderzoek van Alfred Kinsey naar seksueel gedrag is berucht om zijn onrepresentativiteit. De mensen die hij enqueteerde, waren in het geheel geen doorsnede van de Amerikaanse bevolking.

,,Elk jaar worden op zijn minst honderdduizenden Amerikanen ziek na het drinken van vervuild leidingwater. Niemand weet hoeveel er sterven.'' Zo berichtte USA Today op 21 oktober 1998. De krant citeerde een rapport van het Center for Disease Control waaruit bleek dat er 52 gevallen van vervuild leidingwater bekend waren in de periode 1993-1996. Hierdoor werden 408.000 mensen ziek en stierven er 111. Maar het rapport vermeldde ook dat al deze sterfgevallen en 403.000 van de 408.000 ziektegevallen optraden na een enkel geval van noodweer in de staat Milwaukee. Als de krant gegevens had gekozen uit de periode 1994-1997, was er geen bericht geweest.

Op een soortgelijke manier kunnen beleggingsfondsen het publiek misleiden. In hun advertenties tonen de bedrijven vaak een staatje om bijvoorbeeld te bewijzen dat hun fonds in de periode januari 1993 tot december 1997 driemaal zo goed presteerde als het beursgemiddelde. Deze data zijn nooit willekeurig gekozen. Wie een andere periode uitkiest, zal naar alle waarschijnlijkheid op een veel minder rooskleurig rendement uitkomen.

Met fondsrendementen wordt vaker gegoocheld. Wie kijkt naar het gemiddelde rendement van alle bestaande Amerikaanse beleggingsfondsen tussen het voorjaar van 1987 en 1997, komt uit op een gemiddelde koersstijging van 11,65 procent. Maar een onderzoek van de zakenbank Goldman Sachs nuanceert deze bevinding. De moeilijkheid is dat veel fondsen ophouden te bestaan. Het genoemde winstpercentage is alleen gebaseerd op de fondsen die de gehele periode bleven bestaan. Fondsen die bijvoorbeeld voortijdig failliet gingen en zo het gemiddelde omlaag trekken, worden niet meegerekend. Onderzoeker Mark Carhart van Goldman Sachs bekeek de rendementen van alle fondsen tussen januari 1962 en december 1995. Hieruit bleek dat de fondsen die in 1995 nog altijd bestonden, een gemiddeld jaarlijks rendement van 10,7 procent hadden behaald, net iets boven het beursgemiddelde van 10,6 procent (op basis van de Standard Poor 500-index). Maar werden ook de fondsen meegerekend die om welke reden dan ook niet meer bestonden, dan daalde het gemiddelde rendement tot 9,5 procent.

Statistici noemen dit effect de survivor bias. Wie bijvoorbeeld een onderzoek doet onder een willekeurig gekozen groep van gepensioneerde piloten van gevechtsvliegtuigen, kan ontdekken dat hun gemiddelde leeftijd ver boven die van alle gepensioneerden ligt. Dus wie piloot bij de luchtmacht wordt, leeft langer? Nee. Geen enkele piloot die in een gevecht is gedood, haalt zijn pensioen.

NRCWebpagina's
7 JANUARI 1999

Bovenkant pagina


NRC Webpagina's © NRC HANDELSBLAD (web@nrc.nl) JANUARI 1999