De geest uit de fles II - Polderklimaat

Scientific Amerian produceerde op 1 mei van dit jaar een artikel wat nogal voor wat opschudding zorgde. De Londense onderzoeker Andrew Gray had in het data analyse platform Dimensions, wat naar eigen zeggen 140 miljoen wetenschappelijke onderzoeken kan volgen, een survey gedaan naar frases die veel vaker door chatbots worden gebruikt dan door een gemiddelde menselijke auteur.

Ten minste 60.000 onderzoeken (iets meer dan 1 procent van alle wetenschappelijke rapporten die per jaar worden geproduceerd) vertoonden tekenen van AI-misbruik.
Nu schrik ik daar niet zo snel van; ik denk dat mijn vorige blog, waarin ik ChatGPT ook aan het woord laat, ook zou zijn opgepikt, maar mijn verbazing zat hem in de schaal van de wetenschappelijke rapporten die ‘per jaar’ blijkbaar worden geproduceerd.
Als iets meer dan één procent overeen komt met 60.000, dan worden er jaarlijks dus iets minder dan 6.000.000 wetenschappelijke rapporten geproduceerd. Ik weet niet hoe u, als wetenschappelijk geïnteresseerde, in uw vrije tijd zit, maar als u bij wilt blijven in een vakgebied, dan is er toch best wat te lezen.

Dat het voor de wetenschappelijke tijdschriften ook niet meer is bij te houden toont dit artikel van Jane Nova (onlangs vertaald door Climategate.nl) aan. Het 217 jaar oude instituut Wiley (naar eigen zeggen: ‘Global leader in Publishing, Education and research) heeft de afgelopen twee jaar maar liefst 11.300 publicaties ingetrokken en 19 vakbladen afgestoten. Het zijn bewegingen in een markt waar jaarlijks ongeveer 30 miljard dollar in omgaat (Wiley zelf gaat voor 2 miljard).
Opwindend nieuw onderzoek is dus zeer welkom, maar het moet natuurlijk wel passen binnen de inschatting van de redactie over wat door de lezers wordt gezien als de ‘wetenschappelijke standaard’. Inderdaad, dan gaat het over de consensus van de ‘scientific community’.

Lies, damned lies and …

Dorothy Bishop schreef op 24 april 2019 een kritisch artikel in Nature: “Rein in the four horsemen of irreproducibility”, zoiets als “Houd de vier ruiters van de reproduceerbaarheidscrisis in toom”. Dat gaat dus over hetzelfde onderwerp als waar ik in mijn vorige blog al aandacht aan besteedde.

In dit artikel schrijft Bischop

“Na een carrière van meer dan veertig jaar wetenschappelijke onderzoek, merk ik dat ik een uitzondering ben onder academici van vergelijkbare leeftijd en anciënniteit: ik identificeer me sterk met de beweging om de wetenschapsbeoefening robuuster te maken.
Het is niet zo dat mijn tijdgenoten zich geen zorgen maken over het goed doen van wetenschap; het is alleen zo dat velen van hen niet lijken te onderkennen dat er ernstige problemen zijn met de huidige praktijken. (…)

Veel onderzoekers blijven doorgaan op een manier die bijna garandeert dat zij geen zinvolle resultaten zullen vinden. Ze rijden met wat ik de vier ruiters van de reproduceerbaarheids-apocalyps noem: publicatiebias, laag statistisch vermogen, P-waarde-hacking en HARKing (…) Mijn generatie en de generatie vóór ons hebben weinig gedaan om deze ruiters in toom te houden.”

Dat niets menselijks de wetenschappelijke elite vreemd is, blijkt al uit de vrij simpel op te sporen AI-misbruik, waar dit stukje mee begon. Veel moeilijker dan dat soort misbruik, is het oneigenlijk gebruik van statistische methoden op te sporen.

Bischop maakt een begin door deze vorm van fraude te categoriseren en in het onderstaande wil ik dan ook haar betoog volgen door de door haar benoemde “vier ruiters van de reproduceerbaarheids-apocalyps” eens iets nader te onderzoeken.

1) De publication bias

Een academische carrière is afhankelijk van de mate waarin een wetenschapper gepubliceerd wordt. Dit is niets nieuws. Het ‘publiceer of sterf’ werd al voor het eerst in 1928 genoemd. Een uitspraak van Hannah Arendt uit 1972 hierover:

“This business of “publish or perish” has been a catastrophe. People write things which should never have been written and which should never be printed. Nobody’s interested. But for them to keep their jobs and get the proper promotion, they’ve got to do it.”

De noodzaak om te publiceren heeft gezorgd voor een ‘publicatiebias’. Dit omdat publicaties veel waarschijnlijker volgen op ‘gangbare hypothese’-bevestigende studies. Zoals hierboven al uiteengezet: ook de vakbladen moeten aan hun reputatie denken om (blijvend) gelezen te worden. De bladen worden dus min of meer gedwongen om de denkbeelden van de lezers, de ‘scientific community’ te volgen en te verdiepen. Dit lijkt echter ten koste te gaan van de kwaliteit van het onderzoek.

Derek Lowe schrijft bijvoorbeeld in reactie op het onderzoek van Bisschop:

“[W]anneer een goed ontworpen onderzoek van redelijke omvang er niet in slaagt enig resultaat op te leveren (of een verwacht resultaat te bevestigen), zou het de moeite waard zijn om hiervan op de hoogte te zijn. De literatuur in zijn huidige vorm neigt echter uitgesproken naar positief nieuws, en je weet nooit hoe groot de onzichtbare halo van duistere resultaten kan zijn. En hoe beter en indrukwekkender het tijdschrift, hoe groter die bias waarschijnlijk is.”

2) Lage statistische bewijskracht

Volgens Lowe staat de vakliteratuur vol met ondermaatse experimenten die niet alleen hun eigen conclusies niet echt kunnen ondersteunen, maar waarschijnlijk helemaal geen conclusies kunnen ondersteunen. Hij citeert Bishop die in deze context opmerkt: “onderzoekers hebben statistici die hierop wijzen vaak alleen als spelbrekers behandeld”:
“Waardevolle negatieve resultaten zijn één ding, maar onderzoeken die vanaf het begin te klein zijn, bereiken dat niveau niet eens. En het is belangrijk om te beseffen dat ‘te klein’ een glijdende schaal is. Een onderzoek met zes muizen zou veel acceptabeler zijn geweest als het met twintig of dertig muizen was gedaan, en aan de andere kant zou een genoombrede associatiestudie onder honderdduizend mensen wel eens te klein kunnen zijn om te vertrouwen. Het draait allemaal om de effectgrootte; dat is het altijd geweest.
Als uw steekproefomvang niet geschikt is voor die effectgrootte, verspilt u uw tijd en die van anderen.”

3) P-hacking

Volgens Head et al (2015) kan p-hacking worden omschreven als: het proces waarbij onderzoekers gegevens of statistische analyses verzamelen of selecteren totdat niet-significante resultaten significant worden.

Voor Lowe was het artikel van Simmons et al (2011) een eye-opener ten aanzien van het belang van p-hacking voor de psychologie: “False-Positive Psychology: Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant”.
In dit artikel wordt aangetoond hoe gemakkelijk het is om statistisch significant bewijs te verzamelen voor een hypothese die aantoonbaar onjuist is (in dit geval: het luisteren naar liedjes van The Beatles maakte participanten daadwerkelijk jonger dan ze waren).
In het artikel wordt duidelijk gemaakt dat wanneer voldoende data op een ‘juiste manier’ gebruikt, je zo ongeveer alles kunt bewijzen wat je maar wilt.

En last, but not least:

4) HARK-ing

HARK staat voor ‘hypothesize after the results are known’. Het gaat er dan om eerst naar de gegevens te kijken en pas dan te komen met een hypothese die statistisch een indicatie geeft van een significant resultaat.

Het Drijfzand onderzoek stelt dat “onreproduceerbare onderzoekshypothesen geproduceerd door HARKing hele wetenschapsdisciplines de verkeerde richting op stuurt, omdat wetenschappers hun vervolgonderzoek in overeenstemming proberen te brengen met een zeer voorlopig stuk verkennend onderzoek dat zich voordeed als bevestigend onderzoek.”

Een voor Nederlanders leuk ezelbruggetje is dat het eigenlijk gaat om statistisch positieve resultaten bij elkaar te harken. Maar misschien is de ‘Texas sharpshooter fallacy’ een mooi voorbeeld over hoe HARK-en precies in zijn werk gaat.

De naam komt van een metafoor over een persoon uit Texas die een pistool afvuurt op de zijkant van een schuur, vervolgens een schietdoel schildert, daar waar de meeste schietafdrukken zijn geclusterd en vervolgens beweert een scherpschutter te zijn.

De ware kwaliteiten van de scherpschutter kunnen natuurlijk alleen aan het licht komen wanneer iemand hem vraagt om zijn ‘proeve van bekwaamheid’ nog eens over te doen, maar dan met een van te voren getekende schietschijf.

Natuurwetenschap

De boodschap van het artikel van Bischop eigenlijk toch nog behoorlijk positief:
“ik denk dat we over twintig jaar zullen terugkijken op de afgelopen zestig jaar – vooral op het gebied van de biomedische wetenschap – en ons zullen verbazen over de hoeveelheid tijd en geld die is verspild aan gebrekkig onderzoek.”

Waar is dit optimisme op gebaseerd? Mogelijk omdat er steeds meer methoden beschikbaar zijn om de ‘goede’ van de ‘slechte’ statistiek te onderscheiden. Ook is transparantie van de oorspronkelijke data een steeds belangrijker eis, waardoor de resultaten van een ook zijn na te rekenen.

Lowe deelt dit optimisme:
“Het goede nieuws is, zoals gezegd, dat mensen feitelijk alerter zijn op deze problemen. De goed gepubliceerde inspanningen om belangrijke onderzoeken te reproduceren zijn een zeer zichtbaar teken, en het vermogen van sites als PubPeer en andere sociale media om artikelen sneller en openlijker te bekritiseren is een ander voorbeeld.”

Dat geldt helaas niet voor de natuurwetenschappen. Gewend als men is aan het vinden van harde bewijzen voor testbare hypotheses, wordt de statistiek gezien als natuurlijk verlengstuk van de ‘harde wetenschappen’.

De statistische tests die de hockeystick hypothese moest doorstaan, maar wat dus niet lukte, werd door ‘alarmisten’ (en de volgzame pers) dan ook weggezet als de zoveelste poging van de kolen- en oliemaatschappijen et al. om ‘eerlijke wetenschap’ te discrediteren.

Mann et al., de auteurs van deze icoon van de klimaatwetenschap, weten echter tot de dag van vandaag de oorspronkelijke data buiten bereik te houden van diverse onderzoekers die om deze data hebben gevraagd, met als tragisch dieptepunt de zaak Mann vs Ball.
Michael E. Mann, zelfverklaard nobelprijs-winnaar, wist deze rechtszaak zodanig te traineren dat de aangeklaagde Tim Ball overleed voordat hij de schadeclaims kon indienen waar hij volgens de Canadese rechtbank recht op had (zie link).

Fijnstof

In het Drijfzand-onderzoek wordt een evaluatie uitgevoerd ten aanzien van het onderzoek wat ten grondslag heeft gelegen aan de Amerikaanse fijnstof-regulering. En het is dan geen klein rijtje waar fijnstof volgens het EPA verantwoordelijk voor is:
“voortijdig overlijden, laag geboorte gewicht; miskramen; COPD-exacerbatie; ontstekingen; longcomplicaties; autisme; zwaarlijvigheid; depressie; atopische dermatitis; verstoord vestibulair functie (evenwichtsgevoel); stofwisselingsziekten; zelfmoord, geestelijke gezondheid en welzijn; ADHD (aandachtstekort-/hyperactiviteitsstoornis); ademhalingscomplicatie; longontsteking en acute luchtweginfectie; reproductieve resultaten; hoge bloeddruk; long- en andere vormen van kanker. En ook nog versnelde hersenveroudering.”

Goed, u begrijpt al waar het heengaat. In het Drijfzand-onderzoek worden statistische tests uitgevoerd om eens te kijken hoe solide de onderzoeksgegevens nu eigenlijk zijn. Niet geheel onverwacht komt men tot de volgende conclusie:
“Wij hebben deze onderzoeken benaderd met de focus op meta-analyses waarin specifieke de vraag aan de orde kwam of de blootstelling aan PM2,5 (en andere luchtkwaliteits-componenten) in verband kan worden gebracht met een toename van voortijdig overlijden, hartaanvallen en astma. We presenteren sterk statistisch bewijs dat de EPA beleid heeft ontwikkeld, en PM2.5 heeft gereguleerd, op basis van een veld van epidemiologisch onderzoek, dat substantieel wordt beïnvloed door een combinatie van bemonsteringsfouten, publicatiebias, p-hacking en/of HARKing.”

Welnu; uiteraard ben ik niet degene die gaat kijken of de onderzoekers van ‘the National Association of Scolars’ hun onderzoek van mei 2021 wel op de goede manier hebben uitgevoerd. Maar je zou toch verwachten dat íemand dat wel gedaan zou hebben?

Uiteraard is het goedkoper voor de initiatiefnemers voor de ‘goede zaak’ om dit soort onderzoeken gewoon maar te verzwijgen. Zoveel aandacht en publiciteit heeft dit Drijfzand-onderzoek nu ook weer niet teweeg gebracht.
En om met onze meest bekende frauderende wetenschapper Diederik Stapel te spreken (die complete onderzoeken uit zijn duim zoog):“Op een vreemde, naïeve manier dacht ik dat ik iedereen hier een plezier mee deed. Dat ik mensen hielp”.

Maar het zou toch op zijn minst een aanknopingspunt moeten zijn voor de nationale regeringen die zich zodadelijk geconfronteerd zien met onmogelijke fijnstof-eisen.

Het nieuwsagentschap IPS laat hierover bijvoorbeeld weten:
“Het World Air Quality-rapport van iQAir verzamelt de gegevens van meer dan dertigduizend meetstations in 134 landen. Van die landen zijn er maar 7 die de jaarlijkse fijnstofnormen van de Wereldgezondheidsorganisatie (WHO) halen. Het gaat om Australië, Estland, Finland, IJsland, Grenada, Mauritius en Nieuw-Zeeland.”

We gaan dus in Nederland voor de normen die nu al behaald worden in Estland, Finland én IJsland. Nou, dat moet natuurlijk wel lukken; een nieuwe ‘green dust-deal’ voor het jaar 2035?