De vingerafdrukken van de vogelverschrikker

Het karakter van de IPCC rapporten veranderde drastisch vanaf het derde IPCC rapport (TAR, 2001). De belangrijkste reden hiervoor is verstopt in het twaalfde hoofdstuk van de TAR. In de samenvatting van paragraaf 12.2.2 is echter met de nodige trots over het eigen gelijk is te lezen:
“Een methode om de consistentie tussen de overblijvende klimaatvariabiliteit te controleren in de waarnemingen, na verwijdering van externe forceringen en de natuurlijke interne variabiliteit, geschat op basis van controlesimulaties, is echter ook beschikbaar (bijvoorbeeld Allen en Tett, 1999).
Op alle schaalniveaus is er geen bewijs gevonden voor een ernstige inconsistentie tussen de variabiliteit in modellen die worden gebruikt voor ‘optimal fingerprint studies’ en observaties (Allen en Tett, 1999; Tett et al., 1999; Hegerl et al., 2000, 2001; Stott et al., 2001).

Het gebruik van deze methode en de aannames over de natuurlijke interne variabiliteit, zelfs in de modellen met de grootste gevonden variabiliteit, vergroot het vertrouwen in de getrokken conclusies uit optimale [fingerprint] detectiestudies.”

Een ‘optimal fingerprint studie’ is een statistisch onderzoek wat het effect van broeikasgassen (GHGs) op het klimaat schat in de vorm van een regressiehellingscoëfficiënt. Maar wanneer je de hellingscoëfficiënt van een lijn weet, die de (hier als zodanig aangenomen) lineaire relatie tussen het gehalte GHGs in de atmosfeer en temperatuur op Aarde weergeeft, dan kun je uiteraard goede voorspellingen maken van de temperatuur, op basis van de hoeveelheid GHGs.

Waar kwam dit plotselinge vertrouwen van het IPCC nu precies vandaan?

Volgens Ross McKitrick, een econometrist die professor is aan de aan de Universiteit van Guelph, Canada, was het werk van Myles Allen en Simon Tett (1999) hiervoor verantwoordelijk.

In deze studie wordt gebruik gemaakt van een regressieanalyse om het effect van broeikasgassen op de temperatuur te bepalen.
Een regressieanalyse wordt gebruikt om het effect te bepalen van een (of meerdere) verklarende variabele(n), zoals lengte of leeftijd, op een afhankelijke variabele zoals gewicht.
Op grond van deze variabelen kan dus een schatting worden gemaakt van datgene wat we willen bepalen.

De belangrijkste moeilijkheid bij dit soort van analyses is echter om te bepalen of de verklarende variabelen die we hebben gekozen, wel inderdaad een doorslaggevend effect op de te bepalen variabele hebben.
In de statistiek is dit misschien wel het belangrijkste probleem en er zijn dan ook een aantal methoden uitgewerkt om te kunnen bepalen of wel de goede ‘verklarende variabelen’ zijn gevonden om een voorspelling te kunnen doen over de te bepalen variabele.

Toepassing van de zgn. Gauss-Markov (GM) criteria zijn verreweg de meest toegepaste methode in dit verband. Wanneer wordt voldaan aan deze criteria, wordt in de statistische wetenschap (vaak met het onmisbare gereedschap SPSS) vervolgens meestal gebruik gemaakt van de belangrijkste regressie methode, de Ordinary least squares methode (OLS), om voorspellingen te kunnen doen over de wekelijkheid.

In 2021 publiceerde Ross McKitrick echter een peer gereviewd artikel over mogelijke fouten in het werk van Allen en Tett, dat helaas voor niet statistici moeilijk leesbaar is, zoals ook Richard Tol, die de controverse van commentaar voorzag, moest vaststellen:
“Most people try to steer clear of statistics, let alone the inner workings of estimators that are robust to heteroskedasticity.”

De studie

Maar waarom ging het dan in de studie van McKitrick? Hij ging dieper in op de door AT99 gebruikte ‘Generalized Least Square’ (GLS) methode en concludeert vervolgens in zijn artikel:

“AT99 heeft enkele fouten gemaakt in hun samenvatting van de GM aannames en er werden beweringen gemaakt over de eigenschappen de factoren die de hellingscoëfficiënt (regressiecoëfficient) bepalen, die op zijn best nooit zijn bewezen en in het algemeen niet waar zijn.
Hun GLS-methode voldoet niet aan de GM voorwaarden en schendt een belangrijke voorwaarde voor onpartijdigheid.”

Dat zijn dus een aantal statistische doodzondes.

De studie van Allen en Tett (AT99) is met name gericht op het vaststellen van een klimatologische ‘normale uitgangssituatie’. Wanneer er een bepaalde waargenomen klimatologische dataset (bijv. de wereldgemiddelde temperatuur) is gevonden, hoe kan dan worden bepaald dat er een invloed van broeikasgassen is geweest die deze temperatuur heeft beïnvloed? En wat was dan de ‘normale temperatuur’ geweest wanneer die invloed er niet was geweest?

Volgens Allen en Tett was de gangbare praktijk om de waarnemingen te zien als een uitkomst van een computermodel (waarin dus de invloed van broeikasgassen is opgenomen) en vervolgens het klimaatmodel nog eens de dataset te laten doorlopen, maar dan zonder de invloed van broeikasgassen, als soort van ‘pseudo-observaties’.
Het verschil tussen beide kan vervolgens statistisch worden getoetst door middel van een regressie analyse. In dit geval kunnen hypotheses, over de invloed van GHGs op het klimaat, worden getoetst tegen een nul-hypothese (die stelt dat er geen invloed is).

In de studie van AT99 wordt dan ook opgemerkt dat het duidelijk is dat deze statistische benadering een volledig vertrouwen in het realiteitsgehalte van de modelsimulatie vereist.

Voor dit probleem is er de klimaatstudies toch een vrij simpele oplossing gevonden, maar dan wel op grond van, volgens McKitrick, in ieder geval discutabele argumenten.

In een poging om zijn bevindingen ook voor leken toegankelijk te maken (zie link) stelt McKitrick hierover:
“Verschillende auteurs vóór AT99 hadden voorgesteld om waargenomen klimaatverschijnselen – bijvoorbeeld veranderingen in temperatuur of orkaanfrequentie of het optreden van hittegolven – als matrix te vergelijken met klimaatsimulaties met en zonder broeikasgassen. Als het opnemen van broeikasgassen een significant betere match zou opleveren met de waarnemingen, dan zouden wetenschappers kunnen verwijzen naar de menselijke uitstoot als oorzaak. De methode wordt ‘fingerprinting’ of ‘optimal fingerprinting’ genoemd.

Maar dit bleek in de praktijk lastig. In plaats van waargenomen gegevens te gebruiken om een dergelijke matrix te berekenen, geven klimatologen er al lang de voorkeur aan om klimaatmodellen te gebruiken. Hoewel er redenen waren voor deze keuze, zorgde het voor veel problemen.”

In zijn hierboven al aangehaalde studie uit 2021 merkt McKitrick hierover onder meer op:
“In het raamwerk wat in AT99 wordt gecreëerd, is aangenomen dat het klimaatmodel een perfecte weergave is van het echte klimaat. In de klimaatmodellen is echter altijd de veronderstelling verankerd dat broeikasgassen een significant effect hebben op het klimaat, samen met andere aannames over de omvang en effecten van natuurlijke forceringen.
In een typische ‘optimal fingerprinting application’, streeft de onderzoeker er naar om een nulhypothese te berekenen, waarin broeikasgassen geen effect hebben op het klimaat.
Er kan echter geen statistiek worden geconstrueerd in dit AT99-framework dat deze aanname handhaaft.
Gebruik van pre-industriële controles om de ‘natuurlijke klimaat-ruis’ te genereren, of het combineren van gegevens uit verschillende klimaatmodellen, kunnen dit probleem niet oplossen, aangezien dergelijke modellen (evenals hun simulaties uit het pre-industriële tijdperk) al de veronderstelling bevatten dat de verhoogde gehaltes broeikasgassen (indien aanwezig) een groot effect veroorzaken, vergeleken met dat van natuurlijke forceringen.”

Hij krijgt hierin bijval van collega econometrist Richard Tol (zie link):
“Allen en Tett waren zich bewust van het [GM-]probleem en stelden in hun paper uit 1999 een oplossing voor. Jammer genoeg blijkt uit hun referentielijst dat zij niet veel statistische literatuur hebben geraadpleegd.
Ze hebben ook niet de uitstekende afdelingen voor statistiek voor econometrie van Oxford bezocht – wat ze dat wel hadden moeten doen. Dan zouden ze hebben begrepen dat Halbert White in 1980 een oplossing voor hun probleem had gepubliceerd, een oplossing die in elk tekstboek stond vanaf 1990.
De door Allen en Tett voorgestelde oplossing lost het probleem niet op. Integendeel. De OLS methode zou het beter hebben gedaan. De geschatte standaardfout is nog steeds inconsistent. Slechter nog. McKitrick laat zien dat de geschatte parameter nu vertekend is. Allen en Tett stelden ook een test voor van hun werkwijze. Maar McKitrick laat zien dat deze test ook fout is: er worden te veel valse positieven gevonden.
Dat wil dus zeggen dat Allen en Tett niet alleen een non-oplossing publiceerden, maar iets wat de zaken nog erger maakte, plus een manier om alles te verdoezelen.”

Het is niet ondenkbaar dat de auteurs Allen en Tett hun foutieve aanpak hebben onderkend en in het artikel van Allen en Stott (2003) wordt ineens gebruik gemaakt van een andere regressiemethode, de Total Least Squares (TLS) methode (die ook zonder al te veel problemen wordt omarmd in het vierde IPCC rapport).

Dit ook weer tot grote verbazing van McKitrick. In 2022 publiceerde hij de studie: ‘On the choice of TLS versus OLS in climate signal detection regression’ (zie link).
Hij schrijft daarover: “TLS wordt door ons (ecomometristen) niet gebruikt (in feite gebruikt bijna niemand buiten de klimatologie het) omdat, onder andere, als het regressiemodel verkeerd is gespecificeerd, TLS overcorrigeert en geeft een opwaartse bias aan de resultaten.”

De statistici R. J. Carroll and David Ruppert publiceerden al in 1996 al een artikel in ‘The American Statistician’ waarin wordt ingegaan op deze TLS problematiek. In de website Climate Etc. worden de belangrijkste bevindingen van deze studie ten aanzien van de nu gebruikte TLS methode samen gevat:

“Carroll en Ruppert wijzen erop dat TLS afhankelijk is van de aanname dat het regressiemodel zelf correct is gespecificeerd, met andere woorden: het regressiemodel omvat alles wat variaties in de afhankelijke variabele verklaart.

TLS kan dus in principe onbevooroordeelde signaaldetectiecoëfficiënten opleveren, maar alleen als het klimaatmodel, dat de signalen genereert, alles omvat wat het waargenomen klimaat verklaart, en een willekeurige ruis aan de signalen toevoegt met precies dezelfde variantie als de willekeurige afwijkingen in het waargenomen klimaat.
Wanneer deze beweringen waar zouden zijn, zouden we natuurlijk helemaal geen signaaldetectieregressies hoeven uitvoeren. Als we wilden weten hoe broeikasgassen het klimaat beïnvloeden, konden we gewoon in het model kijken. Maar signaaldetectieregressies worden juist gemotiveerd door het feit dat klimaatmodellen noch perfect, noch compleet zijn. De bewering [van AT99] dat hun resultaten onbevooroordeeld zijn, veronderstelt echter dat ze beide zijn.”

Tot welke vreemde resultaten de auteurs Stott en Allen, vormgevers van de TLS-methode, onder meer komen, wordt duidelijk in een ander artikel van de auteurs uit hetzelfde jaar 2003:
“Aan de hand van een drempelwaarde voor de gemiddelde zomertemperatuur, die in 2003 werd overschreden, maar in geen enkel ander jaar sinds het begin van de directe temperatuurmetingen in 1851, schatten we in dat het zeer waarschijnlijk is (betrouwbaarheidsniveau >90%), dat de menselijke invloed, het risico op een hittegolf, die deze drempelwaarde overschrijdt, op zijn minst heeft verdubbeld.”

Dat lijkt niet eens op wetenschap: Hoezo verdubbeling? En waar is dat 90% betrouwbaarheidsniveau dan precies op gebaseerd? En hoe is dat direct te relateren aan de broeikasgas-problematiek?

Oud nieuws

Maar is dit alles nog belangrijk? McKitrick heeft de auteurs Allen en Tett nog gevraagd om een commentaar op zijn artikel en Allen reageert nogal quasi-verbaasd. Hij antwoordde dat hij de kwestie waarover hij nu om commentaar wordt gevraagd, eigenlijk onzinnig vindt, omdat deze methode uit het artikel, waarvan hij co-auteur was, al lang is vervangen door nieuwere verbeterde methodieken:

“Het oorspronkelijke raamwerk van AT99 werd vervangen door de Total Least Squares-benadering van Allen en Stott (2003), en dat is op zijn beurt grotendeels vervangen door de geregulariseerde regressie- of waarschijnlijkheids-maximaliserende benaderingen, die geheel onafhankelijk zijn ontwikkeld. Om het een beetje luchthartig te zeggen: het voelt een beetje alsof iemand suggereert dat we allemaal moeten stoppen met autorijden, omdat er een nieuw probleem is vastgesteld met de Model-T Ford.”

Een lachwekkend commentaar volgens McKitrick:
“Haha, Model T Ford; we rijden nu allemaal in Tesla’s, ook wel Total Least Squares genoemd. Maar hebben klimaatwetenschappers, na twintig jaar gebruik, ook gecontroleerd of TLS het probleem daadwerkelijk oplost? Een paar statistici hebben er in de loop der jaren naar gekeken en grote twijfels geuit over TLS. Maar toen het eenmaal door IPCC-klimatologen werd aangenomen, was dat einde verhaal; op enkele uitzonderingen na stelde niemand vragen.”

Dat de analyse van McKitrick wel degelijk relevant is, wordt meteen duidelijk door de kritiek op het artikel door H.Chen et al. (2022), waarin wordt opgemerkt:

“We geven een overzicht van de studie naar de ‘optimale vingerafdrukken’-benadering, zoals samengevat in Allen en Tett (1999), vanuit een oogpunt van statistische gevolgtrekking in het licht van de recente kritiek van McKitrick (2021).
Wij komen tot de conclusie dat de ‘optimal fingerprinting -benadering’ een groot deel van de kritiek van McKitrick (2021) zou overleven onder twee voorwaarden:
(i) de nulsimulatie van het klimaatmodel is onafhankelijk van de fysieke waarnemingen en
(ii) de nulsimulatie levert een consistente schatting van het residu op covariantiematrix van de fysieke waarnemingen.

Beide zijn afhankelijk van de beschrijving en de kwaliteit van de klimaatmodellen.”

Maar goed, dat was juist het probleem…

We mogen dus concluderen dat de wetenschappelijke theorie die wordt uitgedragen door het IPCC berust op een fantastische cirkelredenering: De kwaliteit van de klimaatmodellen wordt bevestigd door statistische methoden, die juist weer afhankelijk zijn van de kwaliteit van deze klimaatmodellen.

Zo gezien was het niet verwonderlijk dat in de TAR triomfantelijk werd vastgesteld:
“Op alle schaalniveaus is er geen bewijs gevonden voor een ernstige inconsistentie tussen de variabiliteit in modellen die worden gebruikt voor ‘optimal fingerprint studies’ en observaties (Allen en Tett, 1999; Tett et al., 1999; Hegerl et al., 2000, 2001; Stott et al., 2001).”

Dit bewijs had dus ook nooit gevonden kunnen worden met de gebruikte statistische methoden…

De vogelverschrikker

Een ‘straw man’ redenering (best te vertalen als vogelverschrikker-redenering) is een type drogreden waarbij men niet het werkelijke standpunt van de tegenstander weerlegt, maar een (karikaturale) variant daarvan. Men interpreteert het standpunt van de tegenstander zodanig dat dit standpunt gemakkelijk te weerleggen is en suggereert dan dat dat het werkelijke standpunt van de tegenstander is.

De Engelse Wikipedia gebruikt het voorbeeld dat wanneer iemand zegt dat hij chinees eten lekkerder vindt dan pizza en toehoorder zegt: “dan moet je pizza wel verschrikkelijk vinden”, er een ‘straw man’-redenering is ontstaan. De eerste persoon heeft immers nooit gezegd dat hij pizza niet lekker vindt.

Een vogelverschrikker is geen echte man, maar een representatie/ karikatuur hiervan. Zo ook is een vogelschrik-argument geen echt argument, maar een representatie/ karikatuur hiervan.

De klimaat-statistiek is een belangrijk voorbeeld van een dergelijke argumentatie. Niet langer gaat het daarover of GHGs een klimaat-effect kunnen hebben, maar gaat het belangrijkste debat daarover of voor een bepaalde bewijsvoering wel de juiste statistische parameters zijn gekozen.

Een fraai voorbeeld van de voor leken inmiddels onnavolgbare en verhitte discussies tussen voor en tegenstanders, wordt bijvoorbeeld uitgevochten op de website van Judith Curry (zie link).

Een ander voorbeeld betreft de vreemde controverse die is ontstaan rondom een artikel wat is geschreven door een viertal Italiaanse wetenschappers, waarin de conclusies van het IPCC inzake klimaat extremen, nader worden onderzocht.

De Italiaanse studie

Het (peer gereviewde) artikel ‘A critical assessment of extreme events trends in times of global warming’ door Alimonti et al. verscheen in 2022 in het door Springer uitgegeven blad ‘European Physical Journal Plus’ en maakte duidelijk dat extreme weersomstandigheden wereldwijd gezien helemaal niet toenamen.
Het artikel kreeg enige media aandacht en dat triggerde uiteraard de ‘kwaliteitskrant’: The Guardian.

In het artikel worden een aantal vooraanstaande klimaatwetenschappers aan het woord gelaten, waaronder uiteraard de meester statisticus Michael Mann, die het al eerder aan de (hockey-)stok had gehad met McKitrick. Uiteraard was er van alles mis met het Italiaanse artikel volgens Mann:
“Nog een voorbeeld van wetenschappers uit totaal niet-verwante vakgebieden die naïef ongepaste [statistische] methoden toepassen op data die ze niet begrijpen. Ofwel is de consensus van de klimaatexperts van de wereld, dat de klimaatverandering een zeer duidelijke toename van veel soorten weersextremen veroorzaakt, verkeerd, ofwel hebben een “couple of nuclear physics dudes” uit Italië ongelijk.”

Maar ja, dat het wel meeviel met de weersextremen, dat was nu juist wel wat het IPCC, uiteengezet in tabel 12.12 van de AR6, had opgeschreven, terwijl over de klimaat-deskundigheid van de auteurs eigenlijk niet kon worden getwijfeld.
De belangrijkste klacht die de Guardian wel hard wist te maken: In het Italiaanse artikel werd geciteerd uit het 5^e IPCC rapport, in plaats van het zojuist verschenen zesde deel van de IPCC-saga. Dat het artikel was geschreven voordat dit zesde deel was verschenen, kon natuurlijk niet als excuus gelden.

De Italiaanse auteurs werden in de gelegenheid gesteld om het artikel aan te passen en deze aanpassingen werden uiteraard weer gereviewd. En er kwam nieuwe kritiek:
“In dit manuscript, evenals in [Alimonti et al.], wordt benadrukt dat, ondanks het bestaan van detecteerbare trends in gemiddelde variabelen, er in de meeste gevallen geen trends in extreme gebeurtenissen bestaan.
Ik begrijp wat de auteurs bedoelen, maar er moet voorzichtigheid worden betracht met de exacte bewoording van de zinnen. Het detecteren van trends in extreme gebeurtenissen is veel moeilijker dan het detecteren van trends in gemiddelde variabelen.

Het is duidelijk dat de beperkte hoeveelheid gegevens over extreme gebeurtenissen het veel moeilijker maakt om veranderingen op een statistisch significante manier te detecteren. De grote variabiliteit tussen de jaren van de statistieken over extreme gebeurtenissen betekent dat zelfs als er veranderingen aanwezig zijn, de beperkte hoeveelheid gegevens waarover we beschikken, ervoor zorgt dat deze lange tijd niet op te sporen zijn.”

Het standpunt van deze expert-reviewer, (uiteraard) over de ontoereikende statistische methoden van de auteurs (wie kan dat controleren?), wordt graag over genomen door de uitgever.
Springer, onder druk gezet door de machtige Covering Climate Now (CCN) coalitie, (tezamen goed voor 500 tijdschriften met 2 miljard lezers), kiest eieren voor zijn geld en het artikel wordt ingetrokken. The Guardian vierde dit duidelijk als een overwinning.

Er moet natuurlijk wel op ‘de goede IPCC/ TLS- manier’ statistiek worden bedreven.

De World Climate Declaration

Tony Thomas vond in zijn artikel over de controverse echter in The Guardian nog een andere belangrijke reden voor het intrekken van het artikel van de vier Italiaanse wetenschappers:

“The Guardian merkte op dat drie van de vier Italianen vorig jaar een ‘“no emergency” sceptic declaration hadden ondertekend, alsof dat hen diskwalificeerde van behoorlijk onderzoek. The Guardian vermeldde niet dat dezelfde verklaring, met zijn 1600 ondertekenaars, werd geleid door twee Nobelprijswinnaars in de natuurkunde, John Clauser (2022) en Ivar Giaever (1973).

Waar Clintel al niet goed voor is. Het is misschien een goed idee, om The Guardian veel kostbare tijd te sparen (best lastig om die lijst met 1600 ondertekenaars iedere keer te moeten raadplegen), om namens Clintel alle ondertekenaars van de World Climate Declaration een opvallend roze T-shirt te overhandigen met daarop de tekst:
“Yes, I signed the World Climate Declaration, too”.
(en achterop: “I used to be a climate scientist”).

En dit met het verzoek om dit T-shirt te dragen tijdens vergaderingen en andere officiële bijeenkomsten. Dat geeft wel duidelijkheid.

Ik wil Marcel bendanken voor zijn hulp en belangrijke adviezen bij het opstellen van dit artikel