Hellmann en Henk

Henk Angenent schaatste dit jaar de Elfstedentocht. Door een val kwam dat niet helemaal goed maar, zei hij, “Strenge winters komen altijd in clusters, dus volgend jaar gaan we weer". Een uitspraak die hij doet op ervaring. Maar zouden we in de data aanwijzingen kunnen vinden voor clustering van koude winters? Voortman’s Python bijt zich vast

Statistiek makkelijk gemaakt

Ik studeerde in de eerste helft van de jaren ’90 (van de vorige eeuw). Er liep een fundamentele kloof door de studie. Bij het vak statistiek leerden we technieken om informatie uit data te halen. Randvoorwaarde daarbij was wel de beschikbaarheid van data. Vervolgens specialiseerde ik mij in de toepassing van statistiek op waterbouwkunde en waterveiligheid om te ontdekken dat de prachtige statistische toetsen vaak niet werken door gebrek aan data. Het gevolg was dat ik veel van de bekende statistische technieken niet of nauwelijks toepaste. Ik deed wel heel veel ervaring op met extreme waarde statistiek en met het verantwoord omgaan met gebrek aan data. Want die bouwwerken komen er, data of geen data.

In mijn studietijd bestond het toepassen van een techniek altijd uit drie onderdelen. Je moest de techniek begrijpen, vervolgens programmeren (en controleren of je dat goed hebt gedaan) en daarna kon je hem pas loslaten op je data. Het programmeren en controleren nam altijd de meeste tijd in beslag. Daarom, en vanwege de twijfel over de toepasbaarheid op kleine datasets, bleef de toepassing vaak achterwege.

De toepassing van Python (en ook van R) ontslaat je van het tijdrovende programmeren en controleren van de testmethoden, want die zijn er allemaal al. De packages “scipy” en “statsmodels” bieden een wereld aan statistische tools. Je kan in een uurtje zelfs verschillende proberen. Het gevolg is dat je denkkracht vrij komt om nieuwe mogelijkheden te ontdekken.

Vandaag experimenteer ik met (voor mij) nieuwe tools. Voortman leert bij en u maakt het van dichtbij mee. De geclusterde winters van Henk zijn een mooi richtpunt.

Normaal weer

Om meer te kunnen zeggen over Henk’s geclusterde winters moeten we kijken naar het klimaat. De internationaal geaccepteerde definitie is dat klimaat het gemiddelde is van het weer van een periode van 30 jaar. Die periodes zijn vastgesteld. De vorige periode liep van 1981 tot en met 2010. De afgelopen jaarwisseling begon een nieuwe periode. De nieuwe periode is 1991 – 2020. De gemiddelde temperatuur in De Bilt steeg per 1 januari van 10,2 graden naar10,6 graden. Deze stijging komt waarschijnlijk doordat de koudere jaren 1980 uit het gemiddelde zijn verdwenen en de warmere jaren 2010 zijn toegevoegd.

De normale waarden worden door het KNMI gepubliceerd. Zoals u van mij gewend bent reken ik het liever zelf uit op basis van de metingen van het KNMI omdat je dan meer inzicht opdoet. Wilt u het officiële klimaat van Nederland weten, kijk dan vooral bij het KNMI.

Hoe koud is de winter?

Henk heeft koude winters nodig om de Elfstedentocht te kunnen schaatsen. Dus om te beginnen moeten we vaststellen hoe koud onze winters eigenlijk zijn. Je kan diverse manieren bedenken. Je zou de laagste temperatuur in een winter kunnen nemen. Of de gemiddelde temperatuur in een winter.

Het KNMI gebruikt het Hellmann-getal. Dat is gedefinieerd als de optelling van alle etmaalgemiddelde temperaturen onder nul van 1 november tm 31 maart. Best complex, dit zinnetje. Dus stap voor stap. We selecteren etmaalgemiddelde temperaturen van 1 november tm 31 maart. Alle waarden boven nul gooien we weg. Alle overgebleven waarden tellen we bij elkaar op en, omdat we liever naar positieve getallen kijken, gooien we het min-teken weg. Het resultaat is een maat die aangeeft hoe streng de winter is. Hoe hoger het getal, hoe strenger. Het KNMI legt het hier nog wat beter uit.

Een Python in de winter

Inmiddels kronkelt Voortman’s Python alweer tevreden door zijn terrarium. Waarom zouden we kiezen? Als we de data eenmaal hebben (en dat hebben we), dan zijn enkele extra regels zo geprogrammeerd. Hieronder het lijstje van winters, gesorteerd van meest streng naar minst streng (op basis van het Hellmann-getal).

De tien koudste winters in De Bilt volgens Voortman's Python

Het lijstje met Hellmann getallen kunt u ook vinden bij het KNMI. Mijn top 5 komt exact overeen met de lijst van het KNMI. Da’s mooi. In mijn lijstje zijn verder ook de gemiddelde (TG), maximum (TX) en minimum (TN) temperaturen per winter opgenomen. Als gezegd loopt het seizoen van Helllmann van 1 november tm 31 maart. Ik heb de winter overeen laten komen met de meteorologische winter van 1 december tm 28 (of 29) februari. November en december worden toegevoegd aan het jaar erop. Dus de winter van 1901/1902 staat onder 1902 etc. Ook dit is conform de definities van het KNMI.

Gustav Hellmann werd geboren in 1854 en stierf in 1939. Zijn getal is dan ook lekker praktisch als je met de kroontjespen getallen bij elkaar moet optellen. Maar voor ons is het een koud kunstje om de verschillende kenschetsen van de winters op een rij te zetten. Dus…… we gaan plaatjes kijken. Een uitleg over dit soort prenten kunt u vinden in eerdere blogs.

Pairwise scatter plot van de winterse temperaturen en het Hellmann-getal

Het Hellmann getal laat een net verband zien met de gemiddelde wintertemperatuur. Geen verrassing, aangezien de daggemiddelde temperaturen de invoer zijn voor het getal. Ook de minimum wintertemperatuur laat een redelijk verband zien met het Hellmann-getal. Op het oog vertoont de wintermaximum temperatuur het minste verband met de kou in de winter. Temperaturen hoger dan 13 graden doen zich in de metingen alleen voor bij wintergetallen kleiner dan 150, dat wel. Maar het verband is erg zwak. De winter van 1942 bijvoorbeeld (nummer 3 in termen van Hellmann) had een wintermaximum van 13 graden. Het minimum in dat jaar was tegen de -25 graden! Een variatie van bijna 40 graden in één seizoen. De koudste winter, in Hellmann-termen had een variatie van “slechts” 25 graden. De ene winter is de andere niet. Het illustreert dat individuele dagrecords meestal niet veel zeggen over langere periodes.

Hieronder staat het plaatje van de Hellmann getallen over de jaren. De website van KNMI had deze week een storing zodat het getal van 2021 is gebaseerd op metingen tot half januari. 2021 zal nog hoger eindigen dan hier is weergegeven.

Hellmann getallen over de jaren. Data KNMI tot half januari 2021, analyse Voortman's Python

In de jaren 1940 en 1960 hebben we zeer strenge winters gehad. Ook eind jaren 1970 en begin 1980 was het fris, maar al warmer dan enkele decennia eerder. Sinds de jaren '60 lijken de winters geleidelijk minder koud te worden, vooral doordat de extreme winters uitblijven. We leven in een geleidelijk opwarmende wereld en dat zien we terug in de afnemende Hellmann-getallen.

Hellmann’s Elfstedentocht

Telkens als het water korsten begint te vertonen wordt er gespeculeerd over de Elfstedentocht. Het valt niet te betwisten dat vorst gunstig is voor de kans op een Elfstedentocht. Maar ik heb moeite met de Elfstedentocht als indicator voor koude winters. Dat komt doordat er heel veel variabelen mede bepalend zijn voor het al dan niet doorgaan van de tocht. Een belangrijke is het aantal deelnemers. Hieronder staan de deelnemers van de vijftien tot nu toe gehouden tochten.

Deelnemers aan de start van de Elfstedentocht uitgezet naar winterjaar (dus tochten in December verschoven naar het jaar erop)

De tocht begon in 1909 met minder dan 30 deelnemers. In 1956 waren het er een kleine 6000. Het massa-evenement zoals wij het kennen is een fenomeen van de jaren 1980 en 1990. Zo’n groot aantal deelnemers stelt natuurlijk hele andere ijsen aan het eis. Hieronder zijn alle Hellmann-getallen van de afgelopen eeuw nog eens uitgezet. Met rode rondjes zijn de winters met Elfstedentocht aangegeven.

Hellmann getallen De Bilt van alle winters sinds 1901 (blauwe stippen) en winters met Elfstedentocht (rode rondjes). 2021 tot half januari

Volgens het KNMI mag een winter met een Hellmann getal boven de 100 “koud” worden genoemd. Boven de 40 heet het “koel”. De Elfstedentochten van 1912 en 1934 werden in koele winters verreden met 65 respectievelijk 512 deelnemers aan de start. Het lijkt aannemelijk dat een tocht met bijna 17.000 deelnemers in die winters niet zou zijn verreden. Henk Angenent heeft het zelf laten zien toen hij met vrienden de tocht reed. Met een beperkt aantal deelnemers kon het dit jaar ook. Misschien moet de tocht in gradaties worden gehouden met een wedstrijd als het ijs daarvoor geschikt is en een grote toertocht als het ijs dikker is.

In het plaatje zien we ook winters die zeer koud waren en waarin toch geen tocht werd gehouden. In 1979 was dat zo. Een jaar met veel sneeuw en sneeuwjachten zoals ik twee weken geleden al ontdekte. Maar ook 1996 was kouder dan 1997 en alleen in het tweede jaar werd een Elfstedentocht gehouden. Ik herinner me uit die jaren het fenomeen van de “IJstransplantatie” die werd gebruikt om wakken te dichten. Net te laat uitgevonden in 1996 en in 1997 uitgebreid toegepast. Volgens mij was er in 1996 ook discussie over ijsbrekers die te lang waren blijven varen en bleven ze in 1997 eerder in de havens.

Kortom, het wel of niet door gaan van een Elfstedentocht hangt met zoveel factoren samen dat het een slechte maat is voor de opwarming. Leuk voor de krant, zullen we maar zeggen.

De clusters van Henk en de exponent van Hurst

Terug naar de geclusterde winters van Henk. Heeft hij een punt? De grafieken geven de eerste aanwijzing. Met het belangrijkste statistische instrument, het “timmermansoog”, lijken koude en lauwe winters zich inderdaad in clusters van twee of drie jaar voor te doen. Maar niet altijd. Henk’s ervaring als schaatser klopt aardig.

Als hoge en lage waarden in een meetreeks zich in clusters voordoen, dan is er sprake van “persistentie” of “geheugen” in het signaal. Het vervelende is dat alle technieken die we kennen voor het fitten van lijnen en het bepalen van onzekerheden veronderstellen dat de metingen “geheugenloos” (er zijn nog wat voorwaarden van wiskundige aard maar we houden het gezellig). Er zijn diverse methoden beschikbaar om te controleren of een meetreeks “geheugen” heeft. Ik heb er één gebruikt, namelijk de exponent van Hurst. Die kan waarden aannemen tussen 0 en 1. Een geheugenloos proces heeft een waarde 0,5.

Toegepast op de Hellmann-getallen en op de temperaturen kom ik op een waarde van rond de 0,2. De meetreeks van temperaturen lijkt een “geheugen” te hebben. Dat betekent terug naar de studeerkamer voor mij. Want ook al hoef ik Hurst niet te programmeren, ik wil hem wel snappen.

Het zal wel even duren voordat ik over dat onderwerp iets zinnigs kan schrijven. Voor nu weet u alvast dat u iedereen die lijntjes trekt door puntenwolken voorzichtig moet benaderen. Zoals ik dat eerder al zei over mensen die denken het klimaat te kunnen modelleren.

Ik snap het niet meer en ben gelukkig!

Verdere studie

Onder meer de Griekse hydrologie professor Koutsoyannis heeft geschreven over processen met geheugen en de toepassing ervan op hydrologie. Ook de Amerikaanse blogger Willis Esschenbach schrijft inspirerende stukjes.

python data-analyse statistiek