Hej Statistikvänner!
Jag fick ett kul länktips av min kompis Torsten Beckman (http://www.tylervigen.com/).
Siten presenterar 20 stycken korta tidsserier där det finns
en tydlig korrelation mellan några – väldigt märkliga. Bland annat är det så
att fler drunknar i swimmingpoolar de år då det kommer ut fler filmer med
Nicholas Cage. Man kan fundera länge över hur detta kommer sig, men svaret är
lika enkelt som tråkigt.
Nicholas Cage - The man, the myth, the statistic |
Bara för att det finns en korrelation i data så har man inte
automatiskt ett orsakssamband. Det är alltså inte så att Nicholas Cages agent
arbetar mer aktivt om folk drunknar. Lika lite tror jag att hans filmer får
folk att drunkna – varken avsiktligt eller oavsiktligt.
Ibland finns det en effekt som kallas ”skensamband”. Bakom
två variabler ligger en tredje som man inte tittar på. Det finns ett logiskt
samband mellan denna och bägge de andra, men inte mellan de man betraktar… Om
du inte hängde med: Det finns bevis för att kaffedrickare oftare får
lungcancer. Orsaken till detta är att rökare BÅDE dricker mer kaffe och får
lungcancer, inget annat. Jag gillar inte att vara kategorisk, men jag tror inte
att det finns någon tredje faktor som ger Nicholas Cage filmkontrakt och får
folk att drunkna.
Svaret ligger i att dataserien är kort (11 år) och att de är
många.
Jag roade mig med att göra en simulering på helt oberoende
data upprepat 20 gånger. Den bästa av körningarna hade en
korrelationskoefficient på 0,54 se figuren. Faktum är att om man gör om samma
sak med bara 5 serier som testas i alla par som är möjliga (20 st) så blir det
65% i det bästa fallet.
Simulerade data för 1999 till 2009. Helt oberoende... Trots det blev det en fin korrelation. |
De har presenterat 20 resultat, sammanlagt 40 variabler. Antalet
möjliga par är 780 stycken. Det är inte konstigt att det finns de med hög
korrelation.
Man bör vara
försiktig med att tolka denna ”information” eftersom det kan leda till
felaktiga slutsatser. Dessa slutsatser kan i sin tur orsaka stora skador. Man
skulle behöva en varningstext som de som sitter på cigarettpaketen. ”Varning –
Dålig statistik kan skada dig allvarligt!”.