måndag 12 maj 2014

Nicholas Cage och drunkningsdöden


Hej Statistikvänner!

Jag fick ett kul länktips av min kompis Torsten Beckman (http://www.tylervigen.com/).

Siten presenterar 20 stycken korta tidsserier där det finns en tydlig korrelation mellan några – väldigt märkliga. Bland annat är det så att fler drunknar i swimmingpoolar de år då det kommer ut fler filmer med Nicholas Cage. Man kan fundera länge över hur detta kommer sig, men svaret är lika enkelt som tråkigt.

Nicholas Cage -
The man, the myth, the statistic

Bara för att det finns en korrelation i data så har man inte automatiskt ett orsakssamband. Det är alltså inte så att Nicholas Cages agent arbetar mer aktivt om folk drunknar. Lika lite tror jag att hans filmer får folk att drunkna – varken avsiktligt eller oavsiktligt.

Ibland finns det en effekt som kallas ”skensamband”. Bakom två variabler ligger en tredje som man inte tittar på. Det finns ett logiskt samband mellan denna och bägge de andra, men inte mellan de man betraktar… Om du inte hängde med: Det finns bevis för att kaffedrickare oftare får lungcancer. Orsaken till detta är att rökare BÅDE dricker mer kaffe och får lungcancer, inget annat. Jag gillar inte att vara kategorisk, men jag tror inte att det finns någon tredje faktor som ger Nicholas Cage filmkontrakt och får folk att drunkna.

Svaret ligger i att dataserien är kort (11 år) och att de är många.

Jag roade mig med att göra en simulering på helt oberoende data upprepat 20 gånger. Den bästa av körningarna hade en korrelationskoefficient på 0,54 se figuren. Faktum är att om man gör om samma sak med bara 5 serier som testas i alla par som är möjliga (20 st) så blir det 65% i det bästa fallet.

Simulerade data för 1999 till 2009. Helt oberoende... Trots det blev det en fin korrelation.


De har presenterat 20 resultat, sammanlagt 40 variabler. Antalet möjliga par är 780 stycken. Det är inte konstigt att det finns de med hög korrelation.

Man bör vara försiktig med att tolka denna ”information” eftersom det kan leda till felaktiga slutsatser. Dessa slutsatser kan i sin tur orsaka stora skador. Man skulle behöva en varningstext som de som sitter på cigarettpaketen. ”Varning – Dålig statistik kan skada dig allvarligt!”.

Magnus