onsdag 20 augusti 2014

Räknefel då man stickar

Välkomna till Statistikbloggen! 

Jag läste en fråga på Facebookgruppen ”Stickcafé” som handlade om hur många gånger man ska kontrollräkna maskorna på sin stickning. Så – i ett försök att bredda läsekretsen – tänkte jag försöka ge lite synpunkter på detta. 

Om man stickar måste man (om man är lika amatörmässig som jag i alla fall) kontrollräkna antalet maskor med jämna mellanrum. Om antalet är för litet har man sannolikt tappat en maska som man i så fall måste leta upp och sticka in, men man kan även råkat lägga till en. Ska man sticka en resår vållar detta stora problem eftersom man ska sticka varannan avig, varannan rät och om man har ett fel så blir det både snett och vint.

Så därför måste man ibland kontrollera antalet. 

Antag att vi stickar en vante (eller socka) med 40 maskor per varv, fördelade på 4 stickor med 10 vardera. För enkelhets skull antar vi att det är fråga om slätstickning så det är bara räta maskor hela varvet runt. Nu ska vi kontrollräkna antalet… 


För varje maska kan vi göra två fel: Missa att räkna (antalet minskar med ett), räkna dubbelt (antalet ökar med ett) eller räkna rätt. Vi betecknar dessa med (-1, +1 respektive 0). Gör vi alla rätt kommer vi att få rätt svar. Men hur kan vi veta att vi faktiskt har rätt bara för att vi får rätt summa? Vi kan ju ha räknat fel två gånger! 

Inom informationsteori talar man om felupptäckande och felrättande koder. En upptäckande kod innehåller en kontrollmöjlighet som gör att vi kan upptäcka vissa fel, men vi kan inte rätta dem. Exempel på detta är kontrollsiffran i personnumren och OCR-numren. Man kan se att det är fel på ett personnummer om kontrollsiffran är fel, men man kan inte se vad det rätta numret är. En rättande kod så kan man även korrigera felet så att det blir rätt. Men om två siffror ändras samtidigt så kan kontrollsiffran bli rätt i alla fall och felet går obemärkt förbi… 

Ett exempel på en felupptäckande kod inom stickning är att om man stickar resår (varannan rät och varannan avig). Om sista maskan blir rät vet man att det är fel någonstans, men inte var eller hur detta ska korrigeras. Men även här kommer två fel att ta ut varandra. 

Låt oss anta att du oftast räknar rätt. Säg att felräkningar inträffar 1 gång på 1000 (var 1000:e maska missas ELLER dubbleras, medan 999 räknas rätt). Det betyder att en kontrollräkning av vanten ovan kommer att ha noll fel med en sannolikhet på 96,1%. Sannolikheten för EXAKT ett fel är 3,8% och sannolikheten för MINST 2 fel är 0,076%. Se tabellen nedan. 

Men även om man gör minst 2 fel så kan det fortfarande vara så att felräkningarna syns. Ett udda antal fel kommer t.ex. alltid att synas. Likaså om samma fel görs fler gånger (man missar t.ex. att räkna 2 maskor). Gör man däremot fel så kommer det att vara ETT fel eller ett antal fel som syns i alla fall med mycket hög sannolikhet (över 99%). Så om man bara gör fel 1 gång på 1000 så kommer man med största sannolikhet att få rätt resultat, d.v.s. upptäcka ett fel som finns eller godkänna ett korrekt arbete. Ett räknefel kommer alltså inte att gå att missa. 

Om du är slarvigare och gör fel på var hundrade maska så blir kontrollräkningarna trots det rätt med en sannolikhet på 67%. Även i detta fall kommer det att vara mycket sannolikt att OM man gör ett fel så är det bara ett fel (81,7%). 



Men slarvar man ännu mer och gör fel på var 10:e maska så blir det problem. Då kan man troligen inte lita på sin kontrollräkning alls utan måste kontrollräkna flera gånger oavsett resultat.  
Jag tror att de flesta med lite noggrannhet kommer att räkna rätt så ofta att om man gjort fel så upptäcks detta. Kontrollera gärna själv genom att räkna samma stycke flera gånger. Därför drar jag slutsatsen att om man stickar vantar eller raggsockor så ska EN genomräkning räcka. Skulle det bli ett felaktigt antal så måste man gå igenom arbetet en gång för att finna felet, som sannolikt kommer att finnas. 

 Hälsningar Magnus 

 Tack till Monica Larsson som gav mig inspiration till denna bloggpost!

måndag 12 maj 2014

Nicholas Cage och drunkningsdöden


Hej Statistikvänner!

Jag fick ett kul länktips av min kompis Torsten Beckman (http://www.tylervigen.com/).

Siten presenterar 20 stycken korta tidsserier där det finns en tydlig korrelation mellan några – väldigt märkliga. Bland annat är det så att fler drunknar i swimmingpoolar de år då det kommer ut fler filmer med Nicholas Cage. Man kan fundera länge över hur detta kommer sig, men svaret är lika enkelt som tråkigt.

Nicholas Cage -
The man, the myth, the statistic

Bara för att det finns en korrelation i data så har man inte automatiskt ett orsakssamband. Det är alltså inte så att Nicholas Cages agent arbetar mer aktivt om folk drunknar. Lika lite tror jag att hans filmer får folk att drunkna – varken avsiktligt eller oavsiktligt.

Ibland finns det en effekt som kallas ”skensamband”. Bakom två variabler ligger en tredje som man inte tittar på. Det finns ett logiskt samband mellan denna och bägge de andra, men inte mellan de man betraktar… Om du inte hängde med: Det finns bevis för att kaffedrickare oftare får lungcancer. Orsaken till detta är att rökare BÅDE dricker mer kaffe och får lungcancer, inget annat. Jag gillar inte att vara kategorisk, men jag tror inte att det finns någon tredje faktor som ger Nicholas Cage filmkontrakt och får folk att drunkna.

Svaret ligger i att dataserien är kort (11 år) och att de är många.

Jag roade mig med att göra en simulering på helt oberoende data upprepat 20 gånger. Den bästa av körningarna hade en korrelationskoefficient på 0,54 se figuren. Faktum är att om man gör om samma sak med bara 5 serier som testas i alla par som är möjliga (20 st) så blir det 65% i det bästa fallet.

Simulerade data för 1999 till 2009. Helt oberoende... Trots det blev det en fin korrelation.


De har presenterat 20 resultat, sammanlagt 40 variabler. Antalet möjliga par är 780 stycken. Det är inte konstigt att det finns de med hög korrelation.

Man bör vara försiktig med att tolka denna ”information” eftersom det kan leda till felaktiga slutsatser. Dessa slutsatser kan i sin tur orsaka stora skador. Man skulle behöva en varningstext som de som sitter på cigarettpaketen. ”Varning – Dålig statistik kan skada dig allvarligt!”.

Magnus

onsdag 22 januari 2014

Facebook dör ut mellan 2015-17

Hej,

Facebook på väg att dö ut som en smittsam sjukdom! Få saker väcker ett intresse som en bra rubrik.

Inom statistiken använder man modeller, d.v.s. en förenklad bild av hur verkligheten fungerar. I modellen finns slumpmässiga förlopp, påverkan m.m. inlagda och sedan skattar man hur stora dessa är.

Inom epidemiologi – läran om smittsamma sjukdomars spridning – finns en enkel modell som delar in alla människor i tre faser: Mottaglig, Smittad, Resistent. Först kan man bli smittad av sjukdomen, sedan är man smittad och sprider smittan vidare till andra mottagliga och sedan blir man Resistent mot smitta. Till detta finns mängder av variationer. T.ex. kan resistent betyda att man avlidit.

På engelska kallas detta ”SIR”-modellen (Susceptible, Infected, Resistent).

Beroende på hur lätt det är att smitta andra och hur ofta detta sker och hur lång tid smittade har på sig att sprida sjukdomen vidare blir det olika förlopp. Rabies och hiv sprids ganska sakta eftersom smittotillfällena är få. Å andra sidan influensa sprids snabbt och kan explodera i pandemier för att sedan dö ut då stora delar av befolkningen utsatts för smittan och antingen blivit immuna eller dött.

Forskare vid Princeton University [1] har tillämpat samma modell på Facebook. Man kan betrakta en person utan Facebook-konto som ”Mottaglig för smitta”, en som anslutits som ”smittad”. Om man tillämpar denna modell kan man se hur snabbt farsoten sprider sig innan en pandemi mer eller mindre brutit ut. Men de har även beräknat att trenden vänder och denna vändning finns med i modellen.

Likt spanska sjukan och böldpesten kommer smittan att avklinga. Enligt forskarna har detta redan skett med MySpace som följde samma mönster för några år sedan. Facebook nådde sin topp 2012 och kommer att tappa 80% av sina användare mellan 2015 och 2017.

/Magnus

[1] J Cannarella and J A Specler (2014). Epidemiological modeling of online social network dynamics. http://arxiv.org/pdf/1401.4208v1.pdf