Efter lite uppvärmning var det dags att angripa ett statistiskt problem som brukar vålla debatt: Oberoende händelser.Som en liten prolog kan jag berätta att jag i helgen besökte Borås. På väg ut från Maxi Åhaga möttes jag av stora löpsedlar från GT om vilka butiker i Borås hade sålt vinstlotter på sistone - Hela listan!
Det intressanta med sådana listor är att det kan leda till två diametralt olika slutsatser om man är okritisk:
a) Jag ska spela i dessa butiker då de har tur med sig eller
b) Jag ska inte spela i dessa butiker då vinstlotter inte säljs upprepade gånger på samma ställe.
Som statistiker inser jag att ingendera av ovanstående är rätt. Det korrekta alternativet (som ingen brukar acceptera utan långt diskuterade) är
c) Det spelar ingen roll med denna lista utan nästa vinstlott kan hamna var som helst igen.
Betrakta ett enkelt hasardspel som Roulette. Om du väljer att spela på rött eller svart så har du 50% chans att vinna varje gång (jag bortser från Nollan). Men om det har bilivt rött 10 gånger och du står med din sista marker, vad gör du då? De flesta väljer svart - eftersom 11 rött i rad är näst intill omöjligt (1 på 2048 för att vara exakt). Men då utgår man från att bordet "kommer ihåg" att det blivit rött 10 gånger förut.Sannolikheten för rött nästa gång är och förblir 1/2.
Samma feltanke skulle betyda att man INTE spelar i en butik på GT:s heta lista. De har ju redan haft sin "kvot" av tur. Med samma logik följer också följande skämt:
- Varför skyddar man sig mot terrorister genom att ha med sig en bomb på flygplanet?
- För att sannolikheten för två bomber på samma plan är nästan noll!
Samma logik skulle innebär att man - för säkerhets skull - krockar bilen innan man reser på semester, så inga olyckor ska ske under resan!
Observera att detta gäller för händelser som verkligen är oberoende. Kärnkraftsolyckor är t.ex. svagt beroende, man kan anta att personalen på Ringhals var mer alerta efter Tjernobyl t.ex. vilket gör att en till härdsmälta var ganska osannolik.
Men då det gäller spel ska man tänka som så: Det är roligt att spela, vinsten är en bonus som gör att det är spännande. Istället för att bränna pengar på en berg-och-dalbanetur, skräckfilm eller annat som får det att killa i magen så kan man gå till ett casino. Spännande, roligt - men inget man blir rik på!
Man måste inte ha tråkigt bara för att man är statistiker!
Kaching!
Magnus
Välkommen till statistikens underbara värld! En blogg för dig som är intresserad av statstik till vardag och fest. Ingen siffra är för obskyr, ingen händelse för otrolig, ingen datamängd för stor eller liten. Ingen tanke eller fenomen som inte kan illustreras i siffror!
måndag 31 januari 2011
fredag 21 januari 2011
Igår kväll fastnade jag, för ett okänt antal gånger i ordningen, på centralen med ett trilskande pendeltåg. Tack vare en bekant på Trafikverket (Stort tack) har jag fått lite siffror på tågförseningar och tänkte att jag skulle ta en titt i dessa. Bland annat har jag 1084 avgångar från Göteborg C, av vilka 65 stycken gick 0 minuter sent.
Ett sätt att mäta kvalitet är att räkna "Andelen inom toleransgränser". För tåg skulle det betyda att man mäter "Andelen som är högst N minuter försenade" - Dessa betecknas i så fall "I tid". Denna modell används i de flesta fall trafik men får en del absurda konsekvenser.
Punktlighet definieras med måtten 3 minuter eller 5 minuter sent. Antalet försenade respektive i tid framgår av tabellen nedan:
Försent 5 I tid All
Försent 3 26 47 73
I tid 0 1011 1011
All 26 1058 1084
6,73% av tågen är 3 minuter sena och 2,40% är 5 minuter sena. Men notera att tåg som är 3 minuter sena är 35% även 5 minuter sena. D.v.s. om ett tåg är 3 minuter sent så är det 1/3 att det även är 5 minuter sent. Hur sena tåg som är minst 3 minuter sena (73 stycken) framgår av figuren nedan:
Det som händer är att OM ett tåg är lite försenat så är det troligen VÄLDIGT försenat. Problemet är att det finns inget incitament för att minska förseningen för ett tåg som redan är sent. Eftersom detta redan har "prickats av som sent". Den utvärdering som görs premierar alltså att ett sent tåg växlas undan så att så många "andra" tåg ska komma i rätt tid.
Notera även att mätsystemet inte tar hänsyn till hur många personer som försenas. Ett fullproppat X2000 är alltså lika mycket värt som en tom rälsbuss. Trots att den totala konsekvensen kan bli mycket större om man räknar på ett annat sätt.
Jag tror att man skulle räkna "passagerarminuter" föresning eller liknande.
Ett sätt att mäta kvalitet är att räkna "Andelen inom toleransgränser". För tåg skulle det betyda att man mäter "Andelen som är högst N minuter försenade" - Dessa betecknas i så fall "I tid". Denna modell används i de flesta fall trafik men får en del absurda konsekvenser.
Punktlighet definieras med måtten 3 minuter eller 5 minuter sent. Antalet försenade respektive i tid framgår av tabellen nedan:
Försent 5 I tid All
Försent 3 26 47 73
I tid 0 1011 1011
All 26 1058 1084
6,73% av tågen är 3 minuter sena och 2,40% är 5 minuter sena. Men notera att tåg som är 3 minuter sena är 35% även 5 minuter sena. D.v.s. om ett tåg är 3 minuter sent så är det 1/3 att det även är 5 minuter sent. Hur sena tåg som är minst 3 minuter sena (73 stycken) framgår av figuren nedan:
Det som händer är att OM ett tåg är lite försenat så är det troligen VÄLDIGT försenat. Problemet är att det finns inget incitament för att minska förseningen för ett tåg som redan är sent. Eftersom detta redan har "prickats av som sent". Den utvärdering som görs premierar alltså att ett sent tåg växlas undan så att så många "andra" tåg ska komma i rätt tid.
Notera även att mätsystemet inte tar hänsyn till hur många personer som försenas. Ett fullproppat X2000 är alltså lika mycket värt som en tom rälsbuss. Trots att den totala konsekvensen kan bli mycket större om man räknar på ett annat sätt.
Jag tror att man skulle räkna "passagerarminuter" föresning eller liknande.
torsdag 13 januari 2011
BMI
Hej alla statistikälskare!
Tack för all trevlig återkoppling per mail, facebook och här på blogspot. Jag ska försöka återkomma kring de förslag som jag får.
Så här efter all julmat och medan alla fortfarande kommer ihåg nyårslöften om att gå ner i vikt kan det vara på plats att fundera lite kring hur man vet om man är över (eller under-)viktig. Det vanligaste sättet att mäta detta är via BMI (Body Mass Index) som definieras som vikt (i kg)/längd (i m)^2. T.ex. om man väger 75 kg och är 1,77 m lång så blir det 75/1,77^2 = 23,94. Tanken med BMI är att jämka samman längd och vikt så att man får ett mått på över/undervikt.
WHO anger att BMI 18,5-25 är normal, 25-30 övervikt och 30+ fetma.
Men detta är inte riktigt hela sanningen. Kroppsvikten beror på "innehållet" i kroppen. Det är ett välkänt faktum att muskler (som består av protein) väger mer än fett - Vältränade kommer alltså att få en högre BMI, vilket leder till det paradoxala att om man försöker träna bort övervikt kan man få högre BMI än tidigare. Arnold Schwarzenegger vägde då han blev Mr Universe 117 kg och var 1,88 m. Detta ger ett BMI på 33,2, d.v.s. fetma klass 1 enligt WHO.
Kvinnor, som generellt är kortare och har större andel fett och mindre andel muskler än män, bör dessutom använda andra gränsvärden. Dessa ska vara något lägre. Som en jämförelse kan vi betrakta Larissa Cunha som vann Miss Physique 2009. Hon är 167 cm lång och väger 85 kg, vilket ger BMI 30,47. (Däremot har Heidi Andersson (Armbryterskan från Ensamheten) BMI på 24).
Barn, som har en helt annan kroppsproportion, från fluffiga bebisar, taniga 9-åringar o.s.v. med ett proportionellt sett större kranium har en annan lista kallad isoBMI med helt andra siffror.
Poängen med detta inlägg är att varna för vad som händer då man tar "riktiga" siffror som längd och vikt och på ett magiskt sätt trollar fram en ny siffra (BMI). Sådana index kan både förenkla men även förvirra den som ser det nya talet. Sjukvården använder ofta sådana index i olika sammanhang, särskilt då det handlar om saker som är svåra att mäta (som fetma, grad av ångest, livskvalitet och liknande).
God fortsättning!
Tack för all trevlig återkoppling per mail, facebook och här på blogspot. Jag ska försöka återkomma kring de förslag som jag får.
Så här efter all julmat och medan alla fortfarande kommer ihåg nyårslöften om att gå ner i vikt kan det vara på plats att fundera lite kring hur man vet om man är över (eller under-)viktig. Det vanligaste sättet att mäta detta är via BMI (Body Mass Index) som definieras som vikt (i kg)/längd (i m)^2. T.ex. om man väger 75 kg och är 1,77 m lång så blir det 75/1,77^2 = 23,94. Tanken med BMI är att jämka samman längd och vikt så att man får ett mått på över/undervikt.
WHO anger att BMI 18,5-25 är normal, 25-30 övervikt och 30+ fetma.
Men detta är inte riktigt hela sanningen. Kroppsvikten beror på "innehållet" i kroppen. Det är ett välkänt faktum att muskler (som består av protein) väger mer än fett - Vältränade kommer alltså att få en högre BMI, vilket leder till det paradoxala att om man försöker träna bort övervikt kan man få högre BMI än tidigare. Arnold Schwarzenegger vägde då han blev Mr Universe 117 kg och var 1,88 m. Detta ger ett BMI på 33,2, d.v.s. fetma klass 1 enligt WHO.
Kvinnor, som generellt är kortare och har större andel fett och mindre andel muskler än män, bör dessutom använda andra gränsvärden. Dessa ska vara något lägre. Som en jämförelse kan vi betrakta Larissa Cunha som vann Miss Physique 2009. Hon är 167 cm lång och väger 85 kg, vilket ger BMI 30,47. (Däremot har Heidi Andersson (Armbryterskan från Ensamheten) BMI på 24).
Barn, som har en helt annan kroppsproportion, från fluffiga bebisar, taniga 9-åringar o.s.v. med ett proportionellt sett större kranium har en annan lista kallad isoBMI med helt andra siffror.
Poängen med detta inlägg är att varna för vad som händer då man tar "riktiga" siffror som längd och vikt och på ett magiskt sätt trollar fram en ny siffra (BMI). Sådana index kan både förenkla men även förvirra den som ser det nya talet. Sjukvården använder ofta sådana index i olika sammanhang, särskilt då det handlar om saker som är svåra att mäta (som fetma, grad av ångest, livskvalitet och liknande).
God fortsättning!
onsdag 5 januari 2011
Ledande frågor...
... är en hel värld för sig. Jag utsattes för nästan ett år sedan av en telefonundersökning. Min intervju är nu en del av ett material på 7445 lerumsbors resvanor, vilket är en imponerande skara. Ett referat av resultaten finns på Lerums Tidning: http://www.lerumstidning.se/nyhet_visa.asp?id=13636&sidnamn=NYHETER
Lägg märke till ingressen:
Ett underkännande av kollektivtrafiken. Så kan man tolka resultatet av kommunens undersökning av resvanorna i 7 000 hem. Bara en knapp femtedel kan tänka sig att åka mer tåg och buss.
Detta grundas på en fråga om man kan tänka sig att resa mer med tåg eller buss. På den frågan svarade jag "nej", eftersom jag redan reser de flesta dagliga resor med tåg eller buss. Betrakta en person utan körkort: Kan denna svara något annat än "Nej". Vad händer om man arbetar nära hemmet och går eller cyklar, är arbetslös eller av vilken annan anledning som helst redan reser maximalt med kollektivtrafiken? Svaret på frågan är "Nej".
Nej, som 80% av respondenterna säger, kan alltså betyda:
Den intressanta frågan är om man kan tänka sig att byta en eller flera bilresor mot tåg/buss. Inte om man kan tänka sig att resa mer.
Lägg märke till ingressen:
Ett underkännande av kollektivtrafiken. Så kan man tolka resultatet av kommunens undersökning av resvanorna i 7 000 hem. Bara en knapp femtedel kan tänka sig att åka mer tåg och buss.
Nej, som 80% av respondenterna säger, kan alltså betyda:
- Nej - Jag reser redan maximalt med kollektivtrafiken eller
- Nej - Jag skulle kunna resa mer kollektivt men vill inte
Den intressanta frågan är om man kan tänka sig att byta en eller flera bilresor mot tåg/buss. Inte om man kan tänka sig att resa mer.
Prenumerera på:
Inlägg (Atom)