fredag 9 december 2011

Förvillande diagram

På besök i Stockholm kom jag över denna artikel i DN: http://www.dn.se/sthlm/vi-blir-tjockare--men-vi-lever-langre. Artikeln handlar om att Stockholmarnas BMI ökat under flera års tid, men även att skillnaderna inom Stockholms län är stor.

Artikeln illutreras med ett antal diagram och bilder. Notera speciellt de två nedan: Detta är exempel på dels s.k. piktogram och ett s.k. kartogram. Dessa ger både viktigt information på ett grafiskt spännande och smakfullt sätt, men kan också ge en del desinformation. Därför ska man vara försiktig då man ser sådana i tidningen.

Piktogrammet visar en stor mage samt ringar som illustrerar andelen överviktiga i olika områden. Om man tittar på siffrorna så ser man t.ex. att 20% av kvinnorna på Östermalm är överviktiga, jämfört med 43% av männen. Bägge dessa data illustreras med cirklar, och om man mäter dessa noga kommer man att se att männens cirkel är lite drygt dubbelt så stor som kvinnornas - Logiskt, men inte rätt!  

Problemet är att det är cirklarnas radier som är dubbelt så stora, elementär geometri ger att cirkelns yta därmed är 4 gånger så stor. Bilden föreställer inte en radie utan en cirkel. Men det är inte det enda problemet: Bakom cirklarna tronar en mage som i detta fall utgör en ”dekoration” utan något som helst informationsvärde. Men magen är en tredimensionell sak, så fullkomligt logiskt uppfattar många denna som en volym (även om den är tvådimensionell i tryck. Detta leder till att våra hjärnor automatiskt och ovetande omvandlar cirklarna till sfärer. Om radien är dubbelt så stor för en sfär så följer att volymen är 8 gånger så stor.

Bilden föreställer alltså en cirkel som leds till att uppfattas som en sfär, vilket får en dubbelt så stor radie att växa till 8 gångers skillnad.

Kartogram blir mer och mer populära att använda för statistiska ändamål. Varför ska man inte utnyttja ny teknik till att färglägga länder och kommuner? Det finns ett problem och det är att ytan inte säkert står i proportion till det man vill mäta. I figuren nedan illustreras hur fetmaproblemet är spritt över Stockholms läns kommuner.


Resultatet i DN:s artikel blir förödande då man tittar på kartan ovan. Kommuner med stor andel överviktiga har markerats med mörka färger, svart är värst följt av lila. Med denna karta framför ögonen ser det bokstavligt talat mörkt ut för Stockholms län!

Problemet är att ytan och befolkningsmängden inte står i proportion till varandra. Flera av de svarta kommunerna är också de glesast befolkade. De svartmarkerade kommunerna utgör 19% av befolkningen men hela 67% av ytan. Om 47% av Norrtäljes kommuninvåndare är överviktiga så motsvarar det 26000 individer, vilket är färre än de överviktiga i Huddinge, där andelen är c:a 45% och befolkningen är nästan dubbelt så stor.

Bilden föreställer alltså data som skenbart är proportionellt mot ytan, trots att den inte är det.

Ska man använda kartogram så bör man först se till att ytan svarar mot något som är relevant i texten. Man skulle t.ex. kunna justera Sveriges karta så att kommunernas ytor står i direkt proportion till befolkningen. Kartan blir väldigt konstig (se bild), men om man färglägger den så blir det i alla fall inte missvisande.

Den som vill läsa mer rekommenderas att leta rätt på klassikerna "How to lie with statistics" av Huff eller "Statistikens bilder" av Wallgren m.fl. 

Hälsningar

Magnus

Källor: Figurerna kommer från DN och Wikipedia.

måndag 5 december 2011

Bagarmossen vs Stureplan

Hej igen,

Ibland bara måste man vara en trist glädjedödare... Jag fick följande länktips av en släkting.
http://www.bagisbloggen.se/2011/12/04/bagarmossen-mer-an-40-ganger-tryggare-an-stureplan/

Enligt denna statistik är det 40 gånger högre risk att befinna sig på Stureplan än i Bagarmossen. Eller rättare sagt: Det anmäls mer än 40 gånger fler brott på Stureplan än i Bagarmossen. Detta är ett paradexempel på problemet när man inte vet vad man jämför med. Frågan man måste ställa sig är hur många möjligheter till brott finns det på respektive plats. Eftersom det vistas fler människor på Stureplan, dessa är troligen oftare alkoholpåverkade och unga. Dessutom är det fler alkoholpåverkade och unga vid samma tidpunkt, vilket inte heller gör saken bättre...

Enligt samma typ av statistik som ovan så är det väldigt dumt att åka till sjukhus om man är sjuk. Det är nämligen väldigt vanligt att folk dör på sjukhus. I synnerhet på intensiven, thorax och akuten så vad du gör: Åk inte dit!

Det finns en liknande up-haussning av siffror som gäller trafiksäkerhet. Flygolyckor och även tåg/spårvagnsolyckor brukar leda till rubriker i tidningen. Det handlar om stora spektakulära händelser, där många skadas eller dödas under dramatiska former. Men antalet döda i biltrafiken är fortfarande större. Räknat per mil, per passagerare eller i absoluta tal. Faktum är att man utsätter sig för större risk i bilen TILL flygplatsen än på flygplanet, men trots detta är inte människor bilrädda.

Förmodligen upplevs kriminaliteten i Bagarmossen som obehagligare och "närmare" då den inträffar nära människors hem. De som åker in till Stureplan en fredag kväll är så att säga beredda på att det kan gå hett till och accepterar (eller kanske t.o.m. söker detta). Sedan när de promenerar hem i Bagarmossen, då vill man känna sig trygg.

Kriminalitet är inte enkelt att mäta. Jag ska återkomma till detta.

Hälsningar

Magnus

fredag 25 november 2011

Vad kostade det förr i världen

Hej igen,

Jag råkade snubbla över en väldigt rolig site på internet (Alltså rolig för oss som gillar statistik): http://www.historia.se/ Här finns bl.a. en spännande tidsserie där man kan räkna om priser och belopp i "dagens penningvärde". De äldsta är "Mark", "Penningar" och "Örtug" från 1290.

Det är inte helt enkelt att räkna om priser till dagens penningvärde, så siten redovisar lite olika alternativ. Dels baserat på hur mycket silver eller guld man kunde köpa. Dels på ett ungefärligt konsumentprisindex (KPI) samt på hur mycket arbetskraft pengarna kunde räcka till. Beroende på hur man räknar får man lite olika resultat så man får ta det hela med ett par nypor salt.

Ett par intressanta exempel:

I Östgötalagen (1290) föreskrivs bl.a. följande:

Nu slår någon en annan med horn eller hjalt, med stång eller stör, brister hud och hull, det är fullt öppet sår. Det är sex marker; Tager fyra marker den såret fick, en mark konungen, en mark häradet.

Med andra ord så kostar misshandel 6 marker, 2 marker i böter och 4 i skadestånd. 1 mark svarar i 2009 års penningvärde mot 195 och 17010 kronor beroende på hur man räknar. Pengarna räckte till att köpa silver som idag kostat 195 kr eller guld för 968 kr. Men man kunde även leja arbetskraft för motsvarande 17010 kr idag. Oavsett hur man räknar hade den skadelidande inte fått mer än motsvarande 68000 kr i skadestånd.

Ett exempel till: Rösträtten i Sverige var tidigare kopplad till inkomst eller innehav av fastigheter. För att vara valbar till första kammaren 1866 fordrades en årsinkomst på 4000 riksdaler eller en fastighet med taxeringsvärde 80000 riksdaler.

Här blir skillnaderna lite större beroende på hur man räknar. Med Konsumentprisindex (KPI) motsvarar det en årsinkomst på 228 756 kr. Till detta ska läggas att skatterna var lägre, vilket gör att motsvarande bruttoinkomst var betydligt högre. Omräknat i "hantverkararvode" så blir det 5 370 000 kr, alltså motsvarande 8-10 man på heltid i ett år!

Om man inte har så hög lön (många levde fortfarande med naturahushållning )kanske man äger en fastighet i stället? 80000 rdr motsvarar mellan 4,5 och 10 miljoner i dagens penningvärde, så det handlar om en rätt rejäl fastighet i så fall!

Inkomstregeln avskaffas 1933, då det krävdes 3000 kr i inkomst eller en fastighet taxerad till 50000 kr. Detta motsvarar ungefär 87052 kr i inkomst respektive 1 450 866 kr i taxeringsvärde.

Effekten av detta var självklar. Vid 1908 saknade c:a 700000 män rösträtt, 100000 var "diskvalificerade" pga obetalda skatter o dyl, medan ungefär 500000 hade rösträtt. Regeln hindrade alltså 61% av männen att rösta.

1908 saknade dessutom kvinnor rösträtt, vilket innebär att c:a 80% av befolkningen saknade rösträtt. Kvinnlig rösträtt på lika villkor som män införs 1921, men troligen saknade de flesta kvinnor inkomst och fastigheter som gjorde dem valbara till Första Kammaren.

Jag avslutar med en kul bild på ämnet. Bilden visar hur viktigt det är med visualisering. Vi ser Elin Wägner (1882-1949) med en stapel som innehåller de 351 454 namnunderskrifterna för kvinnlig rösträtt som lämnades in 1914. Tydligare kan det inte sägas!

Ha det bra!

Magnus




onsdag 16 november 2011

Skillnaden mellan trafikinspektörer

I dagens metro kan man läsa att det är stor skillnad var en körkortsaspirant kör upp (Fler godkänns av "snäll" inspektör., Metro 16/11 2011). Rätt inspektör ökar chansen att få körkort.

Förutom detta visar det sig att det är stora skillnader mellan olika teststationer. I artikeln har man tagit med 7 teststationer och där undersökt de inspektörer som testat minst 300 aspiranter. Totalt godkändes 54,4%

De resultat som jämförs handlar om skillnaden mellan den "snällaste" och den "strängaste" samt stationens totala andel godkända. Den bästa stationen i undersökningen var Göteborg, Mölndal med 61,2% godkända. Medan den andra ytterligheten var Stockholm, Jakobsberg med 39,0%. Skillnaderna mellan de olika teststationerna är ganska stora, men kan förklaras av att de som kör upp helt enkelt är olika skickliga i olika områden.

Men, rimligen, borde de som kör upp på en och samma station vara jämnt fördelade mellan inspektörerna. Utan att ha tillgång till det exakta antalet testade per inspektör eller antalet inspektörer på respektive station kan man i alla fall genomföra ett enkelt test. Är skillnaden mellan den strängaste och snällaste inspektören signifikant?

Resultaten framgår av tabellen nedan. För er som inte är vana vid p-värden kan jag förklara det på följande sätt (betrakta Göteborg, Mölndal): Sannolikheten att det skulle vara en så stor skillnad mellan snällaste och strängaste som 9,3 procentenheter (66% respektive 56%) bara av en slump är 0,97%. Det är alltså en chans på 100 att denna skillnad uppkommit av en slump. Denna nivå brukar betraktas som signifikant.

Distrikt
Strängaste
Snällaste
Snitt
p
Malmö
33,1%
52,1%
41%
0,000001
Göteborg, Mölndal
56,3%
65,6%
61%
0,009709
Göteborg, Hisingen
36,0%
47,8%
40%
0,001614
Stockholm, Södertälje
29,8%
47,6%
40%
0,000004
Stockholm, Sollentuna
43,7%
52,3%
48%
0,017519
Stockholm, Jakobsberg
34,2%
44,4%
39%
0,005215
Stockholm, Farsta
34,9%
44,7%
41%
0,007242

Vi kan konstatera att skillnaderna mellan strängaste och snällaste är signifikant för samtliga distrikt.

  • Nu kommer en liten reservation (för den mer statistiskt intresserade). Det kan vara så att det är väldigt många inspektörer på en ort. Detta gör skillnaden mindre signifikant. Å andra sidan har jag räknat som om alla testat 300 personer var, men de flesta har sannolikt testat fler, vilket gör skillnaderna mer signifikanta. 

Jag har kontaktat tidningen för att se om de har tillgång till kompletta data så att vi skulle kunna undersöka variationen noggrannt. Med lite tur kan jag återkomma om detta.

Hälsningar

Magnus

tisdag 18 oktober 2011

Vem svarar på dessa undersökningar?

Hej statistikvänner!

Borde lärare ha högre lön? En fråga som påverkar många (inte bara vi som är gifta med lärare) utan alla med barn, skattebetalare och sist men inte minst alla barn. Enligt en undersökning publicerad på Lerums Tidnings hemsida (www.lerumstidning.com) stöder 46,2% den tanken. Endast 29,5% anser att lärare inte bör ha högre lön.

Skolan börjar på måndag. Borde lärare ha högre lön?
v. 35 - 2011
Ja
(177)
Nej
(113)
I vissa fall
(93)
Antal röster: 383


Konfidensintervallet blir ganska brett: 46,2% +/- 5,0% vilket ju inte så imponerande…

Men det är inte här det stora problemet ligger. Om man ska bestämma hur lärarnas lönepolicy ska se ut så behöver man tydliga fakta. Man behöver veta korrekt vad skattebetalare och föräldrar egentligen tycker.

Undersökningen baseras på att den som vill kryssar i ett svar på Lerums tidnings nätsida. Detta betyder att resultatet är ett s.k. självurval. Första kriteriet för att få vara med och bestämma lärarnas framtida löner är att man läser Lerums tidning, och inte bara det – Lerums tidnings nätupplaga. Vilka gör detta?

Sedan ska du ha ett incitament att svara. Vi kan anta att den som gitter svara antingen är väldigt sysslolös eller är direkt berörd. Lärare och föräldrar kan man anta svarar oftare än andra. Man kan också anta att en och annan ”hederlig skattebetalare” som retar sig över höga lärarlöner svarar. Men den stora massan lär inte bekymra sig om frågan. Av Lerums kommuns 38680 invånare svarar 383, d.v.s. 0,99% Skulle de svarat, nej, ja eller kanske bara ”spelar ingen roll”? Ingen vet!

Det kanske kan tyckas harmlöst. Speciellt som de andra förekommande frågor är:

·         Åt vilket håll står du oftast i duschen (124 män står vända mot väggen!),
·         När gjordes den bästa musiken (15% svarade 80-talet) eller
·         Vilket är det bästa husdjuret (Dammråttor kom 3:a).

Men det är inte helt harmlöst. Behovet av snabb information om opinioner och åsikter ökar och opinionsundersökningar kan vara ett sätt att stärka demokratin. Men risken finns också att dåliga undersökningar förvandlas från underhållning till fakta. Det är ett välkänt faktum att en lögn som sägs tillräckligt ofta blir en sanning.

En liknande utveckling kan man se med kund- och medarbetarundersökningar och liknande som genomförs så illa att den ”information” som skapas saknar värde eller i värsta fall pekar åt fel håll.

Vi översvämmas av dåliga undersökningar och deras resultat. Jag uppmanar alla att kontrollera om en undersökning är seriöst gjord och om resultaten kommer att tolkas på rätt sätt innan man sätter ett kryss i ”Ja”, ”Nej” eller ”Vet ej”. Det finns ingen anledning att underblåsa mer desinformation.

Statistiska hälsningar

Magnus

Disclaimer: Mitt syfte med detta inlägg är INTE att misskreditera Lerums Tidning. Undersökningen är bara ett exempel där LT inte hör till de värsta syndarna!

torsdag 29 september 2011

Är det många självmord i Varberg?

Hej igen,

Efter lite uppehåll i bloggandet ska jag försöka ta tag i detta igen. Frågor och tips dyker upp med jämna mellanrum så uppenbarligen finns det ett sug efter statistisk kunskap därute.

Jag går ut lite allvarligt med frågan om Varbergsbornas benägenhet att begå självmord. Nyligen publicerades nämligen en (1) undersökning som handlar om statistik för självmord i Halland. Samma undersökning refereras i två (2) dagstidningar med … olika resultat (se bild!)


Det rådde en del förvirring över antalet självmord 2010. HN angav antalet till 13 som begick självmord i kommunen. Ytterligare 2 var skrivna i kommunen, vilket gör 16 självmord totalt (sic!). VP hävdar att antalet är felaktigt och det verkliga antalet är 10.

Hur kan det både öka och inte öka?

Förklaringen är väldigt enkel. Det handlar om första kvartalet 2010 respektive hela året 2010. Tydligen inträffade flera självmord under en begränsad period första kvartalet 2010. Detta utlöste en del farhågor över att antalet totalt sett skulle komma att öka. Antalet ökade faktiskt under första kvartalet 2010, men inte totalt för hela året. Den pik som inträffade i början av 2010 var alltså tillfällig och inte en del i en större trend.

Är det ovanligt många självmord i Varberg?

(Hoppa gärna över detta om du är allergisk mot formler. Det som står är att det inte är ovanligt många i Varberg).

Enligt Socialstyrelsen ligger antalet självmord på 12,89 per 100 000 räknat på de senaste 10 åren. Detta innebär att i Varbergs kommun (27 602 invånare) kan man vänta sig 3,6 självmord per år. Om vi gör några förenklande antaganden om oberoende m.m. så betyder det att sannolikheten för minst 10 självmord i Varberg är 0,003720. Detta är det s.k. p-värdet, det vill säga Sannolikheten att få så många självmord i Varberg av en slump även om varbergsborna inte är mer självmordsbenägna än riket. 4 promille. Det är alltså osannolikt att detta hänt av en slump.

Men… Sverige har 290 kommuner, minst en är värst, men det betyder inte att den är osannolik. Vi måste alltså förutsätta att vi tittar på alla kommunerna även om vi just nu bara pratar om Varberg. Korrigeringen innehåller logaritmer och annat matematiskt, men jag nöjer mig med att presentera svaret: 0,66068. Sannolikheten att slumpen varit framme är alltså över 50%. Förklaringen här kallas mass-signifikans och kan enklast förklaras av att om man tittar på tillräckligt många kommuner så är det alltid någon som sticker ut och värst. Men det betyder inte att den är dålig. En elev i klassen är alltid längst, men han/hon behöver inte vara ovanligt lång för det…


Så var det med Varberg och självmorden. Tipstack till Bert Carl på MTM-föreningen!

Hälsningar

Magnus

onsdag 6 april 2011

HD:s dom har fallit i pokermålet

Bloggare brukar inte kännetecknas av ödmjukhet, så passa på nu: Jag hade fel om Texas Hold'em. Högsta domstolen har friat de åtalade som ordnade en pokerturnering 2007.

Om man läser domen så framgår ett intressant faktum: Det som gör att HD friar är att turneringen bestod av tillräckligt många spelomgångar och det finns begränsningar på satsandet. En av turneringarna som inte hade dessa egenskaper fälls av HD, medan huvudturneringen som planerades att pågå i 3 dagar anses vara så lång att slumpen överträffas av skickligheten.

Att en giv bara är tur framgår med önskvärd tydlighet. En intressant fråga i sammanhanget är hur många givar man måste spela för att det ska slå över. På sikt kommer stora talens lag att göra att enskilda givar jämnas ut mot varandra och då kan den skicklige spelaren knäcka amatören genom snabba överslag i sannolikhetsberäkningar och psykologi.

Det lustiga i sammanhanget är att alla spel, hur enkla de än är, skulle kunna anses ha skicklighetsmoment bara man spelar tillräckligt mycket. Byteskille och fia med knuff har mycket små valmöjligheter, men enligt HD:s dom är det bara en fråga om att spela tillräckligt länge. Det ska bli intressant att se vad denna dom får för effekt på spelandet.

Så, Mats, Henrik och alla andra som försvarat Texas Hold'em: JAG HADE FEL. Men jag tröstar mig med att Ladbrokes proffessionella oddssättare gjorde samma bedömning som jag...

/Magnus

tisdag 29 mars 2011

Hur många barn har du?

Vem ska man tro på?

Min dotter kom hem efter en föreläsning i höstas då politiker från olika partier debatterat på hennes skola. Hon var irriterad över deras påståenden om arbetslösheten bland ungdomar. Siffrorna stämde inte med varandra – Hur kan det vara så att man inte vet hur många arbetslösa som finns i Sverige?

Problemet är att "Antalet arbetslösa ungdomar" innehåller tre vaga ord:

-          Antal, Arbetslösa och Ungdomar.

Om vi tar det bakifrån: Ungdomar. SCB särredovisar åldersgruppen 15-24 år, men kan man egentligen säga att en 15-19 åring som normalt går i skolan (15-16 har skolplikt) är arbetslös om den inte förvärvsarbetar. Och vad säger att en 24-åring är ”ungdom” men inte en 25-åring. Tiden att nå arbetsmarknaden är längre och längre, vilket betyder att den instabila tiden mellan gymnasiet och fast anställning blir längre och det leder till att ”ungdomsbeteendet” fortsätter i högre åldrar.

Arbetslösa, Vad är det? Är man arbetslös om man är föräldraledig men saknar fast anställning? Frilansare utan uppdrag, när upphör den att vara i en svacka till att vara arbetslös? Om man studerar på halvtid, för att man inte får ett jobb, är man arbetslös då? Speciellt brukar man bråka om ”arbetsmarknadspolitiska åtgärder”, alltså studier, praktik etc som erbjuds arbetslösa, är de arbetslösa eller sysselsatta?

Slutligen antal: Om jag jobbar 50% men vill jobba 75% är jag en arbetslös eller 1/4? Eller 1/2?

Allt handlar bara om definitioner. SCB har en entydig definition som man naturligtvis kan diskutera, men det är ett sätt att mäta på.

Andra vaga mått är t.ex. ”frisk”. Om jag tar en medicin när kan jag anses vara ”Frisk”? Frisk kan betyda ”avsaknad av sjukdom”, men alla har ju några krämpor. Skulle man kunna betrakta något slags normaltillstånd, med antalet krämpor ställda i relation till ålder så att man förväntas må sämre med ökande ålder? Frisk kan också betyda att en viss given åkomma är borta (helt eller delvis), men den kanske bara ersatts med en annan - kanske värre. Lite som skämtet med kirurgen som sa "Operationen lyckades men patienten dog".

WHO definierar ”Hälsa” enligt följande:

  • Health is a state of complete physical, mental and social well-being and not merely the absence of disease or infirmity.
Med en sådan definition är det I princip ingen som har hälsa.

En så enkel fråga som ”Hur många barn har du?” kan leda till total förvirring. Hur gör man med utflyttade eller avlidna barn – Har man dem? Plastbarn, ska de räknas? Och om man delar boendet med barnets andra förälder hur räknar man då? Ett barn som bor växelvis är det ett halvt barn eller ett helt barn, t.ex.? Svaret måste i detta fall bero på vad syftet med att ta reda på antalet barn är, men för att frågan ska kunna besvaras måste detta framgå.

Dagens citat: "Vem i hela världen kan man lita på…"

/Magnus

torsdag 24 mars 2011

Hur små grupper kan studeras - Droger och felmarginaler


Ett statistikt begrepp många hört är "inom felmarginalen". Tidningarnas väljarundersökningar brukar alltid lägga till att skillnaderna mellan två mätningar är inom eller större än felmarginalen.

Felmarginalen beror på flera komponenter, men den viktigaste är antalet personer som svarat på enkäten och proportionen som svarat ja eller nej. En sak som intresserar läsare och tillverkare av undersökningar är hur olika delgrupper ser ut inom den stora, man vill t.ex. jämföra sin arbetsplats med hela företaget, sin kommun mot hela landet eller män i socialgrupp 2 som röstar på (s) och bor i en mellansvensk stad. Dessa delgrupper blir tyvärr ännu mindre än hela undersökningen vilket leder till att felmarginalerna blir ännu större. Om man vill ha en ”mellan tummen och pekfingret” så ökar felmarginalen med 1 genom roten på antalet. Halva antalet leder till 41% bredare felmarginal.

Häromkvällen var jag på ett möte som handlade om ungdomar på mina barns skola. Man presenterade också en undersökning av kommunens 9:or kallad "drogvaneundersökningen": Denna innehöll ett stort antal ja/nej frågor om ungdomarnas drogvanor. Dessa resultat presenterades med en mängd stapeldiagram som visade utvecklingen över de senaste 4 åren samt skillnaden mellan pojkar och flickor. Presentationen utgick från att drogvanorna ändrats, än hade de gått upp än hade de gått ner - Andelen ja-svar mellan 5% och 20% och variationen låg mellan 1% och 2% (se Drogvaneundersökningen2009)

Undersökningen är väl genomförd på nationell nivå och omfattar då tusentals barn, men de barn som dessutom bor i Lerum och går på en viss skola är endast 471 stycken i siffrorna ovan. Det framgår inte hur många pojkar respektive flickor som deltagit, men vi kan anta att det är 50/50 vilket betyder att det rör sig om 230 barn. Detta betyder att om EN av dessa byter svar eller råkar vara hemma den dagen enkäten genomfördesså blir det skillnad – Varje enskilt barn utgör 1/230 = 0,4%.

I tabellen nedan kan vi se hur stor felmarginalen för ett svar är. Om man t.ex. har c:a 15% ja på en fråga så är felmarginalen +/- 4,6% vilket betyder att sanningen ligger mellan 10,4% och 19,6.


Andel JA
Felmarginal
5%
2,8%
10%
3,9%
15%
4,6%
20%
5,2%
25%
5,6%
30%
5,9%
35%
6,2%
40%
6,3%
45%
6,4%
50%
6,5%


Skillnader på 1-2% är alltså gott och väl inom felmarginalen och kan anses bero på tillfällig variation. Att dra slutsatser om faktiska förändringar i detta material är inte möjligt.

Det är naturligtvis intressant att se förändringar, men man ska inte överskatta det man ser i sina figurer. Slutsatsen man kan dra från dessa data är att det förmodligen inte skett något de senaste åren utan drogvanorna ligger stabilt på dessa nivåer.

/Magnus 

onsdag 23 mars 2011

Örebro...

Hej Statistikvänner,

Jag är i Örebro i dagarna två för att träffa kollegor och lyssna på föredrag om statistik.

Hälsningar

Magnus

tisdag 1 mars 2011

Barn och kön

Medan vi väntar på HD:s utslag i pokerfallet passar jag på att svara på en fråga från min svåger om barn.

Det är ett välkänt (?) faktum att det föds fler pojkar än flickor, nämare bestämt är det 51,4% pojkar bland levande födda och 48,6% flickor. Denna lilla skillnad kan säkert ha en logisk förklaring, t.ex. spekuleras det i att Y-kromosomen är lättare än X vilket skulle göra att pojkspermier helt enkelt simmar snabbare... Denna skillnad jämnar ut sig men först runt 60 års ålder.

Figuren nedan visar andelen män per ålder.


En vanlig uppfattning är att OM man har fått en dotter så kommer sannolikheten för en dotter till att öka. Detta skulle i så fall betyda att familjer med 2 barn skule ha 50% chans att ha två barn av samma kön. I familjer med 3 barn är denna sannolikhet 25% o.s.v. Denna fråga har undersökts av Statistiska Centralbyrån med hjälp av data från RTB.

Resultaten tillsammans med mina förväntade andelar anges i tabellen nedan. Skillnaden mellan det väntade antalet och det verkliga antalet är nästan skrämmande litet.


Detta är inte den enda myten som brukar florera om barnafödslar. Ett annat vanligt påstående är att stridspiloter oftare får döttrar, men det har jag inte hört någon som verifierar.

Skillnaderna mellan pojkar och flickor är relativt liten i Sverige. Enligt Gapminder finns det i Sverige ett överskott på 105 pojkar per 100 flickor i ålder 0-14 år. I botten ligger flera afrikanska länderm Rwanda (98,3), Centralafrika, Angola och Sierra Leone. Lägst i Europa är Moldavien (103,7). I den andra änden hittar vi Kina (120,8). Där har enbarnspolitiken lett till ett mycket stort pojköverskott.

Här finns det mycket mer att säga, men jag skickar med ett par länkar för den som vill läsa mer:

Länkar:

SCB om syskons kön: http://www.scb.se/statistik/_publikationer/BE0801_2006K01_TI_10_A05ST0601.pdf
Forskning och Framsteg om Kina:
http://www.fof.se/tidning/2007/4/pojke-i-ost-flicka-i-vast
Databaser och verktyg för visualisering av världen:
http://http://www.gapminder.org/

tisdag 22 februari 2011

Tur eller skicklighet, Wanna bet?

Nu kan man spela på HD:s domslut: Ladbrokes ger 1,5 gånger insatsen på "Turspel" och 2,4 gånger insatsen på "skicklighet".

Poker - Tur eller skicklighet

Hej Statistikvänner,


Idag inleds förhandlingarna i Högsta Domstolen om "pokermålet". Frågan som det hela reducerats ner till är om poker (närmare bestämt Texas Hold'em) är mer tur än skicklighet (eller tvärtom). Skulle det vara ett turspel så betyder det att turneringar är dobbleri som är olagligt.

Hasardspel finns i många former och man kan dela in momenten i varierande grad av tur. Ett visst mått att tur finns i alla spel - i alla fall om man räknar in det faktum att motståndarens strategi inte är 100% känd eller logisk, vilket gör att man måste betrakta den som slumpmässig till viss del. Schack har t.ex. ett litet moment av slump då jag inte kan veta hur ologiskt min motståndare kommer att agera. Förmodligen är schack mot en dator det enda spel som saknar tur helt och hållet.

Sport innehåller både tur och skicklighet. Att Floda BoIF skulle få spö av Hammarby (Heja bajen!) beror förmodligen på att HIF är skickligare. Därmed följer att spel på fotboll är mer skicklighet eftersom det fordras skicklighet för att avgöra vem som är skicklig. Enligt min uppfattning är det mer tur inblandat i ett spek med färre mål, vilket gör att basket har mer skicklighet än fotboll (orsaken till detta har att göra med variansen i poissionprocesser, men det är en överkurs i denna blogg).

Vissa spel har mer tur än andra. Extremast är slantsingling som är bara tur, likaså roulette som egentligen är en avancerad slantsingling. Inget du gör kan påverka ditt resultat. Lotto faller inom samma grupp även om man här har smärre chanser att påverka vinstens storlek (om man skulle vinna) och samma sak gäller Black Jack.

Bridge brukar betraktas som ett skicklighetsspel strax under schack av bridgespelare och till viss del har de rätt. I ett parti, med blandad kortlek, avgör turen vad du får för kort. Men i turneringar så kommer flera bord att spela samma giv, med samma kort. Här tävlar du i stället mot motståndare med samma kort på handen och det handlar om att göra bäst av dessa kort. Även om du tar hem lillslam (vilket är det näst bästa du kan göra i bridge) så kanske alla andra lyckades nå storslam med samma kort.

Poker har både tur och skicklighetsmoment. I Texas Hold'em delar alla på 5 öppna kort och har 2 privata stängda. Det betyder att viss information delas annan inte. Turmomentet ligger i att bordet ska vara "dåligt" så att man inte kan få till en bra hand med bordet, samtidigt som man har t.ex. par i ess på sin hand. Skickligheten menar man ligger i att kunna utnyttja informationen på bordet. Men detta bygger egentligen på rak sannolikhetskalkyl, vilket gör att man med tillgång till en bra räknemaskin skulle kunna få ett direkt råd om att stanna eller gå. Det betyder att detta egentligen är tur.

Skicklighetsmomenten ligger således bara i att man kan göra en korrekt sannolikhetsbedömning i huvudet samt att man kan utnyttja psykologin kring bordet. Om man spelar nätpoker faller bägge dessa argument.

Sten/Sax/Påse är ett enkelt spel som har många roliga matematiska egenskaper. Om man spelar Sten-Sten så inställer sig frågan: Ska jag behålla Sten? I så fall kanske motståndaren inser detta och byter till Påse, alltså ska jag ta Sax. Men om motståndaren räknat ut att jag tänker på detta sätt så tar han Sten igen, alltså tar jag Påse... Så kan man fortsätta i steg för steg av skicklighet och psykologi och ändå slutar det med ren tur. Det kan fungera om man spelar mot ett riktigt oerfaret, litet barn (som har en tendens att rätta sitt misstag ovan med att byta till Påse), men även små barn brukar fatta detta rätt snabbt. 

Min spontana slutsats från detta resonemang är att man trots allt inte kan försvara Texas Hold'em som skicklighetsspel. Även om man tar in psykologiska faktorer och sannolikhetsövesrlagsberäkningar. Det är fortfarande mest tur. Möjligen om man sorterade kortleken och körde samma giv flera gånger mot andra med samma hand så som i bridge, men då skulle det nog inte vara lika roligt.

Glöm inte att hasardspel ska vara roligt framför allt. Själv gillar jag byteskille.

måndag 14 februari 2011

En hälsning på alla hjärtans dag

14 februari, alla hjärtans dag. Vad passar bättre än att räkna lite på äktenskapsstatistik!
Metro tycker att det passar bra och braskar på med att det finns en trend bland dagens unga att gifta sig. Man gifter sig först och skaffar barn sedan. Trenden beror på ”tvåsamhetsvurm”, ”hemmafruideal” och en återgång till en mer ”småborgerlig och moralisk livsstil”. Till skillnad från 60-talisterna som såg äktenskap som en gammaldags sed som helst skulle försvinna och 70-talisterna som hade som ideal att ”åka till Australien och surfa.” (Metro, 2011-02-14).
Min omedelbara fundering är: Hur stor är riskpopulationen? Så fort man räknar på saker som händer vissa personer måste man räkna ut hur stor denna är – Antalet personer ”i risk” (risk är kanske inte ett så bra ordval, chans låter trevligare, men jag håller mig till den gängse termen).
Dagens 20-24-åringar hör till en födelsetopp i slutet på 80-talet, 60-talisternas barn och krigsbarnens barnbarn. Om man dividerar antalet gifta i åldersgruppen med antalet i risk så får man att c:a 1,13% av alla 20-24-åringar passar på att gifta sig. Om man vill kan man rita ett kontrolldiagram, från vilket man kan se att det är väldigt liten variation normalt sett. Faktum är att det är oväntat FÅ under 2010.
Åren 2008 och 2009 är det lite fler än väntat, men det handlar om 4-5% förhöjd risk (eller chans) eller 300-400 personer.

Det känns lite som om man är en glädjedödare, men det är viktigt att påpeka att det handlar om att ta fram sann information. Även om kärleken inte kan beräknas så kan man i alla fall räkna på dess konsekvenser...

Ha en bra alla hjärtans dag!

Magnus

måndag 31 januari 2011

Två bomber på flyget

Efter lite uppvärmning var det dags att angripa ett statistiskt problem som brukar vålla debatt: Oberoende händelser.Som en liten prolog kan jag berätta att jag i helgen besökte Borås. På väg ut från Maxi Åhaga möttes jag av stora löpsedlar från GT om vilka butiker i Borås hade sålt vinstlotter på sistone - Hela listan!

Det intressanta med sådana listor är att det kan leda till två diametralt olika slutsatser om man är okritisk:

a) Jag ska spela i dessa butiker då de har tur med sig eller
b) Jag ska inte spela i dessa butiker då vinstlotter inte säljs upprepade gånger på samma ställe.

Som statistiker inser jag att ingendera av ovanstående är rätt. Det korrekta alternativet (som ingen brukar acceptera utan långt diskuterade) är

c) Det spelar ingen roll med denna lista utan nästa vinstlott kan hamna var som helst igen.

Betrakta ett enkelt hasardspel som Roulette. Om du väljer att spela på rött eller svart så har du 50% chans att vinna varje gång (jag bortser från Nollan). Men om det har bilivt rött 10 gånger och du står med din sista marker, vad gör du då? De flesta väljer svart - eftersom 11 rött i rad är näst intill omöjligt (1 på 2048 för att vara exakt). Men då utgår man från att bordet "kommer ihåg" att det blivit rött 10 gånger förut.Sannolikheten för rött nästa gång är och förblir 1/2.

Samma feltanke skulle betyda att man INTE spelar i en butik på GT:s heta lista. De har ju redan haft sin "kvot" av tur. Med samma logik följer också följande skämt:

- Varför skyddar man sig mot terrorister genom att ha med sig en bomb på flygplanet?
- För att sannolikheten för två bomber på samma plan är nästan noll!

Samma logik skulle innebär att man - för säkerhets skull - krockar bilen innan man reser på semester, så inga olyckor ska ske under resan!

Observera att detta gäller för händelser som verkligen är oberoende. Kärnkraftsolyckor är t.ex. svagt beroende, man kan anta att personalen på Ringhals var mer alerta efter Tjernobyl t.ex. vilket gör att en till härdsmälta var ganska osannolik.

Men då det gäller spel ska man tänka som så: Det är roligt att spela, vinsten är en bonus som gör att det är spännande. Istället för att bränna pengar på en berg-och-dalbanetur, skräckfilm eller annat som får det att killa i magen så kan man gå till ett casino. Spännande, roligt - men inget man blir rik på!

Man måste inte ha tråkigt bara för att man är statistiker!

Kaching!

Magnus