tisdag 25 augusti 2015

Det blir inte mer rätt med 1527 panelister...

Hej Statistikvänner

den 20 augusti presenterade Metro en undersökning gjord av YouGov som visade att Sverigedemokraterna nu är Sveriges största parti [1]. Undersökningen baseras på 1527 intervjuer, vilket är en ganska stor undersökning och det förefaller därför som resultaten är relevanta och korrekta. 

I den senaste väljaropinionen från Yougov, utförd på uppdrag av Metro, blir SD Sveriges största parti – för första gången någonsin i en politisk mätning. OBS: MONTAGE.

Problemet med YouGov (och några av deras konkurrenter) är att de baserar undersökningen på s.k. självrekryterande paneler. En panel är en grupp med respondenter som under en begränsad tidsperiod för vara med i flera undersökningar. Självrekryterande innebär att vem som helst kan ansöka om att få vara med – men initiativet kommer från respondenten.

Genom att bygga undersökningen kring människor som valt att delta kommer alla normala möjligheter till statistisk slutledning att sättas ur spel. Vilka lockas att delta i panelen? Ett slumpmässigt urval bygger på att alla personer har en känd (oftast lika) sannolikhet att bli utvalda. På så sätt skapar man ett representativt urval där resultaten kan tolkas för hela populationen. Den som analyserar resultaten vet vad en respondent är värd och vad denne representerar. Väljer jag ett tillräckligt stort urval kommer jag även att få med alla sorter av folk, rika/fattiga, män/kvinnor, invandrare/infödda, sverigedemokrater/sossar, frimärkssamlare/joggare, lärare/byggjobbare/arbetslösa o.s.v.

De som ingår i den självrekryterade panelen kan vara precis vad som helst. En del är med av ett genuint intresse för att föra fram sin åsikt, men även detta är en egenskap som inte är jämnt fördelad. Jag tror att tyckmyckna människor kommer att vara överrepresenterade i panelerna. Det kommer även att finnas ett överskott av personer med mer tid och personer som är lätta att locka med belöningar. Eller personer som helt enkelt är professionella tyckare och som deltar bara för belöningens skull… Problemet är att vi inte vet hur det förhåller sig, men det är ganska enkelt att inse att panelen inte är representativ.

YouGov:s metod bygger på att man väljer personer på ”rätt” sätt ur sin panel (som alltså inte är representativ) och att de som svarar får olika vikt för att resultaten totalt sett ska bli rätt. Om det är få gymnasielärare i panelen kommer de som är med att väljas oftare. Om det är få gymnasielärare som svarar så får de högre vikt för att representationen ska bli rätt. Detta betyder samtidigt att grupper som är svåra att rekrytera kommer att få märkliga egenskaper eftersom det är ett litet antal personer i dessa grupper som får väldigt många och starka röster. Ingår du däremot i en smal men lättrekryterad grupp så blir det mindre viktning. Ingen utanför YouGov vet hur denna viktning går till eftersom det är en affärshemlighet. Därför kan vi inte granska det rimliga eller orimliga i de egenskaper som den har.

YouGov påstår [2] att metoden är tillförlitlig, men det är ganska talande att det är ”VD” och ”Sales manager” som uttalar sig och inte deras statistiker (om de har någon anställd framgår inte). YouGov hävdar följande argument för att deras metod är tillförlitlig:

·         Det är svårare att få folk att svara i traditionella undersökningar…
·         … speciellt om man inte får belöningar
·         Kvoturval är en modern metod
·         Det är lättare att svara tack vare modern teknik
·         Urvalet justeras efter svarsbenägenhet
·         Resultatet justeras efter vilka som faktiskt svarat
·         Justeringen sker mot fler variabler än kön, ålder och ort

Att metoden är ”modern” och att det är lättare att delta i undersökningen tack vare modern teknik är nonsensargument i detta sammanhang.

Metoden med självrekryterande paneler påstås lösa bortfallsproblemet, men det är inte sant. I urvalet bör det ingå en representativ sammansättning av populationen, men YouGov har en icke-representativ grupp på 60000 personer i panelen. Redan här uppstår ett ”bortfall” av alla de personer som inte ens gitter ansöka om medlemskap. Av de som sedan ingår i en specifik undersökning är det inte heller 100% svarsfrekvens. I den aktuella undersökningen svarade 1527 personer, men det framgår inte hur många som tillfrågades – i värsta fall är det alla 60000. Bortfallsproblemet är således inte löst - det är bara maskerat!

Självrekryteringen innebär även att det finns en risk att personer som inte ska ingå i populationen deltar. Vi vet inte om YouGov har rensat bort minderåriga och utländska medborgare från panelen. Vi vet inte heller hur många som dubbel-, trippel eller multipelregistrerat sig för att casha hem lite fler belöningar. Tyvärr får man inte bättre resultat för att samma personer deltar fler gånger.

Förhållandet mellan belöningar och svarsfrekvens har studerats i vissa fall. De belöningar som delas ut i normalfallet är ganska modesta och inte något som man blir direkt rik på men de snedvrider ändå resultaten - även de som svarar seriöst kommer att snedvridas. Det är enkelt att föreställa sig skillnaden mellan de människor som gärna deltar i paneler (för att de har tid och faller för belöningen) mot de som trots belöningarna inte ser det mödan värt. Marika Wenemark på Linköpings universitet [3] har i sin forskning konstaterat att förtroendet för undersökningen – och därmed motivationen att svara –kan sjunka om man delar ut belöningar. Så belöningen i sig förbättrar inte kvaliteten.

Även om traditionella OSU har svåra problem med bortfall så hjälper det inte att ersätta dem med en sämre metod. Det blir inte mer rätt för att man frågar 1527 skevt utvalda personer.

/Magnus 

[1] http://www.metro.se/nyheter/yougov-nu-ar-sd-sveriges-storsta-parti/EVHohs!MfmMZjCjQQzJs/
[2] https://yougov.se/news/2015/08/21/om-onlinepaneler-och-tillforlitligheten/

torsdag 7 maj 2015

Höga eller låga odds

Hej Statistikvänner,

Dagens Nyheter har en rubrik med texten nedan. Denna orsakade en del diskussioner på Facebookgruppen "Anonyma språkpoliser". Frågan är om pappan har höga eller låga odds att vinna en vårdnadstvist?

Vad betyder egentligen "odds" och hur används detta?

Om vi utgår från artikelns utsaga: Pappor har lägre sannolikhet att vinna, för enkelhets skull antar vi att i vårdnadstvister vinner pappan 25% av gångerna och mamman 75% (detta är helt taget ur luften, men är inte heller det som min text handlar om).

Formeln för detta är P(pappa) = 0,25 och P(mamma) = 0,75.

Det är ganska vanligt att uttrycka detta i termen "1 på", d.v.s. pappan vinner 1:4 medan mamman vinner 1:1,33. Notera att om man dividerar så blir inte förhållandet detsamma längre.

Enligt gängse statistisk teori är "odds" definierat som p/(1-p), vilket betyder att pappans odds är Odds(pappa) = 0,25/0,75 = 0,33 medan mammans är Odds(mamma) = 3. Enligt den statistiska definitionen är pappans odds alltså lägre än mammans. Man kan även beräkna det relativa förhållandet med den s.k. oddskvoten, OR = 0,11 eller 9 beroende på vem man utgår från.

Ett vanligt uttryckssätt som kopplar till "1 på..." sättet att skriva sannolikheter är att bara titta på nämnaren. Att få fyrtal i poker har en sannolikhet på 1:4165, vilket är lägre sannolikhet än 1 par som har sannolikheten 1:2,4. Om man för enkelhetens skull betraktar nämnarna, alltså 4165 respektive 2,4, så kan man ganska enkelt se att det högre talet svarar mot mer osannolikhet. Men detta är alltså inte ett odds.

I andra spelformer använder man en annan definition av odds. Oddset att Hammarby ska slå Örebro i dagens match i damallsvenskan är 6,2, oavgjort 5,1 och att Örebro vinner är 1,35. Dessa siffror har inte med sannolikheten att göra, även om de har baserats på sannolikheter. Vinst för Hammarby är en "högoddsare" som ger mer pengar, men sannolikheten är i detta fall lägre. Med detta sätt att uttrycka sig skulle alltså pappan ha högre odds än mamman.

Den statistiska definitionen har alltså en annan betydelse än den vanligare språkliga. Den statistiska är kopplad till sannolikhet, låg sannolikhet - lågt odds, medan den populära baseras på oddset vid vadslagning som är omvänt: Högt odds - låg sannolikhet.

En kommentar till i sammanhanget och det är ordet "Risk". I statistiken betyder "Risk" sannolikhet multiplicerat med kostnad. Risken för en bilolycka är alltså inte sannolikheten utan värdet som jag sätter i risk. Om en bilolycka inträffar 1 gång var 50 år (för en och samma förare) och denna kostar, säg 500000 kr, så är risken 10000 kr. En rimlig försäkringspremie skulle i så fall bli 10000 kr/år eftersom det är risken med att försäkra dig och din bil.

Magnus

fredag 13 mars 2015

Is there a collaps of the finnish Kokoomus party?

Dear statistic-friends (Rakas tilastoystävät),

I am sending a blogpost from Helsinki in Finland where I have been working all week.

One of the students showed me an interesting clip from the finnish TV channel YLE. Later this year there will be a parliamentary election in Finland and the comments on the polls become more and more frequent. The president and the prime ministers are both representing the Conservative parti Kokoomus (Kok).

According to a recent survey presented in YLE Kok is now just third biggest party. Following the Centre party (Kesk) and Socialdemocrats (SDP) but before the True finns (PS) and the Green party (Vihr). The result was presented as a “collaps” of the government party [1]. They are now only third, and their main competitor, SDP, is bigger!



But this is not all true. As we can see from the table and the figure, Kok is 3rd, but the difference between them and SDP and PS is small.

Infact, if we test all pairs of proportions we find an interesting pattern: There are clear and distinctive groups, or clusters, of parties in this poll. Centre party (kesk) form one group. Socialdemocrats (SDP), Consevative (Kok) and True finns (PS) are basically equivalent. And there is no significant differences in the third group, not even between the biggest and smallest party (Green (vihr) versus Other parties).

However, the Conservative is significantly smaller than the Centre party. On the other hand, so is the Socialdemocrats.

In order to get a significant difference between SDP and Kok we would need a poll with almost 200000 respondents!
Alexander Stubb, Leader of conservative party and Prime Minister of Finland. 
The lesson to be learned from this story is that ranking data can cause misinterpretation. In sports it is important to be the best. There is only one winner, one silver and one bronze medal and there is always a separation between. The differences between SDP, Kok and PS are exaggerated when they are replaced by ranks, while the difference between PS and Vihr is actually looking smaller.


And always be careful when reading statistics processed by politicians and journalists. 

/Magnus

I thank Oskari Tinkanen for showing me the data!

[1] http://yle.fi/uutiset/kokoomus_romahti_kolmoseksi/7767805

torsdag 5 mars 2015

Manspreading

Statistikvänner!

Dagens blogg kommer att handla om ”man-spreading”, d.v.s. beteendet att män sitter bredbent i offentliga miljöer. Eftersom jag hade en stund i väntan på ett tåg kl 0605 på morgonen passade jag på att samla in data på Göteborg C.

Kön                     Ihop                    Isär                      Summa
Män                    17                        20                        37
Kvinnor             10                        5                           15

Som synes verkar männen oftare sitta med benen isär, medan kvinnorna oftare sitter med benen ihop. Man kan räkna på detta och konstatera att skillnaden inte är signifikant, utan har uppkommit av en slump med sannolikheten 22,7%. Min första slutsats från denna snabba undersökning blir alltså att det inte finns skillnader mellan män och kvinnor.
Men, innan vi avfärdar fenomenet statistiskt, måste vi göra ett par betraktelser till. Denna enkla undersökning innehåller nämligen flera ganska enkla fallgropar som man inte kan bortse ifrån.

Jag gick ett varv runt på centralen och räknade på sammanlagt sex olika platser. I undersökningen räknade jag inte in gäster på ett morgonöppet café (borden var i vägen för observation). Jag har heller inte skiljt på om man suttit i en av de stora hallarna eller i gångarna, mot gångområdena eller mot en bänk mittemot eller om man haft stående eller sittande sällskap. Men jag noterade att sitt-stil kan variera beroende på platsen som man valde att sitta på. Dessa faktorer kan påverka resultaten, men kan inte skattas i detta lilla material.

Risken att en person räknats flera gånger genom att hen flyttat sig bedömer jag som liten.

Är dessa 52 personer som deltog i undersökningen representativa för Göteborgs befolkning. Vilka är det som befinner sig på Göteborg C? Tidigt på morgonen? Sittandes? Som exempel kan jag ta att jag såg två barn totalt på hela tiden jag gick runt och kanske runt en handfull personer i pensionsålder. Utan att räkna kunde jag även konstatera att det var ganska många kvinnor som stod upp. 

Inom statistiken talar man om ”målpopulation”, som är den grupp man vill dra slutsatser om. Så frågan är om min undersökning handlar om alla Göteborgares beteenden, eller om alla Göteborgare som åker tåg? Och kan man generalisera detta till hela Sverige? Eller hela världen? I undersökningen ingick mer än dubbelt så många män som kvinnor, trots att det är känt från tidigare undersökningar att kvinnor reser mer kollektivt än män, men mindre totalt sett.

Det var även svårt att definiera om man satt ihop eller isär med benen. Jag definierade att om ena benet korsade det andra så satt man ”ihop” och i annat fall satt man ”isär”, men denna definition kan man ifrågasätta. Man kan fundera över om man ska beräkna hur stor yta passagerarna tar upp eller vilket beteende de visar mot sin omgivning – Är undersökningen en fråga om logistik eller sociala normer? Jag bestämde det senare och då fick ”korsläggning” fälla avgörandet. Detta ledde till att några fall (samtliga var kvinnor) med smalbenen/fotlederna korsade fick betraktas som ”ihop”. Medan ett antal personer med knäna i kontakt med varandra betraktades som ”isär”. En (man) med vristen på knäet tog upp två platser, men blev "ihop" med denna definition. 

Jag strök även en kvinna som satt med fötterna på bänken under sig och en man som låg på en bänk med korslagda ben.

Men den viktigaste invändningen mot slutsatsen handlar om stickprovsstorlek. Utgångspunkten i en vetenskaplig undersökning är att det inte finns skillnader till dess att motsatsen bevisats, d.v.s. män och kvinnor har samma beteende till dess att tillräckligt med data finns att analysera. I detta fall är det 54% av männen och 33% av kvinnorna som sitter med benen isär, men det räcker inte. Trots att männen är dubbelt så benägna till ”spreading” så behöver man ungefär 2,5 gånger så många observationer. Faran med att publicera denna snabba slutsats är alltså att vi inte har letat tillräckligt mycket. Den statistiska termen är att vi gör ett fel av typ 2 eller att vår undersökning har för låg styrka (28% för att vara exakt).

Det är en felaktig slutsats att ”Män och kvinnor sitter lika ofta med benen ihop”. Den korrekta slutsatsen är ”Det finns inte tillräckliga bevis för att män och kvinnor sitter olika ofta med benen ihop”. Jämför detta med slutsatser om t.ex. risken för cancer från mobiltelefoner: ”Det är bevisat att mobiltelefoner INTE orsaker cancer” eller ”Det finns inte tillräckliga bevis för att mobiltelefoner orsakar cancer - än”.

Innan man samlar in mer data måste man också komma på sätt att undvika s.k. ”selection bias”. Detta innebär att jag får det resultat jag vill därför att jag väljer att bara se (eller minnas) det jag vill se. Om jag t.ex. står på stationen och irriterar mig över några ”spreaders” så kommer jag ihåg just dem, men inte alla som sitter ”ihop”. För att undvika detta måste jag välja observationstidpunkt före undersökningen och inte observera då det passar mig och mina syften.

Selection bias finns det gott om exempel på. T.ex. de enstaka fall där personer ”botats” av homeopatiska läkemedel, vilket är önsketänkande i förening med placeboeffekt. Eller när invandrare får skulden för brottslighet, vilket beror på att man kommer ihåg att en person inte är etnisk svensk men glömmer att räkna alla andra. 

Så nästa gång ni läser ett "vetenskapligt" påstående: Granska detta kritiskt!


/Magnus