tisdag 25 augusti 2015

Det blir inte mer rätt med 1527 panelister...

Hej Statistikvänner

den 20 augusti presenterade Metro en undersökning gjord av YouGov som visade att Sverigedemokraterna nu är Sveriges största parti [1]. Undersökningen baseras på 1527 intervjuer, vilket är en ganska stor undersökning och det förefaller därför som resultaten är relevanta och korrekta. 

I den senaste väljaropinionen från Yougov, utförd på uppdrag av Metro, blir SD Sveriges största parti – för första gången någonsin i en politisk mätning. OBS: MONTAGE.

Problemet med YouGov (och några av deras konkurrenter) är att de baserar undersökningen på s.k. självrekryterande paneler. En panel är en grupp med respondenter som under en begränsad tidsperiod för vara med i flera undersökningar. Självrekryterande innebär att vem som helst kan ansöka om att få vara med – men initiativet kommer från respondenten.

Genom att bygga undersökningen kring människor som valt att delta kommer alla normala möjligheter till statistisk slutledning att sättas ur spel. Vilka lockas att delta i panelen? Ett slumpmässigt urval bygger på att alla personer har en känd (oftast lika) sannolikhet att bli utvalda. På så sätt skapar man ett representativt urval där resultaten kan tolkas för hela populationen. Den som analyserar resultaten vet vad en respondent är värd och vad denne representerar. Väljer jag ett tillräckligt stort urval kommer jag även att få med alla sorter av folk, rika/fattiga, män/kvinnor, invandrare/infödda, sverigedemokrater/sossar, frimärkssamlare/joggare, lärare/byggjobbare/arbetslösa o.s.v.

De som ingår i den självrekryterade panelen kan vara precis vad som helst. En del är med av ett genuint intresse för att föra fram sin åsikt, men även detta är en egenskap som inte är jämnt fördelad. Jag tror att tyckmyckna människor kommer att vara överrepresenterade i panelerna. Det kommer även att finnas ett överskott av personer med mer tid och personer som är lätta att locka med belöningar. Eller personer som helt enkelt är professionella tyckare och som deltar bara för belöningens skull… Problemet är att vi inte vet hur det förhåller sig, men det är ganska enkelt att inse att panelen inte är representativ.

YouGov:s metod bygger på att man väljer personer på ”rätt” sätt ur sin panel (som alltså inte är representativ) och att de som svarar får olika vikt för att resultaten totalt sett ska bli rätt. Om det är få gymnasielärare i panelen kommer de som är med att väljas oftare. Om det är få gymnasielärare som svarar så får de högre vikt för att representationen ska bli rätt. Detta betyder samtidigt att grupper som är svåra att rekrytera kommer att få märkliga egenskaper eftersom det är ett litet antal personer i dessa grupper som får väldigt många och starka röster. Ingår du däremot i en smal men lättrekryterad grupp så blir det mindre viktning. Ingen utanför YouGov vet hur denna viktning går till eftersom det är en affärshemlighet. Därför kan vi inte granska det rimliga eller orimliga i de egenskaper som den har.

YouGov påstår [2] att metoden är tillförlitlig, men det är ganska talande att det är ”VD” och ”Sales manager” som uttalar sig och inte deras statistiker (om de har någon anställd framgår inte). YouGov hävdar följande argument för att deras metod är tillförlitlig:

·         Det är svårare att få folk att svara i traditionella undersökningar…
·         … speciellt om man inte får belöningar
·         Kvoturval är en modern metod
·         Det är lättare att svara tack vare modern teknik
·         Urvalet justeras efter svarsbenägenhet
·         Resultatet justeras efter vilka som faktiskt svarat
·         Justeringen sker mot fler variabler än kön, ålder och ort

Att metoden är ”modern” och att det är lättare att delta i undersökningen tack vare modern teknik är nonsensargument i detta sammanhang.

Metoden med självrekryterande paneler påstås lösa bortfallsproblemet, men det är inte sant. I urvalet bör det ingå en representativ sammansättning av populationen, men YouGov har en icke-representativ grupp på 60000 personer i panelen. Redan här uppstår ett ”bortfall” av alla de personer som inte ens gitter ansöka om medlemskap. Av de som sedan ingår i en specifik undersökning är det inte heller 100% svarsfrekvens. I den aktuella undersökningen svarade 1527 personer, men det framgår inte hur många som tillfrågades – i värsta fall är det alla 60000. Bortfallsproblemet är således inte löst - det är bara maskerat!

Självrekryteringen innebär även att det finns en risk att personer som inte ska ingå i populationen deltar. Vi vet inte om YouGov har rensat bort minderåriga och utländska medborgare från panelen. Vi vet inte heller hur många som dubbel-, trippel eller multipelregistrerat sig för att casha hem lite fler belöningar. Tyvärr får man inte bättre resultat för att samma personer deltar fler gånger.

Förhållandet mellan belöningar och svarsfrekvens har studerats i vissa fall. De belöningar som delas ut i normalfallet är ganska modesta och inte något som man blir direkt rik på men de snedvrider ändå resultaten - även de som svarar seriöst kommer att snedvridas. Det är enkelt att föreställa sig skillnaden mellan de människor som gärna deltar i paneler (för att de har tid och faller för belöningen) mot de som trots belöningarna inte ser det mödan värt. Marika Wenemark på Linköpings universitet [3] har i sin forskning konstaterat att förtroendet för undersökningen – och därmed motivationen att svara –kan sjunka om man delar ut belöningar. Så belöningen i sig förbättrar inte kvaliteten.

Även om traditionella OSU har svåra problem med bortfall så hjälper det inte att ersätta dem med en sämre metod. Det blir inte mer rätt för att man frågar 1527 skevt utvalda personer.

/Magnus 

[1] http://www.metro.se/nyheter/yougov-nu-ar-sd-sveriges-storsta-parti/EVHohs!MfmMZjCjQQzJs/
[2] https://yougov.se/news/2015/08/21/om-onlinepaneler-och-tillforlitligheten/

torsdag 7 maj 2015

Höga eller låga odds

Hej Statistikvänner,

Dagens Nyheter har en rubrik med texten nedan. Denna orsakade en del diskussioner på Facebookgruppen "Anonyma språkpoliser". Frågan är om pappan har höga eller låga odds att vinna en vårdnadstvist?

Vad betyder egentligen "odds" och hur används detta?

Om vi utgår från artikelns utsaga: Pappor har lägre sannolikhet att vinna, för enkelhets skull antar vi att i vårdnadstvister vinner pappan 25% av gångerna och mamman 75% (detta är helt taget ur luften, men är inte heller det som min text handlar om).

Formeln för detta är P(pappa) = 0,25 och P(mamma) = 0,75.

Det är ganska vanligt att uttrycka detta i termen "1 på", d.v.s. pappan vinner 1:4 medan mamman vinner 1:1,33. Notera att om man dividerar så blir inte förhållandet detsamma längre.

Enligt gängse statistisk teori är "odds" definierat som p/(1-p), vilket betyder att pappans odds är Odds(pappa) = 0,25/0,75 = 0,33 medan mammans är Odds(mamma) = 3. Enligt den statistiska definitionen är pappans odds alltså lägre än mammans. Man kan även beräkna det relativa förhållandet med den s.k. oddskvoten, OR = 0,11 eller 9 beroende på vem man utgår från.

Ett vanligt uttryckssätt som kopplar till "1 på..." sättet att skriva sannolikheter är att bara titta på nämnaren. Att få fyrtal i poker har en sannolikhet på 1:4165, vilket är lägre sannolikhet än 1 par som har sannolikheten 1:2,4. Om man för enkelhetens skull betraktar nämnarna, alltså 4165 respektive 2,4, så kan man ganska enkelt se att det högre talet svarar mot mer osannolikhet. Men detta är alltså inte ett odds.

I andra spelformer använder man en annan definition av odds. Oddset att Hammarby ska slå Örebro i dagens match i damallsvenskan är 6,2, oavgjort 5,1 och att Örebro vinner är 1,35. Dessa siffror har inte med sannolikheten att göra, även om de har baserats på sannolikheter. Vinst för Hammarby är en "högoddsare" som ger mer pengar, men sannolikheten är i detta fall lägre. Med detta sätt att uttrycka sig skulle alltså pappan ha högre odds än mamman.

Den statistiska definitionen har alltså en annan betydelse än den vanligare språkliga. Den statistiska är kopplad till sannolikhet, låg sannolikhet - lågt odds, medan den populära baseras på oddset vid vadslagning som är omvänt: Högt odds - låg sannolikhet.

En kommentar till i sammanhanget och det är ordet "Risk". I statistiken betyder "Risk" sannolikhet multiplicerat med kostnad. Risken för en bilolycka är alltså inte sannolikheten utan värdet som jag sätter i risk. Om en bilolycka inträffar 1 gång var 50 år (för en och samma förare) och denna kostar, säg 500000 kr, så är risken 10000 kr. En rimlig försäkringspremie skulle i så fall bli 10000 kr/år eftersom det är risken med att försäkra dig och din bil.

Magnus

fredag 13 mars 2015

Is there a collaps of the finnish Kokoomus party?

Dear statistic-friends (Rakas tilastoystävät),

I am sending a blogpost from Helsinki in Finland where I have been working all week.

One of the students showed me an interesting clip from the finnish TV channel YLE. Later this year there will be a parliamentary election in Finland and the comments on the polls become more and more frequent. The president and the prime ministers are both representing the Conservative parti Kokoomus (Kok).

According to a recent survey presented in YLE Kok is now just third biggest party. Following the Centre party (Kesk) and Socialdemocrats (SDP) but before the True finns (PS) and the Green party (Vihr). The result was presented as a “collaps” of the government party [1]. They are now only third, and their main competitor, SDP, is bigger!



But this is not all true. As we can see from the table and the figure, Kok is 3rd, but the difference between them and SDP and PS is small.

Infact, if we test all pairs of proportions we find an interesting pattern: There are clear and distinctive groups, or clusters, of parties in this poll. Centre party (kesk) form one group. Socialdemocrats (SDP), Consevative (Kok) and True finns (PS) are basically equivalent. And there is no significant differences in the third group, not even between the biggest and smallest party (Green (vihr) versus Other parties).

However, the Conservative is significantly smaller than the Centre party. On the other hand, so is the Socialdemocrats.

In order to get a significant difference between SDP and Kok we would need a poll with almost 200000 respondents!
Alexander Stubb, Leader of conservative party and Prime Minister of Finland. 
The lesson to be learned from this story is that ranking data can cause misinterpretation. In sports it is important to be the best. There is only one winner, one silver and one bronze medal and there is always a separation between. The differences between SDP, Kok and PS are exaggerated when they are replaced by ranks, while the difference between PS and Vihr is actually looking smaller.


And always be careful when reading statistics processed by politicians and journalists. 

/Magnus

I thank Oskari Tinkanen for showing me the data!

[1] http://yle.fi/uutiset/kokoomus_romahti_kolmoseksi/7767805

torsdag 5 mars 2015

Manspreading

Statistikvänner!

Dagens blogg kommer att handla om ”man-spreading”, d.v.s. beteendet att män sitter bredbent i offentliga miljöer. Eftersom jag hade en stund i väntan på ett tåg kl 0605 på morgonen passade jag på att samla in data på Göteborg C.

Kön                     Ihop                    Isär                      Summa
Män                    17                        20                        37
Kvinnor             10                        5                           15

Som synes verkar männen oftare sitta med benen isär, medan kvinnorna oftare sitter med benen ihop. Man kan räkna på detta och konstatera att skillnaden inte är signifikant, utan har uppkommit av en slump med sannolikheten 22,7%. Min första slutsats från denna snabba undersökning blir alltså att det inte finns skillnader mellan män och kvinnor.
Men, innan vi avfärdar fenomenet statistiskt, måste vi göra ett par betraktelser till. Denna enkla undersökning innehåller nämligen flera ganska enkla fallgropar som man inte kan bortse ifrån.

Jag gick ett varv runt på centralen och räknade på sammanlagt sex olika platser. I undersökningen räknade jag inte in gäster på ett morgonöppet café (borden var i vägen för observation). Jag har heller inte skiljt på om man suttit i en av de stora hallarna eller i gångarna, mot gångområdena eller mot en bänk mittemot eller om man haft stående eller sittande sällskap. Men jag noterade att sitt-stil kan variera beroende på platsen som man valde att sitta på. Dessa faktorer kan påverka resultaten, men kan inte skattas i detta lilla material.

Risken att en person räknats flera gånger genom att hen flyttat sig bedömer jag som liten.

Är dessa 52 personer som deltog i undersökningen representativa för Göteborgs befolkning. Vilka är det som befinner sig på Göteborg C? Tidigt på morgonen? Sittandes? Som exempel kan jag ta att jag såg två barn totalt på hela tiden jag gick runt och kanske runt en handfull personer i pensionsålder. Utan att räkna kunde jag även konstatera att det var ganska många kvinnor som stod upp. 

Inom statistiken talar man om ”målpopulation”, som är den grupp man vill dra slutsatser om. Så frågan är om min undersökning handlar om alla Göteborgares beteenden, eller om alla Göteborgare som åker tåg? Och kan man generalisera detta till hela Sverige? Eller hela världen? I undersökningen ingick mer än dubbelt så många män som kvinnor, trots att det är känt från tidigare undersökningar att kvinnor reser mer kollektivt än män, men mindre totalt sett.

Det var även svårt att definiera om man satt ihop eller isär med benen. Jag definierade att om ena benet korsade det andra så satt man ”ihop” och i annat fall satt man ”isär”, men denna definition kan man ifrågasätta. Man kan fundera över om man ska beräkna hur stor yta passagerarna tar upp eller vilket beteende de visar mot sin omgivning – Är undersökningen en fråga om logistik eller sociala normer? Jag bestämde det senare och då fick ”korsläggning” fälla avgörandet. Detta ledde till att några fall (samtliga var kvinnor) med smalbenen/fotlederna korsade fick betraktas som ”ihop”. Medan ett antal personer med knäna i kontakt med varandra betraktades som ”isär”. En (man) med vristen på knäet tog upp två platser, men blev "ihop" med denna definition. 

Jag strök även en kvinna som satt med fötterna på bänken under sig och en man som låg på en bänk med korslagda ben.

Men den viktigaste invändningen mot slutsatsen handlar om stickprovsstorlek. Utgångspunkten i en vetenskaplig undersökning är att det inte finns skillnader till dess att motsatsen bevisats, d.v.s. män och kvinnor har samma beteende till dess att tillräckligt med data finns att analysera. I detta fall är det 54% av männen och 33% av kvinnorna som sitter med benen isär, men det räcker inte. Trots att männen är dubbelt så benägna till ”spreading” så behöver man ungefär 2,5 gånger så många observationer. Faran med att publicera denna snabba slutsats är alltså att vi inte har letat tillräckligt mycket. Den statistiska termen är att vi gör ett fel av typ 2 eller att vår undersökning har för låg styrka (28% för att vara exakt).

Det är en felaktig slutsats att ”Män och kvinnor sitter lika ofta med benen ihop”. Den korrekta slutsatsen är ”Det finns inte tillräckliga bevis för att män och kvinnor sitter olika ofta med benen ihop”. Jämför detta med slutsatser om t.ex. risken för cancer från mobiltelefoner: ”Det är bevisat att mobiltelefoner INTE orsaker cancer” eller ”Det finns inte tillräckliga bevis för att mobiltelefoner orsakar cancer - än”.

Innan man samlar in mer data måste man också komma på sätt att undvika s.k. ”selection bias”. Detta innebär att jag får det resultat jag vill därför att jag väljer att bara se (eller minnas) det jag vill se. Om jag t.ex. står på stationen och irriterar mig över några ”spreaders” så kommer jag ihåg just dem, men inte alla som sitter ”ihop”. För att undvika detta måste jag välja observationstidpunkt före undersökningen och inte observera då det passar mig och mina syften.

Selection bias finns det gott om exempel på. T.ex. de enstaka fall där personer ”botats” av homeopatiska läkemedel, vilket är önsketänkande i förening med placeboeffekt. Eller när invandrare får skulden för brottslighet, vilket beror på att man kommer ihåg att en person inte är etnisk svensk men glömmer att räkna alla andra. 

Så nästa gång ni läser ett "vetenskapligt" påstående: Granska detta kritiskt!


/Magnus 

onsdag 20 augusti 2014

Räknefel då man stickar

Välkomna till Statistikbloggen! 

Jag läste en fråga på Facebookgruppen ”Stickcafé” som handlade om hur många gånger man ska kontrollräkna maskorna på sin stickning. Så – i ett försök att bredda läsekretsen – tänkte jag försöka ge lite synpunkter på detta. 

Om man stickar måste man (om man är lika amatörmässig som jag i alla fall) kontrollräkna antalet maskor med jämna mellanrum. Om antalet är för litet har man sannolikt tappat en maska som man i så fall måste leta upp och sticka in, men man kan även råkat lägga till en. Ska man sticka en resår vållar detta stora problem eftersom man ska sticka varannan avig, varannan rät och om man har ett fel så blir det både snett och vint.

Så därför måste man ibland kontrollera antalet. 

Antag att vi stickar en vante (eller socka) med 40 maskor per varv, fördelade på 4 stickor med 10 vardera. För enkelhets skull antar vi att det är fråga om slätstickning så det är bara räta maskor hela varvet runt. Nu ska vi kontrollräkna antalet… 


För varje maska kan vi göra två fel: Missa att räkna (antalet minskar med ett), räkna dubbelt (antalet ökar med ett) eller räkna rätt. Vi betecknar dessa med (-1, +1 respektive 0). Gör vi alla rätt kommer vi att få rätt svar. Men hur kan vi veta att vi faktiskt har rätt bara för att vi får rätt summa? Vi kan ju ha räknat fel två gånger! 

Inom informationsteori talar man om felupptäckande och felrättande koder. En upptäckande kod innehåller en kontrollmöjlighet som gör att vi kan upptäcka vissa fel, men vi kan inte rätta dem. Exempel på detta är kontrollsiffran i personnumren och OCR-numren. Man kan se att det är fel på ett personnummer om kontrollsiffran är fel, men man kan inte se vad det rätta numret är. En rättande kod så kan man även korrigera felet så att det blir rätt. Men om två siffror ändras samtidigt så kan kontrollsiffran bli rätt i alla fall och felet går obemärkt förbi… 

Ett exempel på en felupptäckande kod inom stickning är att om man stickar resår (varannan rät och varannan avig). Om sista maskan blir rät vet man att det är fel någonstans, men inte var eller hur detta ska korrigeras. Men även här kommer två fel att ta ut varandra. 

Låt oss anta att du oftast räknar rätt. Säg att felräkningar inträffar 1 gång på 1000 (var 1000:e maska missas ELLER dubbleras, medan 999 räknas rätt). Det betyder att en kontrollräkning av vanten ovan kommer att ha noll fel med en sannolikhet på 96,1%. Sannolikheten för EXAKT ett fel är 3,8% och sannolikheten för MINST 2 fel är 0,076%. Se tabellen nedan. 

Men även om man gör minst 2 fel så kan det fortfarande vara så att felräkningarna syns. Ett udda antal fel kommer t.ex. alltid att synas. Likaså om samma fel görs fler gånger (man missar t.ex. att räkna 2 maskor). Gör man däremot fel så kommer det att vara ETT fel eller ett antal fel som syns i alla fall med mycket hög sannolikhet (över 99%). Så om man bara gör fel 1 gång på 1000 så kommer man med största sannolikhet att få rätt resultat, d.v.s. upptäcka ett fel som finns eller godkänna ett korrekt arbete. Ett räknefel kommer alltså inte att gå att missa. 

Om du är slarvigare och gör fel på var hundrade maska så blir kontrollräkningarna trots det rätt med en sannolikhet på 67%. Även i detta fall kommer det att vara mycket sannolikt att OM man gör ett fel så är det bara ett fel (81,7%). 



Men slarvar man ännu mer och gör fel på var 10:e maska så blir det problem. Då kan man troligen inte lita på sin kontrollräkning alls utan måste kontrollräkna flera gånger oavsett resultat.  
Jag tror att de flesta med lite noggrannhet kommer att räkna rätt så ofta att om man gjort fel så upptäcks detta. Kontrollera gärna själv genom att räkna samma stycke flera gånger. Därför drar jag slutsatsen att om man stickar vantar eller raggsockor så ska EN genomräkning räcka. Skulle det bli ett felaktigt antal så måste man gå igenom arbetet en gång för att finna felet, som sannolikt kommer att finnas. 

 Hälsningar Magnus 

 Tack till Monica Larsson som gav mig inspiration till denna bloggpost!

måndag 12 maj 2014

Nicholas Cage och drunkningsdöden


Hej Statistikvänner!

Jag fick ett kul länktips av min kompis Torsten Beckman (http://www.tylervigen.com/).

Siten presenterar 20 stycken korta tidsserier där det finns en tydlig korrelation mellan några – väldigt märkliga. Bland annat är det så att fler drunknar i swimmingpoolar de år då det kommer ut fler filmer med Nicholas Cage. Man kan fundera länge över hur detta kommer sig, men svaret är lika enkelt som tråkigt.

Nicholas Cage -
The man, the myth, the statistic

Bara för att det finns en korrelation i data så har man inte automatiskt ett orsakssamband. Det är alltså inte så att Nicholas Cages agent arbetar mer aktivt om folk drunknar. Lika lite tror jag att hans filmer får folk att drunkna – varken avsiktligt eller oavsiktligt.

Ibland finns det en effekt som kallas ”skensamband”. Bakom två variabler ligger en tredje som man inte tittar på. Det finns ett logiskt samband mellan denna och bägge de andra, men inte mellan de man betraktar… Om du inte hängde med: Det finns bevis för att kaffedrickare oftare får lungcancer. Orsaken till detta är att rökare BÅDE dricker mer kaffe och får lungcancer, inget annat. Jag gillar inte att vara kategorisk, men jag tror inte att det finns någon tredje faktor som ger Nicholas Cage filmkontrakt och får folk att drunkna.

Svaret ligger i att dataserien är kort (11 år) och att de är många.

Jag roade mig med att göra en simulering på helt oberoende data upprepat 20 gånger. Den bästa av körningarna hade en korrelationskoefficient på 0,54 se figuren. Faktum är att om man gör om samma sak med bara 5 serier som testas i alla par som är möjliga (20 st) så blir det 65% i det bästa fallet.

Simulerade data för 1999 till 2009. Helt oberoende... Trots det blev det en fin korrelation.


De har presenterat 20 resultat, sammanlagt 40 variabler. Antalet möjliga par är 780 stycken. Det är inte konstigt att det finns de med hög korrelation.

Man bör vara försiktig med att tolka denna ”information” eftersom det kan leda till felaktiga slutsatser. Dessa slutsatser kan i sin tur orsaka stora skador. Man skulle behöva en varningstext som de som sitter på cigarettpaketen. ”Varning – Dålig statistik kan skada dig allvarligt!”.

Magnus

onsdag 22 januari 2014

Facebook dör ut mellan 2015-17

Hej,

Facebook på väg att dö ut som en smittsam sjukdom! Få saker väcker ett intresse som en bra rubrik.

Inom statistiken använder man modeller, d.v.s. en förenklad bild av hur verkligheten fungerar. I modellen finns slumpmässiga förlopp, påverkan m.m. inlagda och sedan skattar man hur stora dessa är.

Inom epidemiologi – läran om smittsamma sjukdomars spridning – finns en enkel modell som delar in alla människor i tre faser: Mottaglig, Smittad, Resistent. Först kan man bli smittad av sjukdomen, sedan är man smittad och sprider smittan vidare till andra mottagliga och sedan blir man Resistent mot smitta. Till detta finns mängder av variationer. T.ex. kan resistent betyda att man avlidit.

På engelska kallas detta ”SIR”-modellen (Susceptible, Infected, Resistent).

Beroende på hur lätt det är att smitta andra och hur ofta detta sker och hur lång tid smittade har på sig att sprida sjukdomen vidare blir det olika förlopp. Rabies och hiv sprids ganska sakta eftersom smittotillfällena är få. Å andra sidan influensa sprids snabbt och kan explodera i pandemier för att sedan dö ut då stora delar av befolkningen utsatts för smittan och antingen blivit immuna eller dött.

Forskare vid Princeton University [1] har tillämpat samma modell på Facebook. Man kan betrakta en person utan Facebook-konto som ”Mottaglig för smitta”, en som anslutits som ”smittad”. Om man tillämpar denna modell kan man se hur snabbt farsoten sprider sig innan en pandemi mer eller mindre brutit ut. Men de har även beräknat att trenden vänder och denna vändning finns med i modellen.

Likt spanska sjukan och böldpesten kommer smittan att avklinga. Enligt forskarna har detta redan skett med MySpace som följde samma mönster för några år sedan. Facebook nådde sin topp 2012 och kommer att tappa 80% av sina användare mellan 2015 och 2017.

/Magnus

[1] J Cannarella and J A Specler (2014). Epidemiological modeling of online social network dynamics. http://arxiv.org/pdf/1401.4208v1.pdf