Forstå din meningsmåling – helt

Folketingsvalget nærmer sig, og det samme gør en lavine af meningsmålinger. DRs Detektor har i den anledning produceret en videoguide, som præsenteres under overskriften Undgå at blive narret af en meningsmåling.

Videoen (og den forklarende tekst på DR’s site) giver en på mange måder udmærket pædagogisk introduktion til fænomenet, som så mange af os elsker at hade. Men den fortæller ikke hele historien, og dermed risikerer man faktisk – paradoksalt – at blive narret af en meningsmåling. Hvis man altså tager DR’s forklaringer for pålydende.

Det er jo en skam – og helt sikkert ikke meningen. Men hvad er problemet da? Jo, DR skriver: “Spørger man cirka 1.000 personer, når man et resultat med en usikkerhed på blot to til tre procent”. Sådan! Det er jo dejligt at vide som læser. Det er bare ikke hele historien.

Det, vi ikke får at vide, er, at usikkerheden på blot 2-3 procentpoint (ja, det er faktisk procentpoint. Det skulle der have stået på DR’s site) er under forudsætning af, at man anvender et 95 procents konfidensniveau. Er det nu så vigtigt med konfidensniveauet? Ja, det er det faktisk. For det betyder, at der er en kalkuleret risiko for, at man tager fejl. At tage fejl betyder her, at meningsmålingen viser MERE end 2-3 procentpoint forkert. Og denne risiko fortæller DR ikke noget om.

Faktisk tager man fejl 1 ud af 20 gange, når man anvender et 95 procents konfidensniveau. Altså i 1 ud af 20 målinger. Den risiko lever de fleste af os nok fint med i det daglige. Også undertegnede. Men vil du forstå din meningsmåling, skal du vide, at der altid er en (lille) risiko for, at meningsmålingen viser mere end de ellers anførte maksimale 2-3 procentpoint forkert.

Den gode nyhed er, at du faktisk kan gøre noget ved det. Du kan nemlig lade være med at stole blindt på enkeltmålinger og i stedet sætte din lid til gennemsnit af mange aktuelle målinger. Tjek fx Berlingske Barometer  eller Ritzau Indeks. Her er risikoen for at tage fejl meget mindre end ved enkeltmålinger.

Påvirker meningsmålinger faktisk vælgerne?

De seneste uger har de toneangivende medier været fyldt med selvransagelse: ”Vi lader os rive med af positive meningsmålinger”; ”Målinger overbeviser vælgerne” og ”Politiske prognoser flytter stemmer”.

De refererer alle til en ny forskningsrapport fra Institut for Statskundskab på Københavns Universitet forfattet af Kasper Møller Hansen m.fl. – med titlen: Hvordan påvirkes vælgerne af meningsmålinger?

Projektet er interessant – ikke mindst set i lyset af DR’s uheldige exitprognose ved seneste kommunalvalg. For spørgsmålet er jo, om DR – og refererende medier – har påvirket vælgerne og dermed valgresultatet med den tidlige skæve måling?

Nu er det undersøgt, for første gang i en dansk sammenhæng, via et såkaldt survey-eksperiment. Her har man inddelt ca. 3.000 repræsentativt udvalgte danskere i fire stimuligrupper og en kontrolgruppe, hver især bestående af ca. 600 personer, og herefter præsenteret stimuligrupperne for meningsmålinger og tilhørende nyhedsartikler, som giver fiktiv frem- eller tilbagegang for henholdsvis Socialdemokraterne og De Konservative. Så har man stillet de 3.000 danskere en række spørgsmål, herunder hvad de ville stemme, hvis der var folketingsvalg i morgen, og herudfra estimeret stimulieffekterne – altså mulige fremgangs- og tilbagegangseffekter.

Undersøgelsen konkluderer, at det er ”sandsynliggjort, at når et parti går frem i meningsmålingerne, kan det give dem et ekstra boost blandt vælgerne” og ”… der er en tendens til, at positive meningsmålinger sender partierne frem, mens dårlige målinger kan sende dem tilbage”. Definitionen af boost vil jeg overlade til andre, men faktum er, at undersøgelsen sandsynliggør en ganske lille fremgangseffekt (bandwagon effekt). For Socialdemokraternes vedkommende fraviger man i undersøgelsen det ellers bredt anerkendte krav om et 5 procents signifikansniveau. Effekten er blot signifikant på et 10 procents signifikansniveau.

I forskningssammenhæng taler man om, at en effekt kan være stærkt signifikant, svagt/marginalt signifikant eller slet ikke signifikant. Et 10 procents signifikansniveau vil i mange forskningssammenhænge betegnes ”ikke signifikant” eller ”marginalt signifikant”. Det er et gråzoneområde. Begrundelsen er, at der er en ikke ubetydelig risiko for, at den målte forskel blot er ”tilfældig støj” – altså, at der ingen virkelig effekt er. I fagsproget taler man om risikoen for fejlagtigt at forkaste en sand H0-hypotese, en såkaldt type 1 fejl. Hvis H0-hypotesen er sand, er der ingen effekt. Denne risiko er til stede her, også selv om eksperimentet forventes at have høj intervaliditet (høj intervaliditet: At den observerede stemmeeffekt kan tilskrives stimuli – her meningsmåling og artikel – og ikke andre “forstyrrende” årsager).

Min kritik af undersøgelsens hovedresultater – når man ser på stemmeadfærd – kan i forlængelse heraf sammenfattes i to pointer, som ikke afspejles i de seneste ugers mediedækning:

Pointe 1: Havde der været tale om virkelige meningsmålinger hver især baseret på ca. 600 svar og med samme fremgang i tilslutningen til Socialdemokraterne, ville fagpersoner rådgive journalister til ikke at vinkle på forskellen pga. den statistiske usikkerhed. Med henvisning til eksperimentets høje intervaliditet og evidens fra lignende eksperimenter mener forskerne, at det er forsvarligt her. Det fremgår dog ingen steder i rapporten eller i medieomtalen, at der er tale om marginal signifikans.

Pointe 2: Tilbagegangseffekterne er insignifikante, dvs. ikke sandsynliggjort i undersøgelsen. Men når det er tilfældet, hvordan kan rapporten så konkludere en tendens til, at dårlige målinger kan sende partierne tilbage? Det virker ikke stærkt underbygget i eksperimentets resultater.

Dertil kommer en tredje væsentlig pointe, som handler om selve forskningsdesignet, altså at der er tale om et survey-eksperiment: Fremgangseffekterne ville næppe være målbare ved et virkeligt valg, fordi man ved virkelige valg påvirkes af mange modsatrettede faktorer, og fordi de fleste danskere ikke læser en bestemt meningsmåling og ditto nyhedsartikel. Dette forhold diskuteres behørigt i forskningsrapporten og er et grundvilkår ved denne type forskningsdesign. Og jeg lever gerne med det – når blot det ikke negligeres i formidlingen af undersøgelsens resultater. Det, mener jeg desværre, er sket i flere af artiklerne.

Man har i landsdækkende medier kunnet læse, at der er tale om ”ret store effekter”, ”at det kan være ret fatalt at udkomme med en tidlig meningsmåling”, at der ”gerne kommer 3,4 procent oveni, hvis et parti går 5 procent frem”, at ”S kan have tabt på, at vælgerne har fået at vide, at det gik dårligt” – kort sagt: Man får indtryk af, at meningsmålinger kan påvirke et valgresultat i betydelig grad.

Men alle de nævnte citater, fortolkninger og vinkler er for hårdt strammede. Effekterne ved et virkeligt valg er nærmest umulige at estimere på baggrund af et eksperiment, som det man her har gennemført. Undersøgelsen dokumenterer ikke store effekter med potentielt fatale konsekvenser for fx Socialdemokraterne ved efterårets kommunalvalg.

Nu handler undersøgelsen ikke blot om stemmeadfærd. Stimulieffekter på ”partisympati” undersøges også. Og stemmeadfærdseffekterne for De Konservative er i undersøgelsen større end for Socialdemokraterne. Samlet set sandsynliggør undersøgelsen, at vælgere faktisk påvirkes af fremgangsmålinger. Men det ændrer ikke ved, at hovedparten af stemmeadfærdseffekterne er insignifikante eller marginalt signifikante med almindelig målestok, og at fremgangseffekten i populationen kan være meget begrænset.

Berlingske citerer Kasper Møller Hansen for at sige, at ”der hviler et stort ansvar på nyhedsmedierne som formidlere af meningsmålinger”. Enig. Men, kunne man tilføje, der hviler også et stort ansvar på selvsamme medier som formidlere af undersøgelser om meningsmålingers effekt. Og et ditto ansvar hos forskerne bag undersøgelsen for, at resultaterne ikke overeksponeres.

Kvalitetsvægtede gennemsnit af meningsmålinger

Det lyder grimt. Eller i hvert fald kompliceret.

Men faktisk er det ret enkelt: Et gennemsnit af mange meningsmålinger er alt andet lige mere retvisende end de enkelte målinger, som gennemsnittet bygger på. Sådanne gennemsnit finder du fx hos Berlingske Barometer, hos Ritzau Index og på Altinget.dk. Brug dem.

Erik Gahner Larsen har for nylig skrevet et godt og informativt indlæg, som forklarer, hvorfor gennemsnit typisk er mere præcise, og hvad man som journalist eller mediebruger skal være særligt opmærksom på, når man læser meningsmålinger. Læs det.

SMS-afstemning vandt over Facebook

Vinderen af det grønlandske valg var helt klart Siumut og ifølge iagttagere måske især partiets formand Aleqa Hammond. Tilstrømningen til Siumut var allerede tydelig i en måling, som den grønlandske avis Sermitsiaq.AG foretog på avisens Facebook-side frem til fire dage forud for valget – en måling, som vi udsatte for kritik i et indlæg her på sitet.

Kritikken holder vi fast ved. Vi er ikke overbeviste om, at deltagerne i tilkendegivelsen på Facebook var repræsentative for alle vælgere, og samlet set ramte denne måling da også langt forbi skiven, hvis man ser på, hvor mange af målingens svarpersoner der skal flytte deres stemme for at ”ramme” valgets resultat. Fejlprocenten var på 8,9 procentpoint, hvilket er langt fra præcisionen i de sidste meningsmålinger forud for de seneste valg i Danmark. I september sidste år var fejlprocenten i Gallups måling dagen før valget den 15. september på 2,4 procentpoint, mens Rambøll, der fejlede mest, ramte 4,4 procentpoint ved siden af.

Grønlands Radio, KNR, var med en fejlprocent på 4,6 procentpoint tættere på i en lige så uvidenskabelig måling lørdag eftermiddag forud for valget sidste tirsdag. Det var en meningsmåling pr. sms i forbindelse med den sidste tv-transmitterede valgdebat. ”1.817 unikke mobiltelefoner deltog i målingen. Det svarer til 4,5 procent af alle stemmeberettigede”, skriver KNR.

Med til billedet hører, at en videnskabelig måling foretaget telefonisk blandt 800 tilfældigt udvalgte vælgere ramte endnu mere ved siden af end de to nævnte. Den blev afsluttet 10 dage før valget, hvilket ifølge firmaet bag målingen, HS Analyse, kan være en del af forklaringen.

“Vi kunne klart se, at Siumut ville få en stor fremgang, mens IA var på vej tilbage. Og så var der 25 procent, der ikke havde besluttet sig, hvoraf mere end halvdelen havde stemt på IA ved seneste valg. En overvejende del af denne gruppe har i den sidste uge af valgkampen besluttet at følge strømmen og stemt på Siumut, hvorved partiets fremgang blev understreget,” skriver Henrik Skydsbjerg, HS Analyse i en mail.

Han fortæller, at noget af det samme skete ved valget i Grønland i 2009. Dengang var det bare IA, “der stormede frem og først fik tilslutning fra den sidste gruppe af vælgere så tæt på valget, at vi ikke nåede at registrere det.”

Meget tyder på, at Aleqa Hammond og Siumut denne gang høstede mange vælgere i valgkampens slutspurt, men meningsmålingens natur er, at vi ikke kan sige noget præcist om, hvilke skævheder der skyldes den almindelige statistiske usikkerhed, og hvilke der skyldes vælgernes bevægelser, efter at målingen er foretaget.

HS Analyse
afsl. 2.3.

Facebook
afsl. 8.3.

SMS
9.3.
Valget
12.03
Siumut 38,2 35,8 45,2 42,8
Inuit Ataqatigiit 41,4 39,2 32,3 34,4
Demokraterne 8,9 10,2 7,9 6,2
Atassut 6,0 6,9 6,3 8,1
Partii Inuit 4,7 7,0 7,4 6,4
Kattusseqatigiit Partiiat 0,8 0,9 0,9 1,1
Fejlprocent
9,2 8,9 4,6
Antal svar

800

1.927 1.817  30.136

To skridt frem – og tre tilbage

Nogen burde kortlægge omfanget af ikke-historier baseret på meningsmålinger. Den seneste uge bød på et par af slagsen:

Thorning haler ind på oppositionen i ny meningsmåling

S efter god meningsmåling: »Danskerne kan godt se, at statsministeren har ret«

Overskrifterne baserer sig på en ny måling fra Voxmeter, som tilsyneladende viser, at Socialdemokraterne er gået frem fra 20,6 procent (Voxmeter-måling kort før jul) til 22,6 procent af stemmerne.

De danske netmedier er blevet bedre til at oplyse om den statistiske usikkerhed, når de skriver om meningsmålinger. Det har Erik Gahner Larsen (m.fl.) for nylig dokumenteret. Usikkerheden oplyses da også i de to nævnte  artikler. I førstnævnte artikel, som stammer fra Ritzau, får vi således at vide, at Bevægelserne ligger dog inden for målingens usikkerhed, som kan være op til 2,9 procentpoint for de største partier. Yes, det er korrekt. Bevægelserne ligger inden for målingens usikkerhed. Tjek selv efter her. Det er jo fint, at journalisten er opmærksom på problemet – og åbent og ærligt oplyser læseren om det. Vi får også at vide, hvor mange der har svaret, at undersøgelsen er repræsentativ, og hvornår den er gennemført. To skridt frem. Men æh …, når bevægelserne ligger inden for den statistiske usikkerhed, så ved vi ikke, om Thorning faktisk haler ind på oppositionen i den nye måling. Altså når målingen generaliseres til befolkningen. Der er således ikke belæg for rubrikken og vinklen.

Dette faktum afholder imidlertid ikke Ritzau fra at lave den – naturlige – opfølgende historie, hvor årsagsforklaringen køres i stilling: Fremgangen skyldes – ifølge Socialdemokraternes Magnus Heunicke – nytårstalen og de første synlige effekter af Socialdemokraternes lange seje træk. Også her oplyses om den statistiske usikkerhed, men konsekvensen drages ikke. Det er ikke kun undertegnede, som har studset over dette.

Lad os for en kort bemærkning dvæle ved Socialdemokraternes seneste målinger:

Voxmeter YouGov Gallup Voxmeter Rambøll Voxmeter YouGov Voxmeter Voxmeter
02-dec 03-dec 06-dec 09-dec 13-dec 15-dec 17-dec 22-dec 07-jan
19,9 18,5 23,1 20,6 21,3 20,2 19 20,6 22,6

Som man kan se, går det lidt op og ned med målingerne. Der er ikke rigtig noget mønster eller nogen ensartet udvikling, og næsten alle målingerne ligger så tæt, at det er inden for den statistiske usikkerhed. Tager man målingerne for pålydende, kan man lave historierne om Socialdemokraternes fald og stigning og fald og stigning og fald og fald og stigning og stigning. Det er meningsløst, men man kan gøre det. Med udokumenterede vinkler, afledte politiske kommentarer og postulerede årsagsforklaringer. Med korrekte informationer, men forkerte konklusioner. Det er to skridt frem og tre tilbage.

Er analyseinstitutterne ens?

Uanset hvilke medier man følger, kan man næsten dagligt læse, at den seneste meningsmåling viser.

Ethvert større dansk mediehus har sin egen hel eller halveksklusive aftale med et analyseinstitut: Epinion, TNS Gallup, Voxmeter, YouGov, Megafon og hvad de nu ellers hedder.

Men hvordan arbejder institutterne egentlig? Og hvad skal man som journalist eller bare almindelig medieforbruger være opmærksom på rent metodisk? Jeg vil her ridse nogle af de metodiske forskelligheder og karakteristika op.

Adgang til svarpersoner

Der anvendes grundlæggende tre indsamlingsmetoder: Telefoninterviews (CATI), webpaneler (CAWI) og en kombination af begge. YouGov anvender udelukkende webpanel, mens flertallet af de øvrige institutter arbejder med en kombi-model (fx med fordelingen 50-50, 60-40 eller 80-20). Der findes også institutter, som kun anvender CATI til politiske meningsmålinger. Og for at gøre forvirringen total er der også institutter, som varierer metoderne nærmest fra måling til måling.

Traditionelt har man kritiseret webpaneler for ikke at være repræsentative. Kritikken går blandt andet på, at ældre mennesker og lavtuddannede er underrepræsenterede, og at man påvirker folk i panelet gennem de spørgsmål, man stiller dem. Løbende udskiftning af panelets medlemmer kan til en vis grad afbøde problemet med påvirkning. Erfaringer fra bl.a. folketingsvalget i 2011 viser imidlertid, at webpaneler i nogle tilfælde ramte mere præcist end telefonbaserede målinger. Det er med andre ord ikke længere helt så selvfølgeligt, at CATI er bedst. Det er til gengæld klart, at CAWI er billigst. Kombi-metoden har dog stadig den – i hvert fald teoretiske – fordel, at man bedre kan sikre en demografisk repræsentativ svargruppe.

Kvaliteten af webpanelet

Kvaliteten af webpanelerne er – og bliver i tiltagende grad – et afgørende konkurrenceparameter. Her skal man særligt være opmærksom på panelets størrelse og sammensætning, den løbende udskiftning af panelets medlemmer og de baggrundsoplysninger, man indhenter på medlemmerne. Man skal også være opmærksom på, hvordan respondenterne er rekrutteret og eventuelle skævheder som følge heraf – er de fx selvrekrutterede eller inviterede eller købt fra et eller andet medlemsregister? Erfaring med webpaneler er et andet afgørende parameter. Det tager tid (og valg) at opdage et webpanels eventuelle indbyggede skævheder og lære at justere med relevante vægte.

Indsamling via webpaneler

Man skulle måske tro, at indsamlingen af panel-svar foregår på samme måde på tværs af institutterne. Det er dog ikke tilfældet. Nogle institutter anvender præstratificering, hvor de på forhånd udtrækker en repræsentativ stikprøve blandt panelets medlemmer. Hvis man her opnår en svarprocent nær 100, behøver man faktisk ikke nogen efterfølgende vægtning af svarene eller løbende kontrol. Det kræver dog, at man bruger ressourcer på at sikre en meget høj svarprocent.

Andre institutter anvender kvoteopfyldelse, hvor repræsentativiteten sikres løbende og automatisk i takt med, at svarene tikker ind. Her registreres med andre ord de hurtigste svar blandt panelets medlemmer. Det åbner op for nogle mulige skævheder, som ikke gør sig gældende ved præstratificerede stikprøver.

Endelig er der institutter, som kombinerer metoderne ved at udtrække en præstratificeret stikprøve og herefter løbende følger, om kvoterne opnås på de enkelte strata (og løbende supplerer kvoterne, hvor der måtte mangle svar). Det er naturligvis nødvendigt, hvis man ikke opnår den helt høje svarprocent, og der er systematiske skævheder.

Håndtering af tvivlere

Ved politiske meningsmålinger stiller institutterne det enslydende spørgsmål: Hvilket parti ville du stemme på, hvis der var folketingsvalg i morgen? Det er imidlertid ikke alle danskere, der har en klar holdning til partivalg. Nogle – ofte 10-15 procent – udtrykker i første omgang tvivl, når man stiller dem spørgsmålet. De fleste institutter prober. Det betyder, at de forsøger at vriste et svar ud af tvivlerne, fx ved at stille et opfølgende spørgsmål: Hvilket parti vil du mest sandsynligt stemme på? Eller: Hvilke partier kunne komme på tale/hælder du til? Det får en del af tvivlerne til at tilkendegive en holdning, og disse lidt usikre stemmer regnes så typisk ind på lige fod med dem, der har en sikker politisk overbevisning. Tilbage står en lille restgruppe af hårde tvivlere. De fleste institutter oplyser, at denne restgruppe smides ud eller ikke tillægges nogen betydning, når de estimerer mandat- og procentfordelingerne. Argumentet er, at det er for usikkert at forsøge at gætte dem ud. Nogle af disse tvivlere vil givetvis også tilhøre gruppen af sofavælgere eller stemme blankt.

Imidlertid indgår tvivlergruppen som regel i den oplyste sample size, dvs. i den oplyste stikprøve. Det betyder i praksis, at gruppen behandles, som om den ville stemme som ikke-tvivlerne. I virkeligheden burde man enten fjerne denne gruppe fra den oplyste stikprøve eller tydeligt skrive, at tvivlergruppen udgør xx procent og bør trækkes fra stikprøven, hvis man ønsker at beregne den statistiske usikkerhed. Måske flueknepperi og marginalt, men alligevel. Der findes givetvis også institutter, som vægter tvivlerne ind. Men her er vi inde og pille ved forretningshemmelighederne.

Metodisk forskellighed

Der er selvfølgelig andre ting, der differentierer institutterne: Hvordan vægter man svarene – hvis man vægter dem? Hvordan håndterer man førstegangsvælgere? Hvordan håndterer man, at folk har svært ved at huske (eller har fortrængt), hvad de stemte ved seneste valg?

Pointen er, at der formentlig er større metodisk forskellighed mellem institutterne, end de fleste forestiller sig. Og at vi pt. befinder os i en overgangsfase i forhold til adgang til svarpersoner.

Det er imidlertid vanskeligt at rangordne institutterne. Målingerne op til seneste folketingsvalg viste, at ingen af institutterne ramte helt skævt – eller helt præcist. Institutterne er nogenlunde enige om at spørge mellem 1000 og 1500 personer. Her kunne de differentiere sig. Og fx spørge 5000 repræsentative danskere. Det ville give større præcision – uanset metode.

 (Dette indlæg bygger bl.a. på interviews med en række af de toneangivende danske analyseinstitutter)

Uklare spørgsmål giver uklare svar

Når spørgsmål i en rundspørge skal formuleres, ligger der en væsentlig opgave i at indsnævre den såkaldte ”betydningsvidde”, der kommer af, at mange ord kan forstås forskelligt. Når problemstillingen er kompleks, bliver denne udfordring tilsvarende større.
Det er der et glimrende eksempel på i dagens udgave af Børsen, hvor emnet er den omlægning af skattesystemet, som regeringen har stillet i udsigt.

Under overskriften ”Danskerne vil mere end en skatteomlægning” præsenterer dagbladet Børsen resultatet af en undersøgelse foretaget af Greens Analyseinstitut. Avisen er selv lidt tilbageholdende med at overfortolke svaret på et lidt uklart spørgsmål, men det skinner tydeligt igennem, at der anes en opbakning fra 69 pct. af danskerne til egentligt skattelettelser.
En temmelig overraskende udvikling i danskernes holdning, når der på baggrund af andre undersøgelser tidligere er blevet konkluderet, at syv ud af ti danskere gerne vil betale en høj skat (også fra Børsen/Greens), og at ordentlig velfærd – i danskernes optik – er vigtigere end lav skat. Så sent som i april kunne man endda høre, at danskerne er meget villige til at betale mere i skat, hvis de øgede skatteindtægter går til velfærdsydelser som sundhedsvæsen og ældrepleje.

Omlægninger i skattesystemet er et komplekst emne, og man kan med rette stille kritiske spørgsmål til alle undersøgelser om holdningerne til det. Formuleringen i Børsens seneste undersøgelse sætter dog rekord i uklarhed:

”Regeringen vil sænke skatten på arbejde i en kommende reform. Mener du, at de alene skal finansieres ved nye stigninger i andre skatter eller bør man også lede efter penge uden for skattesystemet?”

De 1.108 svarpersoner, der indgår i den telefoniske rundspørge, har haft en række svarkategorier at vælge mellem, og 69 pct. svarer ”Uden for skattesystemet”, 16 pct. svarer ”Stigning i andre skatte og afgifter”, mens andre 16 pct. svarer ”Ved ikke/vil ikke svare”.

Det centrale spørgsmål er, hvad der menes med ”uden for skattesystemet”. Gælder det fx en ny beskatning af finansielle transaktioner, som er blevet nævnt i debatten? Gælder det en øget arveafgift, som også har været i spil? Eller handler det bare om, at ”den hårdtarbejdende skatteyder”, som politikerne kæmper om at appellere til, er blevet stillet en lettelse af beskatningen på sin arbejdsindkomst i udsigt og nødig ser den spist op af andre skatteforhøjelser?

Det er temmelig uklart. Og som man spørger, får man svar …

Målingerne ramte skævt

Gårsdagens valgresultat vækker næppe professionel begejstring hos landets meningsmålingsinstitutter. Ved valget i 2007 ramte institutterne således noget tættere på resultatet, end tilfældet har været i år.

Her er overblikket over institutternes fejlprocenter*. I tabellen kan du også se fejlprocenter for Berlingske Barometer, Altingets gennemsnit og det uvægtede gennemsnit, som dagligt er blevet præsenteret her på siden.

Gallup kom i år tættest på med en fejlprocent på 2,4. Til sammenligning havde Megafon og Catinét i 2007 fejlprocenter på blot 1,2 og 1,8. Ingen af gennemsnitsmålene kom for alvor tæt på, men de blev dog kun slået af Gallup. Det uvægtede gennemsnit af de seneste 5 målinger viste sig at være mindst lige så retvisende, som Berlingske Barometer og Altingets mere avancerede modeller.

Hvad gik galt? Venstre og SF snød institutterne. Henholdsvis positivt og negativt. Omvendt lykkedes det i år at estimere tilslutningen til Dansk Folkeparti – noget som voldte enkelte institutter store problemer i 2007.

Tidsfaktoren spiller naturligvis en rolle: Der kan ske noget politisk på selve valgdagen, som målingerne ikke når at registrere. Men det er svært at pege på noget konkret ved årets valg. Måske er svaret helt enkelt, at institutterne ikke fik estimeret tvivlerne godt nok.

Hør indslag i Detektor på P1, hvor jeg udtaler mig om, hvordan målingerne ramte.

*Fejlprocent betyder, hvor mange procentpoint, der skal flyttes i en måling for at ramme valgresultatet. fejlprocenten er beregnet som summen (numerisk) af forskellene mellem de enkelte partiers valgresultatet og den enkelte målings estimat af samme. Summen er herefter divideret med to. Summen divideres med to, for at fejl ikke kommer til at tælle dobbelt (hvis et parti estimeres for højt, vil et andet parti jo nødvendigvis estimeres for lavt, når summen skal give 100%). Modellen er udarbejdet af Søren Risbjerg Thomsen, professor og valgekspert, Aarhus Universitet.

Drop enkeltmålingerne

Opdateret 15. september kl. 9:00 (5 målinger fra Gallup, Epinion, Megafon, Voxmeter og Rambøll)

Drop nu enkeltmålingerne og se på nogle gennemsnitsmål over tid i stedet. Nogenlunde sådan har jeg – og mange andre – sagt og skrevet den seneste uge. For hvad skal man stille op med 6 nye daglige meningsmålinger, som stritter indbyrdes?

Berlingske Barometer formidler sådan et dagligt gennemsnit, og dem ville jeg egentlig gerne anbefale. Men jeg ved ikke, hvordan de gør! “En avanceret model ligger til grund for beregningen” – sådan skriver de, på deres hjemmeside. Nogenlunde som ethvert andet analysefirma ville skrive det. Nå nej, Berlingske er jo ikke et analysefirma. Eller er de? Deres fremgangsmåde er under alle omstændigheder en forretningshemmelighed. Læseren må derfor bare stole på, at journalisterne og researchafdelingen er kloge og har ret. Hmm…

Jeg har derfor sat mig for hver dag at formidle et simpelt gennemsnit baseret på de seneste målinger fra 5-6 institutter* med svar indsamlet de seneste 3 dage** (tabellen opdateres dagligt – klik på den for fuld størrelse):


Nu er det simple gennemsnit jo hverken avanceret eller hemmeligt. Men baseret på de første 3 sammenligninger (4.-6.  5.-7.  og 6.-8. september) så rammer det en anelse anderledes end Berlingskes gennemsnit. Hvad kan det skyldes? Formentlig, at Berlingske medtager flere ældre målinger i deres vægtede gennemsnit. Det simple gennemsnit her på siden er i så fald mere følsomt over for dag-til-dag udviklinger.

Men er gennemsnittet så til at stole på? Ja, det lever i hvert fald op til kravene om aktualitet kombineret med mange svar, og det er givetvis bedre end alle de daglige enkeltmålinger. Med en stikprøve på ca. 6000 repræsentativt udvalgte svarpersoner bør gennemsnittet tegne et temmelig retvisende billede. Den matematiske usikkerhed er reduceret til maksimalt 1,3 procentpoint (plus/minus). Tjek selv med beregneren på denne hjemmeside (beregn usikkerhed 1 andel).

Vær opmærksom på, at der dagligt “kun” udskiftes ca. 2000 svarpersoner i de valgte målinger. Det betyder, at dag-til-dag udviklinger mellem blokkene baserer sig på disse 2000 nye svar – og ikke 6000 nye svar.

*Gennemsnittet er baseret på daglige målinger fra typisk Gallup, Epinion, Megafon, Voxmeter, Rambøll og Norstat.

**Svarene er indsamlet over tre dage. Institutterne anvender rullende målinger.

Rullende meningsmålinger og journalistiske fatamorganaer

Meningsmålingsinstitutterne benytter rullende målinger under valgkampen. En rullende måling består typisk af 2/3 svar, som er 1-3 dage gamle, og så 1/3 nye svar. Det betyder, at de målinger, vi præsenteres for som dugfriske og øjebliksbilleder, i virkeligheden for hovedpartens vedkommende består af gamle svar. Derfor ligner de hinanden. Derfor bider forskelle mellem institutterne sig fast. Og derfor er det et journalistisk fatamorgana, når man tror, at politisk spin, nye væksttal eller ny fnidder hos blå blok kan aflæses umiddelbart i de seneste målinger.

Læs hele blogindlægget på DMJXs valgblog

Læs også interview på journalisten.dk om samme

Eller hør indslag på P1-programmet  Detektor fra 7. september