mi_b: (child pic)
Известный статистик Andrew Gelman, много занимающийся приложениями статистики к социальным наукам, в своем блоге описывал работу над open source статистическим анализатором опросов. Перед самыми выборами его модель давала 90% вероятность победы Клинтон (в середине когорты предсказателей.)

Он написал несколько постов, анализирующих его и других ошибки. Вот этот пост примерно совпадает, с тем, что я написал (без викиликс и конспирологии.)

А другой пост напоминает мне 2009 год: In retrospect, a key mistake in the forecast updating that Kremp and I did, was that we ignored the correlation in the partial information from early-voting tallies. Our model had correlations between state-level forecasting errors (but maybe the corrs we used were still too low, hence giving us illusory precision in our national estimates), but we did not include any correlations at all in the errors from the early-voting estimates.

Корреляцию систематической ошибки опросов между разными штатами они предположили 70% между каждой парой и переживали, что высоковато. А вот корреляцию между отклонением результатов раннего голосования в разных штатах от полного голосования они предположили равной 0! Это, конечно, совсем удивительно - в первом приближении, раннее голосование отличается от полного на две компоненты - корреляция предпочтения с ранним голосованием и тренд популярности за время между ранним голосованием и выборами. Какая должна быть корреляция у первой компоненты по штатам я не знаю, но непонятно, почему ниже корреляции ошибки опросов по тем же штатам. А вот вторая компонента должна иметь корреляцию между штатами близкой к 1 - всякие новости про ФБР и прочие сюрпризы вполне общенациональны. Так что корреляции ошибок раннего голосования по штатам должна быть куда ближе к 1, чем к 0.

А 2009 год это напоминает потому что MBS CDO так неожиданно рухнули как раз потому, что до-кризисные модели их цены часто преполагали нулевую корреляцию между изменениями цен на недвижимость в разных регионах, что делало почти невозможными потери по старшим траншам. Забавно что как раз Гельман прекрасно в курсе этой проблемы и даже написал пару лет назад статью про коррелированные ошибки.

А вот работа над ошибками от самого осторожного из публичных предсказателей, давшего Трампу аж 29% шанс выиграть. Кажется, это единственный публичный прогноз, который был менее оптимистичен про Клинтон, чем рынки предсказаний (рынки давали около 18% за день до выборов.)
mi_b: (child pic)
Интересно, как так получилось, что опросы и рынки попали впросак с этими выборами, так же, как и с Брекзитом.

Общенациональные опросы не так уж сильно промахнулись. Клинтон выиграла по голосам (избирателей, но не выборщиков) примерно на 1%, последние опросы ей давали преимущество в 3%-4%. В 2012 общенациональные опросы недооценили долю голосов Обамы на 3% с лишним, так что ошибка в 2016 даже чуть пониже.

Ошибка же произошла на на двух других этапах - на предсказаниях для ключевых штатов и на конвертации статистики опросов в вероятности побед. Вот интересная предвыборная статья в NYT с аггрегацией последних предсказаний основных публичных фирм. Они все давали смехотворно высокую вероятность победы Клинтон:

trump1.png

Вероятность победы на выборах складывается из вероятности победы в каждом штате, поэтому все эти предсказатели аггрегировали свои предсказания по штатам. Ошибка опроса для каждого штата по сравнению с выборами складывается из нескольких компонент:
1) статистическая ошибка выборки (шум),
2) изменение предпочтений со временем (нестационарность)
3) сдвиг выборки по сравнению с голосующим населением,
4) корреляция отказа от ответа/вранья в ответе с предпочтениями
5) корреляция изменений в явке по сравнению с опросом с предпочтениями
statistics, market impact, and wikileaks )
***
Какой же мой вывод из этой простыни текста? Вывод про прошедшие выборы был интересен три дня назад. Сейчас куда важнее наблюдения про СМИ и экспертов.

April 2017

S M T W T F S
      1
2345 678
9101112131415
16171819202122
23242526272829
30      

Syndicate

RSS Atom

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 25th, 2017 09:52 am
Powered by Dreamwidth Studios