выборы и опросы
Nov. 10th, 2016 01:36 pmИнтересно, как так получилось, что опросы и рынки попали впросак с этими выборами, так же, как и с Брекзитом.
Общенациональные опросы не так уж сильно промахнулись. Клинтон выиграла по голосам (избирателей, но не выборщиков) примерно на 1%, последние опросы ей давали преимущество в 3%-4%. В 2012 общенациональные опросы недооценили долю голосов Обамы на 3% с лишним, так что ошибка в 2016 даже чуть пониже.
Ошибка же произошла на на двух других этапах - на предсказаниях для ключевых штатов и на конвертации статистики опросов в вероятности побед. Вот интересная предвыборная статья в NYT с аггрегацией последних предсказаний основных публичных фирм. Они все давали смехотворно высокую вероятность победы Клинтон:

Вероятность победы на выборах складывается из вероятности победы в каждом штате, поэтому все эти предсказатели аггрегировали свои предсказания по штатам. Ошибка опроса для каждого штата по сравнению с выборами складывается из нескольких компонент:
1) статистическая ошибка выборки (шум),
2) изменение предпочтений со временем (нестационарность)
3) сдвиг выборки по сравнению с голосующим населением,
4) корреляция отказа от ответа/вранья в ответе с предпочтениями
5) корреляция изменений в явке по сравнению с опросом с предпочтениями
( statistics, market impact, and wikileaks )
***
Какой же мой вывод из этой простыни текста? Вывод про прошедшие выборы был интересен три дня назад. Сейчас куда важнее наблюдения про СМИ и экспертов.
Общенациональные опросы не так уж сильно промахнулись. Клинтон выиграла по голосам (избирателей, но не выборщиков) примерно на 1%, последние опросы ей давали преимущество в 3%-4%. В 2012 общенациональные опросы недооценили долю голосов Обамы на 3% с лишним, так что ошибка в 2016 даже чуть пониже.
Ошибка же произошла на на двух других этапах - на предсказаниях для ключевых штатов и на конвертации статистики опросов в вероятности побед. Вот интересная предвыборная статья в NYT с аггрегацией последних предсказаний основных публичных фирм. Они все давали смехотворно высокую вероятность победы Клинтон:

Вероятность победы на выборах складывается из вероятности победы в каждом штате, поэтому все эти предсказатели аггрегировали свои предсказания по штатам. Ошибка опроса для каждого штата по сравнению с выборами складывается из нескольких компонент:
1) статистическая ошибка выборки (шум),
2) изменение предпочтений со временем (нестационарность)
3) сдвиг выборки по сравнению с голосующим населением,
4) корреляция отказа от ответа/вранья в ответе с предпочтениями
5) корреляция изменений в явке по сравнению с опросом с предпочтениями
( statistics, market impact, and wikileaks )
***
Какой же мой вывод из этой простыни текста? Вывод про прошедшие выборы был интересен три дня назад. Сейчас куда важнее наблюдения про СМИ и экспертов.