выборы и опросы
Интересно, как так получилось, что опросы и рынки попали впросак с этими выборами, так же, как и с Брекзитом.
Общенациональные опросы не так уж сильно промахнулись. Клинтон выиграла по голосам (избирателей, но не выборщиков) примерно на 1%, последние опросы ей давали преимущество в 3%-4%. В 2012 общенациональные опросы недооценили долю голосов Обамы на 3% с лишним, так что ошибка в 2016 даже чуть пониже.
Ошибка же произошла на на двух других этапах - на предсказаниях для ключевых штатов и на конвертации статистики опросов в вероятности побед. Вот интересная предвыборная статья в NYT с аггрегацией последних предсказаний основных публичных фирм. Они все давали смехотворно высокую вероятность победы Клинтон:

Вероятность победы на выборах складывается из вероятности победы в каждом штате, поэтому все эти предсказатели аггрегировали свои предсказания по штатам. Ошибка опроса для каждого штата по сравнению с выборами складывается из нескольких компонент:
1) статистическая ошибка выборки (шум),
2) изменение предпочтений со временем (нестационарность)
3) сдвиг выборки по сравнению с голосующим населением,
4) корреляция отказа от ответа/вранья в ответе с предпочтениями
5) корреляция изменений в явке по сравнению с опросом с предпочтениями
Имея данные опросов, предсказатели могут попробовать прикинуть вероятного победителя и неопределенность прогноза и получить из них вероятность выигрыша каждого кандидата. На этих выборах все сделали ошибку дискриминации (т.е. победителя), но это по одному наблюдению еще мало о чем говорит. Куда более серьезна ошибка калибрации, то есть, зашаливающая степень уверенности многих прогнозистов в своем прогнозе, у всех, кром 538.com куда более высокая, чем у (тоже ошибшихся с дискриминацией) рынков предсказаний.
1) Первая проблема решается большим количеством опросов, хотя это решение иногда вступает в противоречие с контролем второй проблемы. Все основные публичные предсказатели активно занимались мета-анализом многих опросов, по-разному их взвешивая, так что дело не в первой проблеме. Кроме того, ошибки этой природы были бы некоррелированы между разными опросами и разными штатами. Неопределенность, создаваемая этой проблемой, тривиально моделируется математически.
2) Судя по тому, что ранние exit polls промахнулись примерно на столько же, насколько последние опросы, вторая проблема невелика. Неопределенность, ей создаваемая, вобщем, моделируется математически, хотя это и можно делать по-разному разными предположениями про динамику временных рядов.
Почти все пресказатели для калибрации вероятностей ограничились этими двумя источниками ошибок.
3) Третья проблема довольно фундаментальная - опросы обзвоном по фиксированным линиям давно дают сильно смещенную выборку, добавление мобильных номеров немного помогает, но создает новые смещения. Сделать хорошую репрезентативную выборку, если хотеть, можно, но это будет небыстро и недешево. Возможно, обедневшие медиа не могли себе позволить качественные выборки во всех ключевых штатах. Кроме публичных опросов, были еще закрытые опросы, проводившиеся по заказу обеих кампаний и нескольких крупных институциональных инвесторов. Какие были результаты у этих опросов, мне неизвестно. Однако, мне кажется, что, как минимум, кампания Клинтон имела куда более адекватную картинку, чем СМИ. Они интенсифицировали в последние дни кампанию в штатах, которые многие предсказатели считали их с вероятностями за 95% и отменили Нью Йорский победный салют еще в понедельник. Крупные же инвесторы, по моим ощущениям, преимущественной информации не имели. Самые разные рынки полихорадило (и еще будет лихорадить) на победе Трампа, но для большинства активов влияние Трампа неочевидно. Я думаю, что если бы у крупного макро фонда была бы непубличная информация из частных опросов про исход выборов, то самым логичным было бы за день другой до выборов шортить мексиканский песо. Этого в крупных масштабах не происходило. Дополнительная сложность с частными опросами - это то, что для устранения первой проблемы выборок нужно иметь выборку, бьющую совокупную выборку многих публичных опросов, а не выборку каждого из них.
Стандартный статистический прием для уменьшения первой и третьей проблем - стратифицированная выборка, когда опрашивается меньше избирателей, про которых и так все очевидно, и больше избирателей, чей выбор неясен, а потом результаты перевзвешиваются в соответствии с долей каждой группы в населении (или в явке на выборы.) Разумеется, если забыть перевзвесить, то третья проблема стратификацией радикально усугубляется. В некоторых вполне уважаемых опросах, поразительным образом, перевзвешивание заведомо перекошенной выборки не производилось. Например, типичный опрос ABC news указывает в примечаниях "Results have a margin of sampling error of 3.5 points, including the design effect. Partisan divisions are 36-27-31 percent, Democrats-Republicans-independent". Немного света на стратификацию проливает утекший е-мейл Подесты, главы кампании Клинтон. Из других его е-мейлов видно, что он имел огромное влияние на освещение выборов почти всеми основными СМИ. Первое ощущение - что обсуждается стратификация закрытых опросов по заказу кампании. Однако, непонятно, почему Podesta требует "over-sample Hispanics", когда, казалось бы, с Трампом борьба идет не столько за них, сколько за белый рабочий класс. Завершается все это фразой "I want to get this all compiled into one set of recommendations so we can maximize what we get out of our media polling." Вот это слово "media" я не могу объяснить никак, кроме как тем, что эти рекомендации не для закрытых опросов, а для публичных и Подеста хочет манипулировать ими, создавая видимость преимущества. Так что, возможно, публичные опросы были настолько плохи из-за намеренно введенной ошибки третьего типа. Это же объясняет, почему сама кампания Клинтон не была введена в заблуждение публичными опросами. Неопределенность этой ошибки математически моделировать трудно (и невозможно если она введена намеренно.)
4) Четвертая проблема была еще большей проблемой в опросах в Британии про Брекзит, поскольку люди стеснялись признаваться в контр-системном выборе. Если масштаб искажения был сравним с британскими 3%-4%, то этого одного достаточно для объяснения ошибки опросов на общенациональном уровне и во многих штатах. Эта ошибка, а также создаваемая ей неопределенность, очень важны при переходе от результатов опросов к вероятности победы кандидата. Поразительным образом, почти все предсказатели не просто предположили, что эта ошибка имеет нулевое среднее, но еще и предположили нулевую вариацию! Это и сделало их предсказания такими уверенными. Из пресказаний по штатам понятно, что ошибка предсказателей была не только в дискриминации (то есть, различении, кто победит в каком штате), но в калибрации, когда, например, взятые Трампом Мичиган и Пеннсильвания предсказывались демократическими с вероятностью 99% и Huffington Post и DailyKos, и они же давали около 90% вероятности для Клинтон выиграть в проигранных ей Флориде и Айове. Эта ошибка калибрации мне кажется гораздо более позорной, чем ошибка в 2%-4% в дискриминации. Она настолько очевидна, что трудно поверить в то, что она была сделана ненамеренно. По интересному совпадению, про главу Huffington Post в тех же е-мейлах Подесты написано "She is enthusiastic abt the project but asks if she's more useful to us not being on the Board and, instead, using Huffpo to echo our message without any perceived conflicts. She has a point."
5) эта ошибка, как и вторая, не влияет на exit polls, так что вряд ли велика. Конечно, то, что расследование ФБР то закапывали, то откапывали так поздно в кампании, могли повлиять и на эту ошибку и на вторую.
***
Какой же мой вывод из этой простыни текста? Вывод про прошедшие выборы был интересен три дня назад. Сейчас куда важнее наблюдения про СМИ и экспертов.
Общенациональные опросы не так уж сильно промахнулись. Клинтон выиграла по голосам (избирателей, но не выборщиков) примерно на 1%, последние опросы ей давали преимущество в 3%-4%. В 2012 общенациональные опросы недооценили долю голосов Обамы на 3% с лишним, так что ошибка в 2016 даже чуть пониже.
Ошибка же произошла на на двух других этапах - на предсказаниях для ключевых штатов и на конвертации статистики опросов в вероятности побед. Вот интересная предвыборная статья в NYT с аггрегацией последних предсказаний основных публичных фирм. Они все давали смехотворно высокую вероятность победы Клинтон:

Вероятность победы на выборах складывается из вероятности победы в каждом штате, поэтому все эти предсказатели аггрегировали свои предсказания по штатам. Ошибка опроса для каждого штата по сравнению с выборами складывается из нескольких компонент:
1) статистическая ошибка выборки (шум),
2) изменение предпочтений со временем (нестационарность)
3) сдвиг выборки по сравнению с голосующим населением,
4) корреляция отказа от ответа/вранья в ответе с предпочтениями
5) корреляция изменений в явке по сравнению с опросом с предпочтениями
Имея данные опросов, предсказатели могут попробовать прикинуть вероятного победителя и неопределенность прогноза и получить из них вероятность выигрыша каждого кандидата. На этих выборах все сделали ошибку дискриминации (т.е. победителя), но это по одному наблюдению еще мало о чем говорит. Куда более серьезна ошибка калибрации, то есть, зашаливающая степень уверенности многих прогнозистов в своем прогнозе, у всех, кром 538.com куда более высокая, чем у (тоже ошибшихся с дискриминацией) рынков предсказаний.
1) Первая проблема решается большим количеством опросов, хотя это решение иногда вступает в противоречие с контролем второй проблемы. Все основные публичные предсказатели активно занимались мета-анализом многих опросов, по-разному их взвешивая, так что дело не в первой проблеме. Кроме того, ошибки этой природы были бы некоррелированы между разными опросами и разными штатами. Неопределенность, создаваемая этой проблемой, тривиально моделируется математически.
2) Судя по тому, что ранние exit polls промахнулись примерно на столько же, насколько последние опросы, вторая проблема невелика. Неопределенность, ей создаваемая, вобщем, моделируется математически, хотя это и можно делать по-разному разными предположениями про динамику временных рядов.
Почти все пресказатели для калибрации вероятностей ограничились этими двумя источниками ошибок.
3) Третья проблема довольно фундаментальная - опросы обзвоном по фиксированным линиям давно дают сильно смещенную выборку, добавление мобильных номеров немного помогает, но создает новые смещения. Сделать хорошую репрезентативную выборку, если хотеть, можно, но это будет небыстро и недешево. Возможно, обедневшие медиа не могли себе позволить качественные выборки во всех ключевых штатах. Кроме публичных опросов, были еще закрытые опросы, проводившиеся по заказу обеих кампаний и нескольких крупных институциональных инвесторов. Какие были результаты у этих опросов, мне неизвестно. Однако, мне кажется, что, как минимум, кампания Клинтон имела куда более адекватную картинку, чем СМИ. Они интенсифицировали в последние дни кампанию в штатах, которые многие предсказатели считали их с вероятностями за 95% и отменили Нью Йорский победный салют еще в понедельник. Крупные же инвесторы, по моим ощущениям, преимущественной информации не имели. Самые разные рынки полихорадило (и еще будет лихорадить) на победе Трампа, но для большинства активов влияние Трампа неочевидно. Я думаю, что если бы у крупного макро фонда была бы непубличная информация из частных опросов про исход выборов, то самым логичным было бы за день другой до выборов шортить мексиканский песо. Этого в крупных масштабах не происходило. Дополнительная сложность с частными опросами - это то, что для устранения первой проблемы выборок нужно иметь выборку, бьющую совокупную выборку многих публичных опросов, а не выборку каждого из них.

Стандартный статистический прием для уменьшения первой и третьей проблем - стратифицированная выборка, когда опрашивается меньше избирателей, про которых и так все очевидно, и больше избирателей, чей выбор неясен, а потом результаты перевзвешиваются в соответствии с долей каждой группы в населении (или в явке на выборы.) Разумеется, если забыть перевзвесить, то третья проблема стратификацией радикально усугубляется. В некоторых вполне уважаемых опросах, поразительным образом, перевзвешивание заведомо перекошенной выборки не производилось. Например, типичный опрос ABC news указывает в примечаниях "Results have a margin of sampling error of 3.5 points, including the design effect. Partisan divisions are 36-27-31 percent, Democrats-Republicans-independent". Немного света на стратификацию проливает утекший е-мейл Подесты, главы кампании Клинтон. Из других его е-мейлов видно, что он имел огромное влияние на освещение выборов почти всеми основными СМИ. Первое ощущение - что обсуждается стратификация закрытых опросов по заказу кампании. Однако, непонятно, почему Podesta требует "over-sample Hispanics", когда, казалось бы, с Трампом борьба идет не столько за них, сколько за белый рабочий класс. Завершается все это фразой "I want to get this all compiled into one set of recommendations so we can maximize what we get out of our media polling." Вот это слово "media" я не могу объяснить никак, кроме как тем, что эти рекомендации не для закрытых опросов, а для публичных и Подеста хочет манипулировать ими, создавая видимость преимущества. Так что, возможно, публичные опросы были настолько плохи из-за намеренно введенной ошибки третьего типа. Это же объясняет, почему сама кампания Клинтон не была введена в заблуждение публичными опросами. Неопределенность этой ошибки математически моделировать трудно (и невозможно если она введена намеренно.)
4) Четвертая проблема была еще большей проблемой в опросах в Британии про Брекзит, поскольку люди стеснялись признаваться в контр-системном выборе. Если масштаб искажения был сравним с британскими 3%-4%, то этого одного достаточно для объяснения ошибки опросов на общенациональном уровне и во многих штатах. Эта ошибка, а также создаваемая ей неопределенность, очень важны при переходе от результатов опросов к вероятности победы кандидата. Поразительным образом, почти все предсказатели не просто предположили, что эта ошибка имеет нулевое среднее, но еще и предположили нулевую вариацию! Это и сделало их предсказания такими уверенными. Из пресказаний по штатам понятно, что ошибка предсказателей была не только в дискриминации (то есть, различении, кто победит в каком штате), но в калибрации, когда, например, взятые Трампом Мичиган и Пеннсильвания предсказывались демократическими с вероятностью 99% и Huffington Post и DailyKos, и они же давали около 90% вероятности для Клинтон выиграть в проигранных ей Флориде и Айове. Эта ошибка калибрации мне кажется гораздо более позорной, чем ошибка в 2%-4% в дискриминации. Она настолько очевидна, что трудно поверить в то, что она была сделана ненамеренно. По интересному совпадению, про главу Huffington Post в тех же е-мейлах Подесты написано "She is enthusiastic abt the project but asks if she's more useful to us not being on the Board and, instead, using Huffpo to echo our message without any perceived conflicts. She has a point."
5) эта ошибка, как и вторая, не влияет на exit polls, так что вряд ли велика. Конечно, то, что расследование ФБР то закапывали, то откапывали так поздно в кампании, могли повлиять и на эту ошибку и на вторую.
***
Какой же мой вывод из этой простыни текста? Вывод про прошедшие выборы был интересен три дня назад. Сейчас куда важнее наблюдения про СМИ и экспертов.
no subject
no subject
no subject
no subject
no subject
no subject
no subject
no subject
no subject
Вот что меня 'човърка' , ето то, что в принципе динамика в целом правилная и верная,
достаточно посмотреть на первий график в стате НЙТ - так и есть, если вибори били
23-26 октября, то Клинтон била би первой Президенткой ). Но там, начиная с 26-ого сентебря
разрив слишком великий * и 85-15 на вечер 7-ого ноября полностю нереалний.
* чисто спекулативно, если б он бил насколко большой , то и в ленту холивудскую Трампа они не нуждались би,
так что и 70-30 на начало октября тоже достаточно сомнительно.
no subject
no subject
вот это вряд ли. публичное признание угрожающего положения с огромной вероятностью спасло бы Клинтон. думаю что достаточно много людей не верили, что Трамп имеет шансы. от этого было сразу две беды: некоторые голосовали за него как бы показывая фигу в сторону Вашингтона, другие не видели причин беспокоится и идти голосовать за неприятную им Клинтон
no subject
no subject
no subject
no subject
Data are adjusted to account for the greater probability of respondents who have both a cell and landline phone, compared with those who are cell-only or landline-only. The data then are weighted using demographic information from the U.S. Census and NHIS to adjust for variance from population values. Weights may include average partisan self-identification in current and recent ABC/Post data, based on a standardized rule.
no subject
no subject
no subject
no subject
no subject
no subject
http://www.gallup.com/poll/15370/party-affiliation.aspx
no subject
no subject
Насчет отмены салюта и изменения поведения кампании Хиллари в последние дни перед выборами - действительно намекает на то что у них были гораздо более реалистичные данные. Собственно - часто очень интересно (и полезно) ретроспективно оценить действия сторон уже в свете фактов которые стали известны потом. Это позволяет выявить некоторые скрытые пружины и осведомленность действующих лиц просто по факту их действий - а действия подделать очень трудно.
С этой же точки зрения интересно посмотреть на массовую и абсолютно истеричную кампанию СМИ последние месяцы перед выборами. Во-первых это более чем явно выявило с кем 90% СМИ аффилированны, но кроме того проигрыш Хиллари с разгромным счетом заставляет задуматься что возможно кампания Хиллари уже давно знала что шансы у них аховые, и просто надеялись переломить ситуацию массовой пропагандой в стиле КисельТВ. Иначе трудно обьяснить зачем/почему они так бездумно сожгли репутацию очень многих СМИ - им ведь теперь годами отмываться придется.
no subject