Как выявляются статистические аномалии в официальных результатах голосования

: Экспертное мнение; 20 мая 2018

Как выявляются статистические аномалии в официальных результатах голосования

Как выявляются статистические аномалии в официальных результатах голосования, наблюдались ли такие аномалии на президентских выборах 2018 года, отличались ли они от предыдущих электоральных кампаний – в интервью с Борисом Овчинниковым, независимым экспертом, специалистом по электоральной статистике.

Борис, как выявляются статистические аномалии в официальных результатах голосования? Какие есть виды аномалий и методы их выявления?

Я для себя делю различные методы диагностики фальсификаций на три или четыре класса.
1. Доказательства фальсификаций (к доказательствам я отношу те подходы, результаты которых можно проверить через p-value). Это:
1.1. «борода Чурова» или «пики Путина» - т.е. аномально большое количество участков, на которых явка или голосование за власть равняется (при округлении до десятых процента) скажем 75,0%, 80,0%, 85,0%, 91,0% и т.д.
1.2. распределение по последней цифре – повышенная частота чисел, заканчивающихся на 0 или 5, в протоколах участковых комиссий – в первую очередь в столбцах количества обнаруженных бюллетеней, количества действительных бюллетеней, количества голосов за власть
1.3. аномальная концентрация результатов на участках одного ТИКа или одного города в определенном очень узком диапазоне значений. Самый известный пример – 62,2% за Единую Россию более чем на сотне участков Саратова в 2016 году.

Наличие любой из указанных выше аномалий – это по сути доказательство наличия фальсификаций, притом не единичных, а затрагивающих многие участки (обратное не верно: если подобных аномалий нет, это еще не доказательство честного подсчета голосов; многие варианты фальсификаций не дают таких аномалий). Стоит отметить, что вышеназванная аномалии говорят о наличии фальсификаций в самой грубой форме – когда речь идет не об искажении реальных результатов голосования вбросами или припиской виртуальных голосов, а о внесении в протоколы и/или ГАС Выборы выдуманных, фиктивных чисел, которые могут быть вообще не связаны с реальными результатами голосования на участке.

2. Методы оценки масштаба фальсификаций. Существующие методы основаны на том, что выявляется группа избирательных участков с «нормальным» (типичным, соответствующим теоретическим представлениям, укладывающимся в статистические паттерны) поведением и их характеристики экстраполируются на «аномальный» хвост
2.1. Модель Шпилькина. Наверное, самый известный подход. В его основе – построение распределения голосов «за власть» и «за оппозицию» по интервалам явки (как правило, по однопроцентным бинам). Предполагается, что левая часть этого распределения показывает истинное соотношение голосов «за власть» и «за оппозицию», а правое «плечо» распределения, точнее разница между площадью этого плеча в распределениях «за власть» и «за оппозицию», показывает объем фальсификаций. Примечательно, что левая часть обоих распределений (а в случае отсутствия заметных фальсификаций – оба распределения целиком) почти всегда получается колоколообразной – но это не значит, что колоколообразность заложена в модель, на честных данных она получается сама собой
2.2. Выявление центра (центроида) «первого» кластера. По сути упрощенная версия модели Шпилькина – все участки отрисовываются в координатах «явка – голосование за партию власти», что как правило позволяет визуально увидеть плотное «облако» участков с предположительно настоящими результатами. Далее на глаз или с применением математических алгоритмов определяются типичные или средние характеристики для участков в этом «облаке» - которые экстраполируются на остальные участки
2.3. Модель Мятлева. Аналог модели Шпилькина, только вместо соотношения голосов за власть и за остальных кандидатов при разных уровнях явки здесь анализируется соотношение голосов за власть и недействительных бюллетеней. Предполагается, что люди ошибаются при заполнении избирательного бюллетеня примерно с одинаковой частотой, и что доля недействительных бюллетеней не должна меняться или не должна существенно меняться в зависимости от явки. Важно, что модели Шпилькина и Мятлева дают близкие, согласующиеся друг с другом оценки масштабов фальсификаций – как и похожие «рейтинги» регионов по уровню фальсификаций.

3. Диагностические модели. Это широкий класс подходов, которые не дают статистически сильных доказательств фальсификаций, не дают напрямую оценок масштабов фальсификаций, но при этом вполне работают как способ описания географии фальсификаций и как дополнительные аргументы в, подкрепляющие утверждение о наличии масштабных фальсификаций. Этот класс включает большое количество подходов, большинство из которых пока слабо разработано, а то и вовсе не разработано. Я ограничусь обозначением основных возможностей
3.1. Сравнительный (по регионам, городам, ТИКам) анализ дисперсий результатов голосования (а также анализ статистики моментов следующих порядков – коэффициентов асимметрии и эксцесса)
3.2. Анализ устойчивости корреляционных отношений при изменении диапазона учитываемых значений (например, для многих городов, в т.ч. для Москвы в 2007-2011 годах и в 2016 году, наблюдался феномен, когда корреляция между явкой и голосованием за Единую Россию имеет отрицательную корреляцию при учете участков в диапазоне от низкой явки до явки умеренно выше моды, и меняет знак на положительный при учете участков с аномально высокой (но существенно меньше 100%) явкой)
3.3. Аномальные соотношения между результатами кандидатов одной части политического спектра – например, нулевое количество голосов за Парнас при заметном (десятки и сотни голосов) результате Яблока, многократная разница в результатах Собчак и Явлинского или результат КПРФ (кандидата КПРФ) ниже результата «Коммунистов России» на том же участке
3.4. Анализ преемственности результатов голосования (сравнение результатов голосований разных лет)
3.5. Сравнение «контролируемых» и неконтролируемых подвыборок участков. «Контролируемая» выборка – это могут быть участки с наблюдателями, или участки с контролем явки через записи видеонаблюдения, или участки с КОИБами. При этом такие сравнения позволяют лишь получить дополнительный аргумент за или против версии о фальсификации, но не работают для определения «истинных» результатов – и потому, что сложно квантифицировать эффект смещения выборки, и потому, что как правило нельзя быть уверенным в отсутствии фальсификаций внутри подвыборки «контролируемых» участков
3.6. Анализ корреляций между размером избирательного участка и размером населенного пункта, с одной стороны, и электоральными параметрами, с другой стороны
4. «Технические» подходы. Речь идет об аномалиях в избирательных протоколах и других данных участковых комиссий, которые могут быть не связаны с электоральными предпочтениями
4.1. Аномальный процент надомного голосования (за исключением участков, объединяющих несколько населенных пунктов, и участков, включающих больницы, дома престарелых и т.п.)
4.2. Аномальное распределение явки по времени суток (согласно данным по промежуточной явке)
4.3. Нулевое количество недействительных бюллетеней на больших (минимум несколько сотен проголосовавших) участках
4.4. Большие расхождения между количеством выданных и количеством обнаруженных бюллетеней (напрямую обилие якобы унесенных бюллетеней не говорит о фальсификации – а говорит всего лишь об ошибках при подсчете бюллетеней или заполнении протокола; но повышенная доля таких ошибок в пределах города или района могут свидетельствовать о массовом несоблюдении процедур подсчета голосов на участках или даже о массовом переписывании протоколов на уровне ТИКа)
4.5. Явные ошибки в протоколах – как, например, «сдвиг» результатов по нескольким партиям, когда наибольшее число голосов записывается не основным партиям, а партиям, стоящим прямо перед ними или сразу после них в бюллетенях и протоколах
4.6. Несовпадение данных по одновременно проводившимся голосованиям (например, голосование по спискам и в одномандатном округе на выборах в Госдуму, или голосование на федеральных выборах и совмещенных с ними региональных выборах). Примерами таких несовпадений может быть большое расхождение между двумя протоколами в количестве выданных бюллетеней или в количестве голосов за одну и ту же партию скажем на выборах в Госдуму и одновременных выборах в региональное собрание)

Наблюдались ли такие аномалии на президентских выборах 2018 года? Отличались ли они от предыдущих электоральных кампаний?

Да, наблюдались. Так или иначе наблюдались, пожалуй, все аномалии, перечисленные выше. Конечно, не во всех регионах – но и не в одном-двух. При этом есть и изменения:
• После громкого скандала вокруг 62,2% в Саратове в 2016 г., сейчас резко сократилось количество подобных аномалий (когда по многим участкам в одном городе получаются очень похожие результаты)
• Фальсификации, а, следовательно, и порождаемые ими аномалии, перераспределились в сторону небольших городов и сельских районов, тогда как в областных центрах аномалий стало меньше
• Выросла доля аномалий, связанных с показателями явки, и снизилась доля аномалий, связанных с показателями кандидата власти. Если раньше основной целью фальсификаций была максимизация процента голосов за, то теперь фокус сместился на максимизацию процента явки

Есть ли какие-то универсальные признаки, которые позволяют с достаточной степенью надежности оценить, были значимые фальсификации в том или ином регионе, городе, районе или нет? Как определить, что подсчет голосов был честным?

Универсальных признаков, к сожалению, нет. Фальсификации сильно варьируются и по методам, и по масштабам, и по универсальности (доли участков, например, в пределах ТИК, которые ими затронуты). Разная комбинация параметров фальсификаций даст разные статистические эффекты в официальных результатах голосования.

Если ограничивать задачу рамками города или района внутри города, то осторожно уже можно говорить о наличии более-менее универсальных индикаторов. Все-таки город в России (как и в целом на постсоветском пространстве) – это достаточно однородная структура. Применительно к электоральной статистике однородность (статистически - небольшая дисперсия с колоколообразным характером ее распределения относительно среднего) – это не только эмпирическое наблюдение, но и (по крайней мере, на мой взгляд) теоретически обосновываемая модель: результат голосования на каждом избирательном участке – это сумма сотен и даже тысяч индивидуальных выборов, а каждый индивидуальный выбор зависит от сотен факторов – из которых лишь часть имеет четкую пространственную локализацию; в этих условиях вероятность того, что избирательный участок будет «сильно» отличаться по результатам голосования от среднегородской «нормы», куда меньше, чем вероятность «небольшого» отклонения.

Исходя и из теоретических предпосылок, и из эмпирических «наблюдений» за статистикой голосований в городах, по которым наблюдение на участках в день выборов не дает сигналов о массовых фальсификациях, можно выделить следующие признаки наличия фальсификаций:

- большая дисперсия результатов между участками (вопрос, какая именно дисперсия является подозрительно большой, можно решать путем сравнения величины дисперсии в разных городах в рамках одного и того же голосования)
- наличие двух или более «кластеров» участков по явке и/или голосованию за партию власти (когда на гистограммах видно несколько пиков вместо типичной для честного подсчета голосов унимодальности, а на скатерплоте «явка - % власти» видно несколько «облаков» с повышенной плотностью участков)
- аномально низкие (по сравнению с типичным для данного города уровнем) проценты какой-либо партии или кандидата («аномальность» можно считать через сравнение (а) разницы между результатом партии на участке и ее медианного результата по городу и (б) медианного отклонения (по модулю) результатов партии на отдельных участках от медианного результата по городу; например, если медианный результат партии 8%, медианное отклонение от него 2%, т.е. половина участков укладываются в диапазон 6-10%, а на конкретном участке у партии всего 2,5%, это аномалия)
- положительная корреляция между явкой и результатом партии власти
- отсутствие корреляции между результатами по участкам на одних выборах и на других выборах (например, между явкой на одних выборах и на других выборах, или между результатом партии власти на одних выборах и на других выборах). Как вариант – корреляция между двумя голосованиями может присутствовать, но при этом видна группа участков, для которых динамика электорального поведения (судя по официальным результатам) существенно отличается от типичной для данного города
(важный технический момент – наличие всех вышеуказанных аномалий лучше проверять на очищенном массиве участков, из которого для чистоты эксперимента правильно исключать спецучастки – больницы и СИЗО - и маленькие участки с количеством избирателей менее 500-1000 человек)

Какие инструменты имеются в распоряжении гражданского общества для того, чтобы добиваться максимальной прозрачности избирательного процесса?

Не готов говорить про весь избирательный процесс (и пользуясь поводом, напомню, что исключение фальсификаций – это лишь небольшая часть общей задачи обеспечения честных выборов). Скажу только про те элементы, которые напрямую связаны с фальсификациями и противодействием им.

Ситуация двойственная. С точки зрения правил и механизмов, избирательный процесс в России, особенно в части подсчета голосов, достаточно прозрачен и формально защищен – есть гарантии участия всех ведущих политических партий в работе избирательных комиссий, есть детально прописанная процедура подсчета голосов, есть публикация результатов голосований с детализацией до участков, есть даже видеонаблюдение.

Однако все эти правила и механизмы не дают и не могут дать эффективной защиты от фальсификаций до тех пор, пока вышестоящие избирательные комиссии и судебные органы в подавляющем большинстве случаев отказывают в жалобах на фальсификации, отказывают в пересчете голосов и других проверках, отказывают в отмене результатов голосования на отдельных участках. И тем более пока фальсификаторы остаются безнаказанными – или получают символическое наказание.

В этой ситуации остается руководствоваться принципом «вода камень точит». Наблюдение на выборах (в т.ч. на уровне территориальных избирательных комиссий), политическое давление до и во время избирательных кампаний для допуска сильных оппозиционных кандидатов, популяризация результатов статистического анализа выборов не могут дать одномоментные результаты – но чем больше мы этим занимаемся, тем ограниченнее возможности фальсификаторов.

Экспертное мнение

Как выявляются статистические аномалии в официальных результатах голосования

Поиск