Корреляции, Гаусс, Бенфорд и все-все-все. Анализ методов оценки достоверности результатов выборов

1 марта 2012

Время чтения 12 мин

Изучению методов статистического анализа результатов голосования в преддверии предстоящих выборов президента РФ посвящена статья "Корреляции, Гаусс, Бенфорд и все-все-все" портала eruditor.ru. Как отмечает автор статьи, большинство популярных мнений о статистических свидетельствах фальсификаций результатов выборов являются либо грубыми математическими и логическими ошибками, либо чьими-то спланированными манипуляцими. Публикация ставит целью до начала выборов подготовить весь возможный арсенал статистических исследований будущих результатов с тем, чтобы не допустить ошибок и манипуляций, а последовательно применить уже проверенные математические методы. Взамен ошибочных и неточных автор предлагает несколько других, гораздо, по их мнению, более корректных и научно обоснованных методов оценки достоверности результатов выборов и пытаются разобраться, какие статистические эффекты в результатах голосований действительно являются свидетельством "вмешательства сверху", а какие объяснимы без привлечения потусторонней силы.

Одним из самых популярных объектов поиска аномалий является график распределения числа участков в зависимости от процента голосов за партию (либо от процента явки). По мнению экспертов, обвиняющих ЦИК в фальсификации, этот график должен иметь ровную симметричную форму "колокола" (распределение Гаусса). Автор статьи полагает, что это утверждение не всегда верно. Если бы людей приписывали к случайно выбранным участкам - тогда да, был бы чёткий гаусс. Но раз участки выбираются не случайно, а по территориальному признаку, то распределение обязано зависеть от географических неоднородностей предпочтений электората. В заводском посёлке одно распределение, в воинской части - другое, в фешенебельном центре города - третье. В северной области - одно, в южной республике - другое. В разных местах люди живут по-разному, и поэтому по-разному относятся к правящей партии. Причём особые отклонения от гаусса будут именно для правящей партии, т.к. о ней люди судят по реальным делам, и дела эти везде, к сожалению, разные. А о не-правящих партиях люди судят, в основном, по информации из СМИ, а та в наш век вполне однородна - и бабуля в деревне, и мажор в пентхаусе смотрят, в принципе, один и тот же телевизор.

В официальных пояснениях к графикам распределений голосов в результатах президентских выборов 2008 на сайте ЦИК показано, что за негауссовость того конкретного графика отвечало в основном разделение участков на городские-сельские-другие. Это не означает, отмечает автор публикации, что стоит только разделить график на город/село, как он тут же распадётся на два гаусса. Это лишь одна из многих, далеко не единственная причина возникновения негауссовых распределений. При этом, чем больше неоднородность страны, тем больше шансов, что итоговая кривая будет иметь "неправильную" форму. А в условиях кризиса, который по-разному сказался на различных группах населения, рост поляризации мнений ещё более вероятен. Отсюда большая, по сравнению с некоторыми предыдущими выборами, неоднородность графика. Автор исследования приводит аналогичные графики результатов голосований в других странах, которые тоже не совпадают с распределением Гаусса. "Все эти исследования показывают, - резюмирует автор, - что в порыве страстного желания обвинить власть во всех возможных грехах, наши борцы за справедливость, мягко говоря, переборщили - множество статистических "аномалий", которые послужили основанием для самых грязных обвинений и радикальных лозунгов, в действительности совершенно корректны".

Автор также рассматривает другое утверждение о сфальсифицированности результатов голосования, согласно которому острый пик ровно на 50% в графике распределения числа участков в зависимости от процента голосов за партию (либо от процента явки) свидетельствует о подтасовке с целью перевалить за заветное число в 50%. Это хоть и нетривиальный, но объяснимый математический эффект, отмечает автор. Связан он с тем, что процент голосов - не простая случайная величина, а частное от деления двух целых чисел - количества голосов за партию и общего числа избирателей. А среди всевозможных дробей N/M число 1/2 встречается гораздо чаще остальных. Поэтому на любом распределении процентов голосов будет очень узкий, но, при достаточно мелком шаге гистограммы, всё же видимый пик строго на 50%. При выборе достаточно мелкого шага гистограммы будут появляться (и сильно возмущать) острые пики и на других круглых числах: 1/4=25%, 2/5=40%, 3/5=60%, 2/3≈65%, 3/4=75%, 4/5=80% и т.д. При выявлении аномалий на круглых числах следует обязательно учитывать данный эффект.

Еще одно основание для заявления о фальсификации - срезанные верхушки на графиках распределений проигравших партий свидетельствуют о том, что часть их голосов была переписана на счёт победившей партии. Авторы напоминают, что распределение голосов для правящей партии принципиально отличается от распределения для новой, "синтетической" партии, которую народ знает только по глобальной информации из СМИ. Однако помимо правящей партии есть ещё и правившие. Для них также следует ожидать заметных отклонений от гаусса. Например, на графике распределения числа участков в зависимости от процента голосов за партию (либо от процента явки) для выборов в Госдуму-2011 видно, что электорат Коммунистической партии состоит из двух близких, но, тем не менее, отличающихся групп. Не исключено (это лишь гипотеза), что эти два близких гауссовых горба представляют из себя две группы электората - тех, кто жил при КПСС, и тех, кто ту эпоху уже не застал. Территориальную зависимость в голосовании за КПРФ можно попробовать проследить по фактору город/деревня, либо даже в пределах одного города по возрасту домов, которые относятся к данным УИК (в новостройках больше процент молодёжи, а в старых домах больше пожилых людей).

Задирание вверх графика распределения голосов на 100% для правящей партии и в 0% для остальных свидетельствует о фальсификации, полагают некоторые ратующие за честные выборы. Не свидетельствует, считает автор статьи на eruditor.ru. Это естественный граничный эффект. Как так получается, что у победившей партии нет пика в 0%, как у остальных, и наоборот, ни у кого, кроме победителя, нет пика на 100%? Любое распределение, которое левым краем упирается в 0%, будет иметь там острый пик, а любое распределение, достающее до 100% - там. Когда есть явный лидер в голосовании, никто кроме него до 100% не дотягивает, а сам победитель далёк от 0%.

Автор материала рассматривает еще одно мнение о статистических свидетельствах фальсификаций: на графике корреляции между явкой на избирательных участках и процентом голосов за партии корреляция между явкой на избирательных участках и процентом голосов за правящую партию свидетельствует о вбросе бюллетеней с "нужными" голосами. Между тем наличие корреляции между величинами А и Б вовсе не означает наличия прямой причинно-следственной связи между ними. Результаты выборов в Парламент Великобритании 2010 показывают ещё более сильную зависимость между явкой и процентом голосов за разные партии. У этой зависимости может быть множество совершенно естественных причин. Почему конкретно так обстоят дела для Консервативной и Лейбористской партий в Великобритании я не знаю, но вот про корреляцию для российских реалий есть вполне чёткая логика. В сознании законопослушных постсоветских граждан тесно связаны действия "прийти на выборы" и "проголосовать за действующую власть". Долгие годы однопартийной системы приучили людей к тому, что "сходить проголосовать" и "сходить проголосовать за власть" - синонимы. А правящая партия стойко ассоциируется с властью вообще. Обычно за оппозиционную партию голосуют только те, кто твёрдо уверен в необходимости голосовать именно за неё. А за правящую партию голосуют в том числе и те, кто просто считает нужным "проголосовать", хотя и не особо-то разбирается в политике - просто так положено.

В статье развенчивается еще одна "теория фальсификации": на графике корреляции между явкой на избирательных участках и процентом голосов за партии наличие у правящей партии положительной корреляции, а у оппозиции - отрицательной свидетельствует о том, что часть голосов забрали у оппозиции и переписали их "куда надо". "Это совсем глупая ошибка, - пишет автор. - Рассматривать явно Зависимые величины и удивляться, что они взаимно коррелируют - вот уж действительно "чудо". Появления по какой-либо причине корреляции между голосованием за одну любую партию достаточно для появления корреляции и для всех остальных партий.

Вертикальные вырезы на графике распределения числа участков в зависимости от процента голосов за партию (либо от процента явки) также, по популярному мнению, свидетельствует о фальсификации результатов выборов. Авторы напоминают, что реальное распределение вовсе не обязано быть гауссом из-за чисто географической неоднородности отношения к кандидату. Однако центральную предельную теорему всё-таки никто не отменял, и на участках, где всё более-менее однородно, должен быть гаусс. Таким образом, итоговый результат сложения всех этих участков будет суммой нескольких гауссовых "колоколов" - этакой многогорбой кривой. Однако гауссы - ровные, и в середине распределения обычно довольно широкие. Поэтому получить путём их сложения отвесную вертикальную стенку естественным образом крайне сложно. К сожалению, даже при таких объёмах данных, какие есть на всероссийских выборах, статистические выбросы слишком портят картинку, чтобы можно было с уверенностью утверждать наличие такой аномалии. На графике "Единой России" на выборах в ГосДуму 2011 есть подозрительные участки с почти вертикальными стенками на 36%, 65%, 70%, 79%, 90%.

Наличие существенно различных картин данных с участков, где установлены комплексы обработки избирательных бюллетеней (КОИБ) и участков, где учёт бюллетеней ведётся вручную, при условии, что КОИБы расставлены достаточно равномерно, также не может не вызывать подозрений. Однако, отмечает автор, для того, чтобы данный фактор имел хоть какое-то значение, обязательно необходимо, чтобы статистика КОИБов была достаточно репрезентативной. А на данный момент расстановка КОИБов далека от равномерной (возможно, к президентским выборам ситуация изменится, да и веб-камеры обещают повесить). Также при анализе корреляции следует учитывать "третий фактор" - из корреляции А и Б не следует то, что А является причиной Б, т.к. вполне возможно, что существует какой-то фактор В, из которого следуют оба - и А, и Б. Например, низкий процент голосов за "Единую Россию" на автоматизированных участках в Коми может быть следствием вовсе не автоматизированности участков, а того, что, по словам самого исследователя, "на автоматизированные УИКи нагоняли людей с открепительными". Наличие таких корреляций никогда не может быть строгим доказательством намеренной подтасовки, т.к. всегда остаётся шанс, что этот самый "третий фактор" существует, но просто не был найден.

Еще один показатель вызывает сомнения у заявляющих о фальсифицированности выборов - многочисленные острые вогнутые пики на графике распределения числа участков в зависимости от процента голосов за партию (либо от процента явки). Хоть итоговый график распределения и не обязан быть гауссом сам по себе, он, скорее всего, должен состоять из нескольких (возможно, многих) гауссов. Эти рассуждения приводят нас к выводу о ненатуральности острых, направленных вверх пиков с вогнутыми вниз склонами (гауссы вблизи вершины выгнуты вверх!). На данный момент автору не известны какие-либо разумные объяснения подобных аномалий, особенно когда они возникают на круглых значениях процентов. Это, полагают авторы публикации, единственное достоверное статистическое подтверждение наличия фальсификаций на выборах в ГосДуму РФ 2011. Детальный анализ показывает, что за появление "шипованого хвоста" ответственны наши горячие и чересчур лояльные властям южные республики.

В заключение авторы исследования изучают утверждение о том, что явные нарушения закона Бенфорда свидетельствуют о нарушениях при подсчете голосов избирателей. Дело в том, что "рукописные", сочинённые человеком числа с точки зрения самих цифр, которыми записываются эти числа, отличаются от естественных. Причём эти закономерности противоречат нашему "бытовому" здравому смыслу, поэтому вручную их очень сложно сымитировать при фальсификации. Цифр, как известно, 10. Из них первой цифрой числа может быть только 9 (все, кроме нуля). Поэтому, казалось бы, вероятность появления единицы среди первых цифр в колонке чисел должна быть 1/9=11%. Но на самом деле для огромного множества естественных наборов чисел вероятность того, что первой цифрой окажется единица, гораздо больше - 30%! Этот удивительный факт установил в 1938 году физик Фрэнк Бенфорд. И с тех пор он успел уже не только помочь в выявлении подлогов бухгалтерских отчётов, но и, что нас куда больше интересует, обосновал подозрения в фальсификации выборов в Иране (2009). Бенфорд описывает встречаемость цифр на любой позиции. Чем ближе цифра к началу числа, тем ближе распределение вероятностей к бенфордовскому, а чем дальше - к равномерному. Итак, вероятность появления данной цифры в качестве первой цифры числа логарифмически падает: единицу мы встретим в 30% случаев, а восьмёрку и девятку лишь в 5% (в шесть раз реже, чем единицу!). Последние же цифры длинных чисел распределены равномерно - вероятность встретить в конце (длинного!) числа любую цифру обязана быть равна 10%. Проверяя закон Бенфорда для результатов выборов в Госдуму 2011 года, авторы приходят к заключению, что закон Бенфорда для чисел голосов за партии ("Единой России" в том числе) выполняется просто фантастически красиво и для первой цифры, и для второй, и для последней. На графике для первых цифр отмечена подозрительная "сумеречная" аномалия, касающаяся явки. В хвосте распределения (цифры 5,6,7,8,9), где все партии логарифмически падают вместе с бенфордом, колонка явки не только не падает вместе со всеми, но и даже растёт! Данная аномалия согласуется с фактом некоторого числа поддельных результатов, но почему-то только относительно приписок явки на выборы, а не вброса для какой-то конкретной партии.

Авторы решили проверить закон Бенфорда на сайте ruelect.com, на котором собираются "настоящие" протоколы голосований, дабы продемонстрировать, что они никак не стыкуются с данными ЦИК, и приходит к выводу, что якобы достоверные данные ruelect.com гораздо хуже следуют закону Бенфорда, чем якобы фальсифицированные данные ЦИК. "Поспешных выводов из этого факта я делать не буду, - отмечает автор, - но подозрения он вызывает более чем серьёзные".