Гаусс мені друг, але ...

Результатом аналізу безлічі досліджень, опублікованих в ЗМІ і блогах за результатами попередніх виборів, є висновок про те, що хоч і не всі, але більшість популярних думок про статистичних свідченнях фальсифікацій є або грубими математичними і логічними помилками, або чиїмись спланованими маніпуляції

Результатом аналізу безлічі досліджень, опублікованих в ЗМІ і блогах за результатами попередніх виборів, є висновок про те, що хоч і не всі, але більшість популярних думок про статистичних свідченнях фальсифікацій є або грубими математичними і логічними помилками, або чиїмись спланованими маніпуляції.

Мета даної статті ≈ напередодні президентських виборів ЗАРАНЕЕ підготувати весь можливий арсенал статистичних досліджень майбутніх результатів. З тим, щоб не допустити помилок і маніпуляцій, а послідовно застосувати вже перевірені математичні методи.

Натомість помилкових і неточних пропонується кілька інших, набагато більш коректних і науково обґрунтованих методів оцінки достовірності результатів виборів.

Філософія

Виявлення дивовижних на перший погляд явищ зовсім не означає присутності «розумного задуму». Ті, хто відразу починає кричати про підтасовування і фальсифікації, виявивши будь-який незвичайний статистичний графік, нагадують древніх мудреців, які, побачивши яскраву блискавку, заявляли, що це Зевс-громовержець гнівається, не інакше. Однак протягом останніх століть наука крок за кроком впевнено демонструє нам, що багато найдивовижніші явища мають абсолютно природну природу.

Численні блогери шамани маніпулюють свідомістю людей, показуючи гарні графіки та розподілу, вигукуючи при цьому про безсумнівному впливі богів Кремля Олімпу, що привів до настільки чудесним картинкам. При цьому ці борці за справедливість часто допускають грубі логічні і математичні помилки, користуючись тим, що в натовпі їх послідовників (і журналістів) мало хто розбирається в цій науці, далеко виходить за рамки шкільної програми. Ці помилки не тільки ставлять під сумнів загальні висновки, але і сильно дискредитують саме (абсолютно правильне по суті!) Рух «за чесні і справедливі вибори».

Тому давайте уважно і заздалегідь, ще до оголошення результатів президентських виборів 2012, розберемося, які статистичні ефекти в результатах голосувань дійсно є свідченням «втручання зверху», а які можна пояснити без залучення потойбічної сили.

Основні підозрювані

Два найпопулярніших об'єкта пошуку аномалій:

«Графік А» ≈ розподіл числа ділянок в залежності від відсотка голосів за партію (або від відсотка явки).

збільшити

«Графік Б» ≈ кореляція між явкою на виборчих дільницях і відсотком голосів за партії.

збільшити

Отже, давайте перерахуємо всі можливі статистичні методи досліджень результатів виборів. Почнемо з популярних помилок:

Категорія 1. «Світла зона ≈ привидів точно немає.»

1.1) Графік А зобов'язаний мати рівну симетричну форму «дзвони» (розподіл Гаусса, воно ж нормальний розподіл).

Шамани кажуть: «Cмотри, народ, в будь-яких випадкових процесах спостерігається Гаусс! Хочеш пульки в мішень стріляй, хочеш однокласників по зростанню міряй ≈ всюди Гаусс! Одне тільки розподіл голосів за Єдину Росію, так явка на вибори в Держдуму ≈ горбаті монстри з диявольських хвостом! »

Але справа в тому, що люди ≈ НЕ пульки, і голосують вони не випадковим чином, і голоси їх по виборчих дільницях розподілені ну ніяк не незалежно.

Уявіть собі, що в 1760 році в Північній Америці влаштовують президентські вибори. Дві кандидатури ≈ Чингачгук Великий Змій і Георг II. Хтось засумнівається в тому, що Графік А для таких голосувань буде, м'яко кажучи, не схожий на Гаусса? УІК'і, що знаходяться в вігвамах, очевидно, покажуть 100% за першого кандидата і 0% за другого, а УІК'і в міських меріях ≈ строго навпаки.

Якби людей приписували до випадково обраним ділянкам ≈ тогда да, був би чіткий гаус. Але раз ділянки вибираються не випадково, а за територіальною ознакою, то розподіл повинен залежати від географічних неоднорідностей уподобань електорату. У заводському селищі одне розподіл, у військовій частині ≈ інше, в фешенебельному центрі міста ≈ третє. У північній області ≈ одне, в південній республіці ≈ інше. У різних місцях люди живуть по-різному, і тому по-різному ставляться до правлячої партії. Причому особливі відхилення від Гаусса будуть саме для правлячої партії, тому що про неї люди судять за реальними справами, і справи ці всюди, на жаль, різні. А про НЕ-правлячих партіях люди судять, в основному, за інформацією зі ЗМІ, а та в наше століття цілком однорідна ≈ і бабуся в селі, і мажор в пентхаусі дивляться, в принципі, один і той же телевізор.

В офіційних поясненнях до графіків розподілів голосів в результатах президентських виборів 2008 на сайті ЦВК показано, що за негаусових того конкретного графіка відповідало в основному поділ ділянок на міські-сільські-інші. (Але це не означає, що варто тільки розділити графік на місто / село, як він тут же розпадеться на два Гаусса. Це лише одна з багатьох, далеко не єдина причина виникнення негаусових розподілів.)

При цьому, чим більше неоднорідність країни, тим більше шансів, що підсумкова крива матиме «неправильну» форму. А в умовах кризи, який по-різному позначився на різних групах населення, зростання поляризації думок ще більш імовірний. Звідси велика, в порівнянні з деякими попередніми виборами, неоднорідність графіка.

Зовсім наполегливою послідовникам релігії Всемогутнього Гаусса можу запропонувати поглянути на аналогічні графіки результатів голосувань в інших країнах. В першу чергу тих, демократичність яких у нас особливих сумнівів не викликає. Графік для парламентських виборів у Великій Британії (2010) я будував сам особисто, він приведений справа →

На ньому видно, що тільки для однієї партії (зелена лінія) графік хоч якось схожий на Гаусса, але і то з досить товстим хвостом праворуч. У двох інших партій ≈ зовсім гауссова многогорбие чудовиська.

Посилання на дослідження виборів в різних країнах:

≈ Німеччина: http://jemmybutton.livejournal.com/1638.html

≈ США: http://reverent.org/ru/negaussovi_vibori_usa/

≈ Польща: http://aftershock-su.livejournal.com/4347.html

≈ Ізраїль: http://levrrr.livejournal.com/31427.html

- Великобританія: http://mi-b.livejournal.com/218931.html

Всі ці дослідження показують, що в пориві пристрасного бажання звинуватити владу у всіх можливих гріхах, наші борці за справедливість, м'яко кажучи, переборщили ≈ безліч статистичних «аномалій», які послужили підставою для найбрудніших звинувачень і радикальних гасел, в дійсності зовсім коректні.

1.2) На графіку А гострий пік рівно на 50% свідчить про підтасовування з метою перевалити за заповітне число в 50%.

Це хоч і нетривіальний, але зрозумілий математичний ефект. Пов'язані вони з тим, що відсоток голосів ≈ не просте випадкова величина, а частка від ділення двох ЦІЛИХ чисел ≈ кількості голосів за партію і загального числа виборців. А серед всіляких дробів N / M число 1/2 зустрічається набагато частіше за інших. Тому на БУДЬ-ЯКОМУ розподілі відсотків голосів буде дуже вузький, але, при досить дрібному кроці гістограми, все ж видимий пік строго на 50%.

При виборі досить дрібного кроку гістограми будуть з'являтися (і сильно збурювати) гострі піки і на інших круглих числах: 1/4 = 25%, 2/5 = 40%, 3/5 = 60%, 2 / 3≈65%, 3 / 4 = 75%, 4/5 = 80% і т.д. При виявленні аномалій на круглих числах слід обов'язково враховувати цей ефект. Детальніше див. В цій статті і в багатьох інших. (Про інші особливості «піків на круглих відсотках» см. Далі.)

1.3) Зрізані верхівки на графіках розподілів партій, що програли свідчать про те, що частина їхніх голосів була переписана на рахунок партії, що перемогла.

Як було зазначено вище в п.1.1), розподіл голосів для правлячої партії принципово відрізняється від розподілу для нової, «синтетичної» партії, яку народ знає тільки по глобальної інформації зі ЗМІ. Однак крім правлячої партії є ще й права. Для них також слід очікувати помітних відхилень від Гаусса.

Наприклад, на графіку А для виборів до Держдуми-2011 ясно видно, що електорат Комуністичної партії складається з двох близьких, але, тим не менш, відрізняються груп. Не виключено (це лише гіпотеза), що ці два близьких гауссових горба вдають із себе дві групи електорату ≈ тих, хто жив при КПРС, і тих, хто ту епоху вже не застав. Територіальну залежність у голосуванні за КПРФ можна спробувати простежити за фактором місто / село, або навіть в межах одного міста за віком будинків, які відносяться до даних ДВК (в новобудовах більше відсоток молоді, а в старих будинках більше літніх людей).

1.4) Задиранов вгору графіка розподілу голосів на 100% для правлячої партії та в 0% для інших свідчить про фальсифікації.

Чи не свідчить. Це природний граничний ефект ≈ в прикладі з Чингачгук розподіл розмазано по вертикальних стінок в 0% і 100% без будь-яких махінацій.

Як так виходить, що у партії, що перемогла немає піку в 0%, як у інших, і навпаки, ні у кого, крім переможця, немає піку на 100%? Будь-який розподіл, яке лівим краєм упирається в 0%, матиме там гострий пік, а будь-який розподіл, який дістався до 100% ≈ там. Коли є явний лідер в голосуванні, ніхто крім нього до 100% не дотягує, а сам переможець далекий від 0%.

1.5) На графіку Б кореляція між явкою на виборчих дільницях і відсотком голосів за правлячу партію свідчить про вкидання бюлетенів з «потрібними» голосами.

Для початку, дуже важливе міркування, яке упускають багато дослідників:

Наявність кореляції між величинами А і Б зовсім не означає наявності прямого причинно-наслідкового зв'язку між ними.

Наприклад, розглянемо два параметри, що характеризують пожежі в певному місті

А ≈ нанесений пожежею збитки

Б ≈ кількість пожежних, які брали участь в ліквідації цієї пожежі

Між величинами А і Б існує висока позитивна кореляція ≈ як правило, чим більший був нанесений збиток, тим одночасно і більше пожежних брало участь в гасінні. Але буде повним абсурдом стверджувати, що ПРИЧИНОЮ великого збитку стала велика кількість пожежних.

Результати виборів в Парламент Великобританії 2010 показують ще більш сильну залежність між явкою і відсотком голосів за різні партії:

Кореляція з явкою голосів за ЕР і ЛДПР Аналогічна картинка для виборів у Великій Британії

Кореляція з явкою голосів за ЕР і ЛДПР Аналогічна картинка для виборів у Великій Британії

збільшити

У цій залежності може бути безліч абсолютно природних причин. Чому саме так йдуть справи для Консервативної і Лейбористської партій в Великобританії я не знаю, але ось про кореляцію для російських реалій є цілком чітка логіка.

У свідомості законослухняних пострадянських громадян тісно пов'язані дії «прийти на вибори» і «проголосувати за діючу владу». Довгі роки однопартійної системи привчили людей до того, що «сходити проголосувати» і «сходити проголосувати за владу» ≈ синоніми. А правляча партія стійко асоціюється з владою-взагалі. Зазвичай за опозиційну партію голосують тільки ті, хто твердо впевнений в необхідності голосувати саме за неї. А за правлячу партію голосують в тому числі і ті, хто просто вважає за потрібне «проголосувати», хоча і не особливо-то розбирається в політиці ≈ просто так положено.

Взагалі, гра на кореляції явки і відсотка голосів ≈ зовсім не новина. Пам'ятаєте «Голосуй або програєш» в 1996-му? Штаб Єльцина вибрав дуже грамотну лінію ≈ тягти на вибори молодь, яка одночасно а) за Єльцина (бо проти комуністів) і б) вкрай пасивна в плані «сходити на вибори». Аналогічну стратегію збільшення одночасно і голосів за себе, і загальної явки використовував Білл Клінтон ( «Choose or lose»).

1.6) На графіку Б наявність у правлячої партії позитивної кореляції, а у опозиції ≈ негативною свідчить про те, що частина голосів забрали у опозиції і переписали їх «куди треба».

Це зовсім дурна помилка, сильно дискредитує статті Сергія Шпількіна і його послідовників. Розглядати явно ЗОВСІМ величини і дивуватися, що вони взаємно корелюють ≈ ось вже дійсно «чудо». Адже число «явка» ≈ це сума кількостей голосів за партії: A = K1 + K2 + ... + Kn. З (n + 1) чисел {A, K1, K2, ..., Kn} лише (n) чисел можуть бути незалежні. Тому появи з якої-небудь причини кореляції між голосуванням за ОДНУ БУДЬ-ЯКУ партію досить для появи кореляції і для всіх інших партій.

Припустимо, на виборах в Америці-1760 з'явився третій кандидат ≈ Оцеола, вождь семінолів, який закликав вірних йому людей бойкотувати вибори. В результаті на тих ділянках, де живуть семіноли (і де природний високий відсоток голосів за Оцеолу) буде низька явка ≈ з'явиться негативна кореляція: чим вище на ділянці явка, тим менше там голосів за Оцеолу. Але, мало того, це автоматично призведе і до появи компенсує її позитивної кореляції ≈ чим вище на бере участь явка, тим більше там відсоток голосів за Чингачгука, хоча Чингачгук жодним чином до цього ефекту не причетний.

Ще більш груба помилка в розрахунках кореляції свідомо залежних величин (для випадку, коли відсоток голосів вираховується від спискового складу, як це робилося в оригінальних статтях Шпількіна) детально розібрана тут: http://xp-cmdshell.livejournal.com/273519.html

Категорія 2. «Сутінкова зона ≈ чи то є, то чи немає, але щось недобре точно ввижається.»

2.1) Вертикальні вирізи на графіку А.

Вище ми докладно обговорили, що реальний розподіл зовсім не повинно бути Гауссом через чисто географічної неоднорідності ставлення до кандидату. Однак центральну граничну теорему все-таки ніхто не відміняв, і на ділянках, де все більш-менш однорідне, повинен бути гаус (але тільки на окремих ділянках!).

Таким чином, підсумковий результат складання всіх цих ділянок буде сумою декількох гауссових «дзвонів» ≈ такою собі многогорбой кривої. Однак, Гаус ≈ рівні, і в середині розподілу зазвичай досить широкі. Тому отримати шляхом їх складання прямовисну вертикальну стінку природним чином вкрай складно.

На жаль, навіть при таких обсягах даних, які є на всеукраїнських виборах, статистичні викиди занадто псують картинку, щоб можна було з упевненістю стверджувати наявність такої аномалії. На графіку Єдиної Росії на виборах в Держдуму 2011 Чи підозрілі ділянки з майже вертикальними стінками на 36%, 65%, 70%, 79%, 90%. (Детальніше див. Далі, в Зоні темряви.)

2.2) Коіба і КЕГі

Наявність істотно різних картин даних з дільниць, де встановлені комплекси обробки виборчих бюлетенів (КОІБ) і ділянок, де облік бюлетенів ведеться вручну, ЗА УМОВИ, що Коіба розставлені досить рівномірно, також не може не викликати підозр. Однак ще раз відзначимо ≈ для того, щоб даний фактор мав хоч якесь значення, обов'язково необхідно, щоб статистика Коіба була досить репрезентативною. Якщо Коіба встановлювати тільки в салунах, не маючи жодного з них в вігвамах, то дивуватися різниці в результатах голосування не доводиться. А на даний момент розстановка Коіба далека від рівномірної (можливо, до президентських виборів ситуація зміниться, та й веб-камери обіцяють повісити).

Також при аналізі кореляції слід враховувати «третій фактор» ≈ з кореляції А і Б не слід те, що А є причиною Б, тому що цілком можливо, що існує якийсь фактор В, з якого йдуть обидва ≈ і А, і Б (пам'ятаєте аналогію про пожежників?). Наприклад, низький відсоток голосів за ЕР на автоматизованих ділянках в Комі може бути наслідком зовсім не автоматизированности ділянок, а того, що, за словами самого дослідника, «на автоматизовані УІКі наганяли людей з відкріпними».

Наявність таких кореляцій ніколи не може бути строгим доказом навмисної підтасовки, тому що завжди залишається шанс, що цей самий «третій фактор» існує, але просто не був знайдений.

Категорія 3. «Зона непроглядній темряви.»

3.1) Численні гострі увігнуті піки на графіку А.

В п.2.1) ми прийшли до того, що будь-підсумковий графік розподілу і не зобов'язаний бути Гауссом сам по собі, він, швидше за все, повинен складатися з декількох (можливо, багатьох) гаусів. Ці міркування приводять нас до висновку про ненатуральності гострих, спрямованих вгору піків з увігнутими вниз схилами (Гс поблизу вершини вигнуті вгору!).

На даний момент автору не відомі будь-які розумні пояснення подібних аномалій, особливо коли вони виникають на круглих значеннях відсотків, як це є на вже згадуваному графіку «ЕР: ГД 2011», його фрагмент наведено справа →

Це єдине достовірне статистичне підтвердження наявності фальсифікацій на виборах до Держдуми РФ 2011. Детальний аналіз показує, що за появу «Шипування хвоста» відповідальні наші гарячі і надто лояльні до влади південні республіки, що, загалом, зовсім не дивно.

3.2) Явні порушення закону Бенфорда.

І, на десерт, дослідження, якому приділяється незаслужено мало уваги.

Справа в тому, що «рукописні», складені людиною числа з точки зору самих ЦИФР, якими записуються ці числа, відрізняються від природних. Причому ці закономірності суперечать нашому «побутовому» здоровому глузду, тому вручну їх ДУЖЕ складно зімітувати при фальсифікації.

Цифр, як відомо, 10. З них дерти цифрою числа может буті только 9 (всі, кроме нуля). Тому, здавалося б, ймовірність появи одиниці серед перших чисел в колонці чисел повинна бути 1/9 = 11%. Але насправді для величезної кількості природних наборів чисел ймовірність того, що першою цифрою виявиться одиниця, набагато більше ≈ 30%! Цей дивовижний факт встановив в 1938 році фізик Френк Бенфорд. І з тих пір він встиг вже не тільки допомогти у виявленні підробок бухгалтерських звітів, а й, що нас куди більше цікавить, обгрунтував підозри у фальсифікації виборів в Ірані (2009) (in english, по-російськи).

У Вікіпедії є докладна стаття про закон Бенфорда для випадку першої цифри, але в повній формі він описує зустрічальність цифр на будь-якій позиції. Чим ближче цифра до початку числа, тим ближче розподіл ймовірностей до бенфордовскому, а чим далі ≈ до рівномірного.

Отже, ймовірність появи даної цифри в якості першої цифри числа логарифмически падає: одиницю ми зустрінемо в 30% випадків, а вісімку і дев'ятку лише в 5% (в шість разів рідше, ніж одиницю!).

Останні ж цифри довгих чисел розподілені рівномірно ≈ ймовірність зустріти в кінці (довгого!) Числа будь-яку цифру мусить бути дорівнює 10%.

Перевірка закону Бенфорда для результатів виборів до Держдуми 2011 року.

За першої цифри по останній цифрі (для чисел> 100) Перші сім колонок ≈ партії, потім:

(Рожева) ≈ явка,
(Зелена) ≈ виборців за списком,
(Чорна) ≈ скільки повинно бути по Бенфорд

Детальніше в екселя.

Видно що:

а) Закон Бенфорда для чисел голосів за партії (Єдиної Росії в тому числі) виконується просто фантастично красиво і для першої цифри, і для другої (див. xls), і для останньої. Статистика виборів в Держдуму 2011 ≈ взагалі унікальний масив даних для ілюстрації закону Бенфорда ;-)

б) Зелена смужка на цифрі «2» ≈ зрозумілий викид. Обліковий склад виборців ≈ не випадковий число, на нього діють встановлені ЦВК правила про оптимальний розмір виборчої дільниці (мабуть, близько 1500-2500). Тому дуже багато ділянок, де 2 *** виборців, але різко менше, де 3 ***.

Особливість закону Бенфорда в тому, що він не працює, якщо є хоч якась причина йому не працювати (коли в системі існує заданий зовні порядок речей). Але коли таких причин немає ≈ йому слід довіряти.

в) На графіку для перших цифр підозріла «сутінкова» аномалія, що стосується явки (рожева смужка). У хвості розподілу (цифри 5,6,7,8,9), де всі партії логарифмически падають разом з Бенфорд, колонка явки не тільки не падає разом з усіма, але і навіть зростає!

КПРФ ЕР явка

5 5,54% 6,59% 6,39%

6 4,42% 5,28% 6,47%

7 3,86% 4,84% 6,49%

8 3,63% 4,37% 6,73%

9 3,47% 3,90% 6,94%

Дана аномалія узгоджується з фактом деякого числа підроблених результатів, але чомусь тільки щодо приписок явки на вибори, а не вкидання для якоїсь конкретної партії. Ймовірно, за цим криється якась більш хитра логіка.

Категорія 4. Фільсіфікаціі фальсифікацій.

4.1. ruelect.com

Подивившись точності закону Бенфорда, я вирішив перевірити його на ще якомусь наборі чисел. Під руку підвернувся сайт ruelect.com, на якому народ збирає «справжні» протоколи голосувань, щоб продемонструвати, що вони ніяк не стикуються з даними ЦВК (Едро, мовляв, краде голоси). Чесно кажучи, після таких новин довіру до ruelect.com і без того похитнулося, але результат все одно мене вразив. Отже:

Ступінь відповідності закону Бенфорда кількості голосів за ЕР: зліва ≈ за даними ЦВК, праворуч ≈ за даними ruelect.com:

com:

збільшити

(На діаграмі показано відношення кількості зазначених перших чисел до прогнозованого значення, наступного з закону Бенфорда.)

(У вибірці, в т.ч. даних ЦВК, беруть участь тільки ті ділянки, які наведені в базі ruelect.com.)

Видно, що нібито достовірні дані ruelect.com НАБАГАТО ГІРШЕ діють за законом Бенфорда, ніж нібито фальсифіковані дані ЦВК. Щоб не уподібнюватися «шаманів», поспішних висновків з цього факту я робити не буду, але підозри він викликає більш ніж серйозні.

Хтось засумнівається в тому, що Графік А для таких голосувань буде, м'яко кажучи, не схожий на Гаусса?
Як так виходить, що у партії, що перемогла немає піку в 0%, як у інших, і навпаки, ні у кого, крім переможця, немає піку на 100%?
Пам'ятаєте «Голосуй або програєш» в 1996-му?
Пам'ятаєте аналогію про пожежників?