Бегемот средних широт ([info]bgmt) wrote,
@ 2008-01-18 17:36:00
Previous Entry  Add to memories!  Tell a Friend  Next Entry
Entry tags:мы рождены чтоб кафку

Добавление к предыдущему посту
У меня, к сожалению, нет времени подробно разобраться во всей статистике результатов выборов. Надо сказать, что советская власть так бы не прокололась, я думаю, у них были специалисты грамотнее. Ну, про больше ста процентов за ЕР все слышали уже, про сто процентов явки в Ингушетии, где уже неделю назад 50 тысяч человек подписали заявление, что не ходили на выборы, тоже все слышали. Некоторое время назад много у кого в ЖЖ был приведён замечательный график - почти абсолютная корреляция процента явки и процента голосовавших за ЕР (для гуманитаров: т.е. если, предположим, явилась половина избирателей, то из неё, предположим, 50% голосовало за ЕР, т.е. 25% от общего числа зарегистрированных избирателей; а где явилось, предположим, 80%, там из них за ЕР оказалось, предположим, 90%, т.е. 72% от зарегистрированных; цифры я беру с потолка, это неважно, важно, что в результате зависимость числа голосов, поданных за ЕР, от числа пришедших голосовать оказывается не линейной, а квадратичной, чего не может быть ну никак.)

А сейчас появился ещё один график, который я сначала увидел у [info]object'а.

График сделан юзером [info]podmoskovnik, который поясняет: "Данные скачаны мной с сайта Центризбиркома и выложены в открытый доступ; в записи http://podmoskovnik.livejournal.com/5241.html есть ссылки, а в ссылках - readme с пояснениями методики."

Мне понадобились пояснения, и я их получил (т.е. я получил от [info]podmoskovnikа цифры и воспроизвёл у себя на Экселе график). Реальный процент явки округлялся до целого, так что точка, соответствующая 49%, значит "число избирательных участков, где явка была между 48,5% и 49,5%". Нормально было бы ожидать довольно плавную огибающую, иногда чуть рваную из-за флуктуаций. А имеем мы вот что: локальные максимумы распределения располагаются в точках 55%, 60%, 70%,75%, 80%, 85%, 95%, 100%. Точке 65% не повезло - попала на склон, и в ней только излом. [info]podmoskovnik меланхолически замечает "Все-таки привычка красить траву нас однажды погубит."

Ну мало того, что стопроцентная явка (т.е. от 99,5 до 100%) имела место на 4940 избирательных участках и является абсолютным максимумом, но вот, скажем, 59% избирателей явилось на 2260 участков, и эта точка на склоне, но явка в 60% была обеспечена уже на 2460 участках (рывок вверх на кривой у 60%); то же самое имеет место между 69 и 70% и между 79 и 80%.
Я привожу цифры, потому что на глаз мне сначала показалось, что эти прямые отрезки шириной в 2%; нет, в 1%.
Мне лень подсчитывать вероятность такого распределения. Она слишком близка к нулю.
Я ещё раз повторяю: округление было не до 5%, а до 1%. Никаких причин для такого графика, кроме заведомой фальсификации, нет.




(Read 155 comments) - (Post a new comment)

кратные 5%-ам пики
[info]ixodus
2008-01-18 07:11 pm UTC (link)
Вот что надо бы сделать для чистоты эксперимента -- это исключить из выборки Ингушетию, Чечню, Дагестан, вообще, по- видимому все кавказские автономии, а также Мордовию, весь Татарстан ( кроме Казани и, м. б. Набережных Челнов), и по такому же рецепту поступить с Башкортостаном. После этого посмотреть как в оставшейся выборке будет с кратными пяти пиками.

Дело в том, что в отношении предложенных для отсеивания регионах как бы и нет никакого сомнения вообще по поводу методов подведения итогов голосования. По другим же регионам есть различные предположения в зависимости от конкретного места. Скорее всего на части участков вообще значимо не фальсифицировали, на части -- вбрасывали, ещё на части возможно
и выбрасывали или просто подрисовывали. Но сочетание разнородной выборки по большинству российских регионов с однородной по принципу подведения итогов("рисование") выборкой автономий, в определённой степени химериризирует получающуюся итоговую (тотальную) выборку.

(Reply to this) (Thread)

Re: кратные 5%-ам пики
[info]bgmt
2008-01-18 07:47 pm UTC (link)
Весьма разумно. Только кто это сделает?

(Reply to this) (Parent)(Thread)

Re: кратные 5%-ам пики
[info]oude_rus
2008-01-19 07:32 pm UTC (link)
Сделать это совершенно несложно, но зачем?

Впрочем, может, сейчас сделаю. Кого еще надо выкинуть из БД?

(Reply to this) (Parent)(Thread)

Re: кратные 5%-ам пики
[info]oude_rus
2008-01-19 09:45 pm UTC (link)
Результаты здесь: http://oude-rus.livejournal.com/53322.html

(Reply to this) (Parent)

Re: кратные 5%-ам пики
[info]dr_tambowsky
2008-01-19 02:06 am UTC (link)
Попробовать можно, но confidence начнёт стремительно падать. Нельзя безнаказанно из одних и тех же данных много раз выдёргивать под-выборки и "независимо" оценивать их статистическую значимость. То есть, что-то увидеть можно, конечно. Особенно, если какую под-выборку ни возьми, а все те же пики тут как тут :) Но в принципе - занятие требующее очень большой аккуратности, более тонких моделей и/или введения поправок на множественные тесты.

(Reply to this) (Parent)(Thread)

Re: кратные 5%-ам пики
[info]ixodus
2008-01-19 03:53 pm UTC (link)
Не начнёт confidence стремительно падать. Дело в том, что это НЕ ОДНИ И ТЕ ЖЕ данные, а принципиально разные. И, кстати, и выборы 1995, 96, 99 гг именно так и анализировались. Уровень фальсификаций был в несколько раз меньшим, чем сейчас, но даже тогда попытки находить какие-либо закономерности, исходя из единой выборки по всей России, ни к чему путному не приводили. И не могли привести. Представьте себе, что Вы анализируете выборы в двух совершенно разных государствах,но с одинаковыми названиями участников (партий). В одной из них данные голосования фальсифицированы % на 15, во второй -- на 95. Там вообще нет, практически, никаких статистических разбросов. Но всю выборку слили в одну. И какой же смысл её в этом качестве -- единной -- анализировать?

Избирательных участков в упомянутых спецрайонах тысяч 7-9. Вот, если вывести их за пределы анализируемой выборки, то и интересно посмотреть -- что будет с пиками,кратными 5? Исчезнет этот эффект, существенно уменьшится... или же --как? А особенно интересно наложить эту картину на подобную же -- выборов, только, скорее, не 2003-го года (парламентских), а 2004-го (президентских). Ибо нынешеие выборы, ассоциирующиеся с доверием к ВВП, были ближе именно к президентским. Вот тогда сразу могут проявиться эффекты по типу наблюдавшихся в Пресненском районе г. Москвы, когда на примерног трети участков голосование было явно аномальным._(т. е. фальсификация , по крайней мере в этом районе, шла не сплошная, а через "надёжные" участки, что упрощает её оценку. Думаю, и в более широком масштабе она тоже была не сплошной).

(Reply to this) (Parent)(Thread)

Re: кратные 5%-ам пики
[info]bgmt
2008-01-19 04:20 pm UTC (link)
А вы киньте копию этих Ваших комментов Подмосковнику, может, он сделает - он же свободно ориентируется в сырых данных. Будет интересно.

(Reply to this) (Parent)

Re: кратные 5%-ам пики
[info]dr_tambowsky
2008-01-19 08:23 pm UTC (link)
Я же не говорю, что неинтересно! Невероятно интересно! Проблема другая - представьте себе, что у вас есть sample. В каком-то количестве образцов есть какая-нибудь характерная особенность. Или даже так - у всех образцов есть характеристики, случайно разбросанные где попало. Вы теперь отбираете только те образцы, где характеристика лежит там где Вам нужно. Ежу ясно, что такая процедура не имеет ничего обсшего со статистикой и никакой статистической достоверности подобные руками отобранные "данные" не имеют, хотя вот ведь - у них же необычно высокая частота определённого значения характеристики!

Это такой очень грубый пример. Зато самоочевидный. Как иллюстрация. Я понимаю, что Вы другое предлагаете. Всё что я сказал, это что подобная опасность, в той или иной форме и в большей или меньшей степени присутствует всегда, когда Вы начинаете тянуть частичные образцы из одного и того же однажды собранного пула данных. Чем большее количество раз Вы производите resampling, тем большая вероятность получить любой артефакт случайно. Например, есть полный sample из, скажем 1000 наблюдений; я вытаскиваю из него и охарактеризовываю subsample из 250 наблюдений - и вижу, что в 200 из 250 этих выбранных случаев моя характеристика, скажем - 85. Вопрос тогда можно формулировать так: если я буду много раз вытягивать случайный набор из 250 измерений из моей полной коллекции (1000), какова вероятность, что по крайней мере 200 из них будут обладать значением характеристики 85? Если эта вероятность крайне мала, то Вы можете утврждать, что Ваша выборка далеко неслучайна и в ней есть какая то структура. Можно идти с другой стороны и искать всякие корреляции и/или моды в исходных данных (что тоже требует определённых коррекций, когда используется много разных тестов). Поэтому я утверждаю, что confidence level в принципе падает и полезны всякие ухищрения. А так очень интересно, я этого ни разу не отрицал.

(Reply to this) (Parent)


(Read 155 comments) - (Post a new comment)

Create an Account
Forgot your login or password?
Login w/ OpenID
English • Español • Deutsch • Русский…