Эксперты по чуши: могут ли цифры лгать

Почему в 50% случаях процентам нельзя доверять

Зачастую одним из авторитетных аргументов в споре становится тот, который основывается на холодных цифрах и статистических данных, которые, казалось бы, не могут быть субъективными. Тем не менее, подобные исследования требуют особой осторожности и здравой доли скептицизма, чтобы не стать жертвой мошенников, недобросовестных лжеученых или просто троллеров. О том, как отделить зерна от плевел и выявить безукоризненную истину в океане информации ― в этом материале.

Декорации выборки

Доктор биологических наук, Карл Бергстром, уже много лет борется с фейками и ложными данными. Он приводит несколько основных способов особой «маскировки», позволяющей превратить большую цифру в маленькую или наоборот.

«Скептики заявляют, что они «просто хотят увидеть данные», или требуют, чтобы им показали «исходные данные», или настаивают на том, что «показатели должны говорить сами за себя». Нас убеждают, что «данные никогда не врут». Но эта точка зрения может быть опасной. Даже если величины или числа верны, их всё равно можно использовать, чтобы морочить голову. Чтобы числа были понятными, они должны находиться в уместном контексте. Их нужно демонстрировать так, чтобы нам было доступно честное сравнение», ― пишет он в своей книге «Полный бред! Скептицизм в мире больших данных».

Например, далеко не все выборки репрезентативны и авторитетны. Так, существует ошибка выборки, которая, к слову, минимально влияет на результат. Но в то же время она может быть слишком маленькой или основываться на изначально ненадежной процедуре. В этой связи Бергстром приводит пример исследования роста мужчин из Нидерландов, которое могло проводиться с участием команды баскетболистов. Некорректной может быть и методика, вплоть до фантастических, выдуманных цифр, которые легко принять за правду.

Так автор книги «Как лгать при помощи статистики» Даррелл Хафф любопытным образом анализирует утверждение о якобы средней зарплате выпускников Йельского университета:

«Средний выпускник Йельского университета 1924 года зарабатывает $25 111 в год» — это было опубликовано однажды в журнале Time в ответ на какой-то материал, вышедший в нью-йоркской газете Sun.

Ну что ж, зарабатывает — вот и молодец! Уже при первом настороженном взгляде на эту цифру бросаются в глаза две особенности. Сама цифра на удивление точна. И потом, она неправдоподобно велика. Маловероятно, чтобы средний доход любой сколько-нибудь обширной группы был бы известен с точностью до последнего доллара. Не так уж вероятно, чтобы вы с такой же точностью можете сказать, каким был ваш собственный доход в прошлом году, разве что весь он был получен исключительно за счёт зарплаты.

Даже если в 1924 году у них там в Нью-Хейвене и имелась система доверия, то где гарантия, что и сегодня, четверть века спустя, она по-прежнему существует и все данные, представленные этими выпускниками, соответствуют действительности?»

Эксперт добавляет, что нет гарантии того, что выборка сопоставима с общим количеством выпускников, а также, что анкету заполнили не только те, кто может и хочет похвастаться своими доходами, а не те, кто устроился на более скромные должности:

«Для некоторых анкет, рассылаемых по почте, 5–10% ответивших уже считается достаточно высоким результатом. Данная анкета, надо полагать, добилась большего успеха, но её результат явно далёк от стопроцентного».

Магия процентов

Карл Саган в своей книге «Мир, полный демонов» учит читателей тонкому искусству снимать «лапшу с ушей» и рушит доверие к рекламным слоганам, в которых приводятся проценты, выставляющие продукт или услугу в выгодном свете.

Для примера можно вспомнить рекламную компанию Breitbart, согласно которой 2139 потенциальных бенефициаров законопроекта DREAM (The Development, Relief and Education for Alien Minors Act, от англ. «Развитие, помощь и образование для мигрантов», законопроект, позволяющий детям мигрантом получить высшее образование или служить в армии США, а также получить вид на жительство в США) — взрослые, нелегально прибывшие в США в детском возрасте — были осуждены или обвинены в преступлениях, совершенных против американцев. Вне контекста такая цифра пугает, но, если воспринимать её, учитывая общее количество таких мигрантов с данным статусом ― более 1,5 млн ― становится очевидно, что все не так страшно. Более того, как поясняет эксперт, граждане США в два раза чаще оказываются заключенными или обвиненными в совершении преступления, чем дети нелегальных мигрантов. Таким образом, без этих данных, которые в материале Breitbart не были представлены, воспринимать этот факт абсолютно серьезно и адекватно нет никаких причин.

Две стороны смысла

В том, как именно воспринимать цифровые и статистические данные, важен не только контекст, но и оттенок восприятия. Одни и те же цифры могут быть восприняты абсолютно по-разному, если у слушающего нет времени или желания на более глубокую рефлексию.

Так, вице-президент по поиску Google написал пост в своем блоге, где отметил на первый взгляд впечатляющие результаты анифейковых алгоритмов Google: на сотни миллиардов страниц только крошечные 0,25% выдает непристойные или откровенно вводящие в заблуждение результаты.

Однако, речь идет о количестве страниц, а не поисковых запросах. То есть, 1 из 400 запросов ведет к чуши, а если подключить к этому данные Google о запросах, то есть, порядка 5,5 млрд ежедневно, то 0, 25% выглядят уже как 13 млн запросов в день, что не кажется очень маленькой цифрой.

То есть, одни и те же данные формируют полярное впечатление, в зависимости от угла восприятия. При этом одно не исключает другое.

Условность статистика

«Ни в одной стране мира статистика не отражает реальность досконально, как и ни одна карта не является точно копией местности», ― утверждает доктор социологических наук и доцент НИУ ВШЭ Ольга Моляренко. ― «Фиксируется только то, что может быть измерено в цифрах, и только то, что интересно фиксирующему. Эту первую группу искажений я называю "редукцией реальности": карта - не территория, статистика - не социально-экономическая действительность. Вторая группа искажений включает технические проблемы и влияние самой структуры власти на сбор данных. Есть разработанные для идеальных условий методики, которые оказывается физически невозможно выполнить на практике. И вот только третья группа искажений - это те самые манипуляции и махинации со статистикой, о которых мы обычно думаем в первую очередь».

Рассуждая в этом контексте Карл Бергстром вводит термин «зомби-статистика» и поясняет:

«Зомби-статистика — это числа, которые упорно цитируются вне контекста, безнадежно устарели или были изначально выдуманы, но их приводят так часто, что они никак не упокоятся с миром».

Речь идет о псевдонаучных утверждениях, которые очень популярны в социуме, но рушатся при малейшей попытке их проверить. Например, фраза о том, что 50% процентов научных статей никто не читает. Насколько точна эта цифра?

Профессор менеджмента Артур Янг провел контрисследование, чтобы это проверить, и одним из результатов стал разговор с лектором, на основе лекций которого в 2001 году было основано несколько материалов с данным процентом. Он не мог сослаться на собственные источники, которыми пользовался и лишь вспомнил:

«У меня в конспектах ко всему есть ссылки, но точно ли я проверил их перед тем, как раздать записи, не уверен».



Комментарии
Читать также
Спите и не ходите к звездам: как избежать роковых ошибок в нетворкинге
Зерно правды: как хлопья Kellogg’s победили депрессию в США и завоевали остальной мир

Про ход конем, счастливых сотрудников и сытых астронавтов