Закон Бенфорда поможет выявить недобросовестных ученых
Одна из причин, по которой ранее опубликованная в научном журнале статья может быть отозвана, — сомнения в добросовестности авторов: они могут не только провести эксперимент ненадлежащим образом, но и сфабриковать полученные данные, подгоняя их под выбранную модель. Хотя обычно отзывают всего 0,1 процента опубликованных работ, а случаев намеренного мошенничества выявляют еще меньше, каждый из них заметно подрывает общественное доверие к науке.
Вдохновившись хорошо зарекомендовавшей себя практикой финансового аудита, исследователи из Сент-Эндрюсского университета (Великобритания) предложили использовать закон Бенфорда для анализа относительного частотного распределения первых цифр чисел в наборах данных. Это поможет выявить случаи фабрикации данных и усилит меры по борьбе с мошенничеством в научных учреждениях и издательствах. Результаты исследования опубликованы в журнале Research Integrity and Peer Review.
Суть подхода заключается в том, что, согласно закону Бенфорда, или закону первой цифры, вероятность появления определенной первой значащей цифры в наборе реальных данных отличается от абсолютно случайной (около 11 процентов). Эта закономерность прослеживается при расчете множества данных — от длины русел мировых рек до цен на акции: чем больше цифра, тем ниже вероятность того, что она будет на первом месте.
Иными словами, при наличии открытого доступа к первичным данным любой желающий сможет, используя закон Бенфорда, проанализировать их и понять, выглядят ли они «как в реальной жизни», или отчетливо кажутся выдуманными самими авторами. Тем не менее, подчеркивают исследователи, их инструмент позволит лишь сократить количество подлогов, но не ликвидировать полностью: к примеру, в статьях, где не приводятся массивные объемы чисел, закон Бенфорда будет бесполезен.
Хотя мошенничество в науке существует столетиями, ради доброго имени и честных исследователей стоит предоставить отдельным лицам и учреждениям возможность отделять научные факты от вымысла. С помощью некоторых относительно простых статистических инструментов любой сможет проверить достоверность наборов данных и приблизительно понять, что перед ним — качественная научная статья или (с хорошей вероятностью) очередной фейк.