Исследование характеристик фейковых и достоверных новостей с использованием датасета FakeNewsNet
Новиков И.В.
Аннотация: В статье исследуются лексические различия между фейковыми и достоверными новостями, что является актуальной проблемой в условиях широкого распространения дезинформации в социальных сетях и медиапространстве. Для анализа использовался датасет FakeNewsNet, который включает размеченные новостные статьи и твиты с таких фактчекинговых платформ, как Politifact и GossipCop. Исследование проводилось на основе анализа униграмм (отдельных слов) из текстов новостей. Результаты, представленные в виде столбчатых диаграмм, показали, что фейковые новости преимущественно сфокусированы на именах знаменитостей, что указывает на узкую тематическую направленность. В то же время достоверные новости демонстрируют более широкий и сбалансированный тематический спектр, включая как общие новостные термины, так и слова, связанные с поп-культурой, а также временные и контекстные маркеры, характерные для верифицируемой информации. FakeNewsNet признается ценным ресурсом для разработки моделей по обнаружению фейковых новостей и анализу их распространения.
Ключевые слова: фейковые новости, достоверные новости, FakeNewsNet, униграммы, лексический анализ, дезинформация.
Распространение фейковых новостей в социальных сетях и медиапространстве представляет серьёзную проблему для общества. Автоматическое выявление дезинформации требует анализа лингвистических особенностей текстов. В данной работе исследуются лексические различия между фейковыми и достоверными новостями на основе датасета FakeNewsNet.
FakeNewsNet – это датасет для анализа фейковых новостей и их распространения в социальных сетях, в частности в Twitter. Он включает новостные статьи и связанные с ними твиты, размеченные как достоверные или фейковые на основе проверки фактчекинговыми платформами (организации, которые занимаются проверкой достоверности заявлений, новостей, и другой информации), такими как Politifact и GossipCop. В датасет входят тексты новостей, метаданные (авторы, даты публикации, источники), а также социальные взаимодействия – лайки, репосты, ответы и сеть пользователей, участвовавших в обсуждении. FakeNewsNet позволяет исследовать не только содержание дезинформации, но и то, как она распространяется в соцсетях, какие пользователи её продвигают и как реагирует аудитория. Датасет применяется в задачах машинного обучения и NLP, например для автоматического обнаружения фейковых новостей, анализа стилистических особенностей дезинформации и предсказания виральности (степень, с которой информация быстро распространяется) поддельных новостей. Включает два основных подмножества: Politifact (политические новости) и GossipCop (новости о знаменитостях). Объём данных варьируется в зависимости от версии, но обычно содержит тысячи размеченных статей с сопутствующими твитами и социальным контекстом.
Для анализа использовались униграммы (отдельные слова) из текстов новостей. Были построены столбчатые диаграммы, отражающие частоту встречаемости ключевых слов в двух категориях: фейковые новости и достоверные новости.
Графики позволяют визуализировать тематические и стилистические различия между ними.
На рисунках 1 и 2 представлены столбчатые диаграммы униграмм.
Рисунок 1 – Униграммы для недостоверных новостей
В целом график демонстрирует, что в анализируемом подмножестве фейковых новостей доминирует тематика, связанная со знаменитостями и развлекательной индустрией. Преобладание имен знаменитостей при отсутствии других общих или разнообразных тематических терминов свидетельствует о узкой и специфической направленности этих фейковых новостей.
Рисунок 2 – Униграммы для достоверных новостей
График для достоверных новостей демонстрирует более сбалансированное распределение тем по сравнению с фейковыми новостями, включая как общие новостные термины и временные метки, так и элементы поп-культуры и развлечений. Это подтверждает, что достоверные новости охватывают более широкий спектр информации, характерных для традиционной журналистики. Включение слов «2018» и «says» указывает на привязку к конкретным датам, событиям и цитатам, что является характерным признаком фактической и верифицируемой информации в новостном контенте.
Использование датасета FakeNewsNet и анализ униграмм позволили выявить четкие лексические различия между фейковыми и достоверными новостями: первые в большей степени сфокусированы на знаменитостях, а вторые имеют более широкую и контекстуально обусловленную тематику. FakeNewsNet является ценным ресурсом для дальнейших исследований в области обнаружения дезинформации и понимания её распространения.
Материалы на данной страницы взяты из открытых источников либо размещены пользователем в соответствии с договором-офертой сайта. Вы можете сообщить о нарушении.