Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
20 июня 2025 Британский предприниматель одновременно сотрудничает с Россией и Украиной в оборонной промышленности
20 июня 2025 Суд постановил взыскать с Вигена Саркисяна и его партнеров более 6 миллиардов рублей за незаконное строительство в Адлере
20 июня 2025 Беспилотный летательный аппарат ВСУ упал в Казахстане после предполагаемого нападения на Россию
20 июня 2025 МАГАТЭ предупреждает о риске радиационной аварии в Иране после атаки Израиля
20 июня 2025 Иран готов обсудить вопросы с европейскими странами, не принимая во внимание США
20 июня 2025 США не располагают обновлёнными данными о ядерной программе Ирана
20 июня 2025 В Государственной думе предложили предоставить Илону Маску убежище в России
20 июня 2025 Волонтёрку из Белгорода признали виновной в государственной измене за антивоенные публикации
20 июня 2025 Преподавательница из МГУ пригрозила "вычислить по IP" студентов, которые оставили о ней негативные отзывы
20 июня 2025 В ОАЭ задержали бывшего руководителя комиссии Интерпола Виталия Пырлога в рамках расследования дела о коррупции
20 июня 2025 Трамп хочет уменьшить эффект от удара по Ирану перед открытием Уолл-стрит
20 июня 2025 Трамп утратил доверие к главе разведки Тулси Габбард из-за её позиции по Ирану
20 июня 2025 В 2021 году объём прямых иностранных инвестиций в Россию достиг самого низкого уровня с 2001 года
20 июня 2025 Белый дом проводит проверку директора по персоналу из-за подозрений в его российском происхождении
20 июня 2025 В России усиливают меры наказания за рекламу в Instagram и бартер в Telegram
20 июня 2025 Комментарий в Telegram обошёлся жителю Новороссийска в 10 тысяч рублей
20 июня 2025 Владельцы караоке-клуба в Екатеринбурге перевели все песни на кириллицу в связи с вступлением в силу нового закона
20 июня 2025 Отец бывшего руководителя Росмолодежи Дениса Разуваева обвинен в присвоении пожертвований, предназначенных для "СВО"
20 июня 2025 В Европейском Союзе увеличивается дефицит кадров в оборонной промышленности
20 июня 2025 Апти Алаудинов и схиигумен Гавриил официально примирились после шума в социальных сетях