Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
14 марта 2025 Пропавшие миллионы: власти Антигуа продали яхту Андрея Гурьева
13 марта 2025 США прекращают выдачу лицензий для иностранных компаний, сотрудничающих с российскими нефтяными предприятиями
13 марта 2025 Госдума планирует смягчить наказание за репосты в соцсетях и предоставить время для исправления
13 марта 2025 Израильские силы атаковали командный центр протурецких сил в Дамаске, в результате чего были убиты высокопоставленные командиры
13 марта 2025 На Дальнем Востоке полицейские довели девушку до истерики, когда эвакуировали её автомобиль
13 марта 2025 Казахстан и Таджикистан возглавляют список стран по количеству переселенцев в Россию в 2024 году
13 марта 2025 Руководители компаний критикуют политику Трампа в приватной обстановке
13 марта 2025 Латвия готова убрать Михаила Фридмана из санкционного списка ЕС
13 марта 2025 Визит Стивена Уиткоффа в Москву: встреча с Путиным пройдет в закрытом формате
13 марта 2025 Трамп высказался по поводу заявлений Путина о перемирии и переговорах с Киевом
13 марта 2025 Дональд Трамп планирует аннексировать Гренландию под предлогом "обеспечения безопасности"
13 марта 2025 США откладывают заключение соглашения с Украиной по полезным ископаемым, предложив более обширный договор
13 марта 2025 США вводят санкции против Китая и Индии за транспортировку иранской нефти
13 марта 2025 «Россия не станет угрожать нашим союзникам», — заявил Дональд Трамп
13 марта 2025 Министр Трампа Говард Лютник высказался о тарифах: США усиливают давление на страны, которые возвращаются к старым методам
13 марта 2025 Руководителя «Газпром межрегионгаз Тамбов» Романа Стефанова задержали с большой партией наркотиков
13 марта 2025 Евгений Блинов был приговорен к семи с половиной годам лишения свободы за растрату в НИИСК
13 марта 2025 «Газпром» сокращает 40% сотрудников в главном офисе в «Лахта Центре»
13 марта 2025 «Русагро» и Мошкович оказались в правовой ловушке: суд признал сделки с «Жировым комбинатом» недействительными
13 марта 2025 Как Денис Мантуров и Сергей Чемезов "усилили" свое финансовое положение благодаря оборонным активам