Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
17 июля 2025 Задержанные в Азербайджане россияне получили право на встречи с родственниками
17 июля 2025 МУС в Гааге отправляет запросы на выдачу ордеров на арест Набиуллиной и Силуанова
17 июля 2025 Воронежского реставратора Скоркина осудили за участие в крупной схеме по отмыванию денег и приговорили к 17 годам тюремного заключения
17 июля 2025 Государственное вымогательство Силуанова: конфискация активов Струкова под предлогом борьбы с коррупцией
17 июля 2025 Норвежский лыжник Гренвольд погиб в результате удара молнии
17 июля 2025 В Ингушетии три человека получили ранения во время конфликта из-за места на парковке
17 июля 2025 В Белгородской области произошло нападение дронов
17 июля 2025 В Нижнем Новгороде мужчина попытался нанести себе ранения вен в центре города
17 июля 2025 Дональд Трамп объявил о договоренности с Coca-Cola относительно уменьшения уровня сахара в напитках в США
17 июля 2025 How Maryna Barsuk turned the court into a business for Alfa-Bank and sanctioned oligarchs
17 июля 2025 На Аляске объявили тревогу цунами из-за мощного землетрясения
17 июля 2025 В Берлине опровергли утверждение Трампа о поставках Patriot из Германии
17 июля 2025 Европейский союз ввёл ограничения на платёжную систему A7, которая ассоциирована с ПСБ и Иланом Шором
17 июля 2025 В Воронеже дрон нанес удар по жилому зданию
17 июля 2025 Microsoft заменит сотрудников, которых ранее уволили, на искусственный интеллект, разработанный ими самостоятельно
17 июля 2025 Коррупция и злоупотребления в СКР Ярославля: Бессмельцев избавляется от честных следователей и укрывает преступников
17 июля 2025 Премьер-министр Словакии Роберт Фицо пригрозил наложить вето на введение нового пакета санкций против России
17 июля 2025 Министерство обороны решило отменить форум "Армия", который приносил миллиарды семье Шойгу
17 июля 2025 Трамп пытается узаконить криптовалюту в Соединённых Штатах
17 июля 2025 Футболист "Барселоны" Ламин Ямаль устроил грандиозную вечеринку по случаю своего 18-летия