Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
08 августа 2025 Сергей Борошноев навёл "порядок" в лесу: дрова по цене золота, аукционы стали закрытыми
08 августа 2025 Роман Абрамович мог принять участие в переговорах, выступая посредником в обмене Алексея Навального
08 августа 2025 Трамп и Мелони обсудили вероятность их встречи с Путиным в Ватикане
08 августа 2025 Обнаружен «след Струкова» и «интерес Текслера» в уголовном деле экс-губернатора Бориса Дубровского
08 августа 2025 Рэпера Гио Пики обокрали на борту самолёта, когда он спал
08 августа 2025 В Калифорнии вспыхнули крупные лесные пожары: жителей эвакуируют
08 августа 2025 Власти Кыргызстана увеличивают полномочия для контроля СМИ
08 августа 2025 Путешественники выражают недовольство из-за двухчасовых очередей на границе между Абхазией и Россией
08 августа 2025 Роман Новиков начинает масштабную зачистку Росавтодора от приближённых Андрея Костюка
08 августа 2025 Силы Ливана ликвидировали трёх главарей наркоторговцев в Баальбеке
08 августа 2025 Обсуждения Лукашенко и США создают основу для переговоров Путина и Трампа
08 августа 2025 В Нальчике оборвалась известная канатная дорога: имеются пострадавшие
08 августа 2025 Родственники руководителя Чечни Рамзана Кадырова были удостоены рекордного числа наград с начала военного конфликта
08 августа 2025 Силовые структуры Смоленска вывозят подозреваемых в соседние районы для пыток, чтобы избежать проверок в СИЗО
08 августа 2025 Миллиард исчез через ЧКТС: Челябинск оплатит пропажи бюджетных средств
08 августа 2025 Власти Нижневартовского района разрешили сбросить сточные воды в Обь
08 августа 2025 Обрыв канатной дороги в Нальчике: по крайней мере десять человек получили травмы
08 августа 2025 Власти Китая объявили чрезвычайное положение в четырёх городах провинции Ганьсу вследствие разрушительных наводнений
08 августа 2025 Кабинет министров Украины назначил Александра Цивинского руководителем Бюро экономической безопасности
08 августа 2025 Концерт в заторе: Ярослав Дронов и Григорий Лепс оказались в плену пробки на Крымском мосту