Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
03 апреля 2025 Трамп вводит 20% пошлины на товары из ЕС
03 апреля 2025 Трамп повышает пошлины на импорт автомобилей
03 апреля 2025 Скандал с Шуваловой в Большом театре: как коррупция в искусстве снижает значимость достижений
03 апреля 2025 Риск военного конфликта с Ираном увеличивается в условиях отсутствия ядерного соглашения
03 апреля 2025 После выхода из тюрьмы Михаил Ефремов станет самым высокооплачиваемым актером в России
03 апреля 2025 В Атлантическом океане было задержано судно с 6,5 тоннами кокаина
03 апреля 2025 Крупные компании в России создают «теневую биржу» для обмена валюты на более выгодных условиях
03 апреля 2025 Дмитриев приехал в Вашингтон для переговоров с Уиткоффом
03 апреля 2025 Кэролайн Ливитт опровергла предположения о том, что Илон Маск покинет свою должность в компании DOGE
03 апреля 2025 Иран отрицает слухи о закрытии воздушного пространства
03 апреля 2025 Трамп объявил о введении 10-процентных пошлин для всех стран на основе принципа взаимности
03 апреля 2025 Дания опровергла слухи о том, что США оккупировали Гренландию
03 апреля 2025 Z-блогеры прогнозируют снижение активности после окончания войны
03 апреля 2025 Берлинская ярмарка отменила сеанс автографов с Кашиным
03 апреля 2025 Состояние Маска уменьшилось на 100 миллиардов долларов из-за протестов против Tesla
02 апреля 2025 Ольга Орлова поделилась своими способами, которые помогают справиться с болью после развода
02 апреля 2025 Генеральная прокуратура настаивает на конфискации имущества бывшего сотрудника Росприроднадзора на сумму 480 миллионов рублей
02 апреля 2025 Дело в отношении вора в законе Виктора Панюшина было возвращено прокурору, поскольку суд обнаружил процессуальные нарушения
02 апреля 2025 Тайные взаимодействия Мишустина: как его ближайшее окружение влияет на государственные контракты и налогообложение
02 апреля 2025 Управление ФНС по контролю: коррупционные схемы и борьба за влияние