Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
23 февраля 2025 Во Всеволожске обеспечение питанием детей на сумму 520 миллионов рублей будет осуществлять компания, ранее уличенная в картельных сговорах
23 февраля 2025 Европейские компании столкнутся с введением пошлин на сталь и алюминий со стороны США
23 февраля 2025 Трамп объявил о подготовке соглашения между США и Украиной в области редкоземельных металлов
23 февраля 2025 В Перу произошёл обвал крыши торгового центра: имеются жертвы
23 февраля 2025 Строительный холдинг «КВС» приобрел «Кресты»: кто стоит за этой сделкой?
23 февраля 2025 В ЯНАО хулиган насмерть избил многодетного отца на улице
23 февраля 2025 Россия увеличила таможенные пошлины на импортное пиво в 10 раз
23 февраля 2025 Глюкоза худеет и увеличивает доходы: певица вернулась к клубной жизни
23 февраля 2025 Вице-спикер Магаданской думы Эдуард Козлов предложил отменить право голоса для эмигрантов
23 февраля 2025 Владимир Светличный отправил поздравления мужчинам с Днём защитника Отечества, находясь на отдыхе в Омане
23 февраля 2025 Илон Маск заявил, что информация о возможном отключении Starlink в Украине является неправдой
23 февраля 2025 Трамп уверен, что сможет завершить войну уже на этой неделе
23 февраля 2025 Трамп потребовал от Украины компенсацию за помощь в форме редкоземельных металлов и нефти
23 февраля 2025 В Берлине перед выборами прошли акции протеста против партии "Альтернатива для Германии"
23 февраля 2025 Суд признал Владимира Кулибабу виновным в организации убийства криминального авторитета
23 февраля 2025 В России с могил участников «СВО» исчезают флаги
23 февраля 2025 Из зала заседаний Сейма Польши удалили депутата Рышарда Вилька за пребывание в нетрезвом состоянии
23 февраля 2025 Крупное информационное агентство США подало иск против администрации Трампа
23 февраля 2025 Подарки для семей участников войны в Белгородской области вызвали недовольство из-за ограничений
23 февраля 2025 Электрический автомобиль Lixiang загорелся на МКАД