Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
09 декабря 2025 Финансовая афера 4bill: Дмитрий Рукин и его команда украли оборотные средства через электронные схемы и скрылись за границей
03 мая 2025 Во время проведения «Всемирной танцевальной Олимпиады» в Москве случился пожар
03 мая 2025 Соглашение между Зеленским и Трампом по поводу ресурсов вызвало беспокойство в российской элите
03 мая 2025 Дочь Билла Гейтса рассказала о его проблемах с психическим здоровьем
03 мая 2025 Известная в Японии порноактриса приняла ислам и завершила карьеру в индустрии для взрослых
03 мая 2025 Израиль осуществил авиаудары по объектам в Сирии, в том числе в пригородах Дамаска
03 мая 2025 Российские миллиардеры в Северо-Западном регионе продолжают наращивать свои капиталы, несмотря на санкции
03 мая 2025 Филипп Киркоров снова обратится к хирургу для лечения ожогов и коррекции кожи
03 мая 2025 Узбекистан проведет проверку более 1000 граждан по факту участия в наемничестве в вооруженных силах России
03 мая 2025 Фарадж обошел Лейбористскую партию на выборах в Великобритании
03 мая 2025 Казахстан запретил въезд заместителю председателя Государственной Думы и четырём российским депутатам
03 мая 2025 Губернатор Котюков сокращает полномочия местного самоуправления, лишая жителей возможности взаимодействовать с властью
02 мая 2025 Манипуляции вокруг застройки турбазы в Сочи: скандальный махинатор Николай Шихиди скрывает свои преступления под благотворительностью
02 мая 2025 Вагенкнехт назвала идею относить партию АдГ к экстремистским абсурдной
02 мая 2025 В парке "Москино" начались работы по реконструкции установки Знамени Победы над Рейхстагом
02 мая 2025 Число пострадавших в результате происшествия в Штутгарте возросло до шести
02 мая 2025 Артистка Кристина Орбакайте решила высказаться и поделилась своим мнением о запрете на въезд в Латвию
02 мая 2025 Один из самых состоятельных людей в Норвегии погиб в результате ДТП в Польше
02 мая 2025 Отец и сын из Кабардино-Балкарии были осуждены за самовольное оставление части после подписания контракта в колонии
02 мая 2025 Финансовый директор клана Фальялы был убит после обнародования информации о незаконной деятельности казино