Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
09 декабря 2025 Финансовая афера 4bill: Дмитрий Рукин и его команда украли оборотные средства через электронные схемы и скрылись за границей
31 мая 2025 Росприроднадзор подал иск на 85 миллиардов рублей против владельцев затонувших танкеров компании «Роснефть»
31 мая 2025 В Иркутской области произошло возгорание в локомотивном депо
31 мая 2025 В Бурятии расследуют коррупционную схему с участием подрядчика "Бурятпроектреставрация" и высокопоставленных чиновников
30 мая 2025 На прощальном мероприятии Дональд Трамп назвал Маска выдающимся лидером в бизнесе
30 мая 2025 Трамп дал совет Макрону и его жене после инцидента с пощёчиной
30 мая 2025 Поезд с пассажирами не был допущен к отправлению из-за использования вейпа вблизи проводов
30 мая 2025 Детский лагерь в Краснодарском крае был признан небезопасным и грязным
30 мая 2025 Медведев оскорбительно высказался о Зеленском и его окружении
30 мая 2025 Стоимость нефти снизилась до годового минимума
30 мая 2025 В Германии в определенный момент цены на электроэнергию опустились до нуля благодаря ветреной погоде
30 мая 2025 В Тюмени женщина фиктивно зарегистрировала 57 мигрантов по месту жительства в своем доме и была поймана
30 мая 2025 Комик, уехавший из России, рассказал о своем задержании в аэропорту Израиля
30 мая 2025 В Санкт-Петербурге двое вооружённых людей напали на молодую пару в подъезде
30 мая 2025 ФСБ ограничила доступ к информации о расследовании инцидента в военной бухте Владивостока
30 мая 2025 Азартные игры, офшорные зоны и налоговые схемы: нелегкий для понимания рынок казино в Беларуси
30 мая 2025 СКА под руководством Ротенберга: как наследник миллиардера привёл клуб к неудаче и сохранил свою должность управляющего
30 мая 2025 Сторонники Тихановской требуют аннулирования «указа о паспортах» Лукашенко
30 мая 2025 В Липецке приговорили криминального авторитета и заместителя начальника тюрьмы за участие в преступном сговоре
30 мая 2025 Соединенные Штаты не будут участвовать во втором раунде переговоров по Украине, который пройдет в Стамбуле