Международное интернет-издание The Register опубликовало статью своего постоянного автора Томаса Клаберна под заголовком «Запуск ChatGPT навсегда загрязнил мир, как первые испытания атомного оружия». The Register основано в 1994 году и имеет аудиторию около 40 миллионов читателей. Клаберн с 30-летним опытом освещения технологических проблем специализируется на безопасности и этичности применения искусственного интеллекта (ИИ).
По мнению автора, с 2022 года стремительное развитие и внедрение ChatGPT и последующих моделей генеративного ИИ настолько загрязнили интернет информационным хламом, что он уже угрожает как самим технологиям, так и безопасности человечества в целом. Сегодняшняя ситуация напоминает игру в испорченный телефон, в которой все участники неумолимо глупеют. В индустрии высоких технологий такой сценарий развития называют «коллапсом модели».
Ученых беспокоит, что все разновидности ИИ учатся на синтетических данных, в которых все больше сведений, выданных самим ИИ, многократно уличенном, мягко говоря, в несовершенстве. Поэтому последующие поколения моделей ИИ могут становиться все менее и менее надежными. В качестве аналогии Клаберн приводит «Тринити» в американском штате Нью-Мексико 16 июля 1945 года и последующие испытания атомного и ядерного оружия.
Среди их последствий — проникновение в окружающую среду радионуклидов и глобальное загрязнение ими произведенных позже металлов. Точно так же, как смертоносные взрывы заразили повышенной радиацией все металлы, генеративные модели ИИ засорили бессмысленной, недостоверной и вредоносной информацией интернет. В результате возник эффект, еще не получивший названия: содержание Всемирной сети до появления в ней генеративного робота ChatGPT и его последышей, то есть до осени 2022 года, оказывается на порядок ценнее интернет-контента после того. Причина проста: до всплеска генеративных моделей ИИ в интернете было меньше абсурда, ошибок и вранья.
Вновь аналогия: к настоящему времени самую высокую ценность для научно-технологических исследований, которым мешает даже мизерное превышение нормы радиоактивности, имеют металлы, произведенные до ядерных испытаний и сохранившие хотя бы относительную радиационную чистоту. Основные источники таких металлов — корабли и самолеты, затонувшие во время Первой и Второй мировых войн. Причем чем глубже лежит судно, тем чище считается металл, из которого оно изготовлено. Именно такой особо ценится в производстве высокочувствительных научно-технических и медицинских приборов, в которых даже крохотное превышение радиации способно исказить результаты исследований и врачевания.
В своем комментарии изданию The Register научный сотрудник Центра изучения экзистенциального риска при Кембриджском университете Морис Чиодо сообщил, что использование сведений, полученных из интернета до осени 2022 года, позволяет быть уверенным в минимальном информационном загрязнении от ИИ. Более поздние сетевые данные (именно на них идет сейчас обучение ИИ) нельзя назвать ни чистыми, ни безопасными.
А ведь доступный источник «чистых данных» необходим не только для предотвращения «коллапса модели», но и для обеспечения честной конкуренции между разработчиками ИИ, писал Чиодо в своей статье в 2024 году. По его мнению, в противном случае «старые» разработчики ИИ получат преимущество, уничтожив способность «молодых» конкурентов обучать свои модели на «чистых данных».
В декабре 2024 года авторы, связанные с несколькими университетами, выразили тревогу по поводу «коллапса модели» в документе под названием «Правовые аспекты доступа к данным, созданным человеком, и другим важным входным данным для обучения ИИ». В нем говорится, что миру нужны источники «чистых данных» сродни так называемой низкорадиационной стали, чтобы поддерживать функции моделей ИИ и сохранять конкуренцию.
Одной из областей, где уже возникли трудности из‑за информационного загрязнения интернета, Томас Клаберн называет генерацию дополненного поиска (RAG). Она используется для поиска актуальных данных с использованием ИИ. Его новые модели базируют свои ответы и на информации, сгенерированной старшими собратьями. Но гарантий достоверности искусственно-интеллектуального контента никаких.
Возможна ли очистка интернета и ИИ-среды от чудовищного и постоянно нарастающего объема информационного мусора? Чиодо предполагает, что вероятным способом хотя бы частичного решения проблемы может стать как государственное, так и корпоративное регулирование. Например, обязательная маркировка продукта, произведенного ИИ, с датой и другими характеристиками выпуска. По словам ученого, более жесткие правила возможны, но будут трудно осуществимы.
«Мы обеспокоены тем, что существует большая степень необратимости, — отмечает Морис Чиодо. — Если вы полностью загрязнили все свои наборы данных, это очень трудно исправить. Сейчас неясно, насколько серьезной проблемой будет разрушение моделей ИИ, но если серьезной, то очистка будет непомерно дорогой и, вероятно, невозможной».