Цифровой эквивалент инбридинга может привести к краху ИИ сам по себе

Цифровой эквивалент инбридинга может привести к краху ИИ сам по себе

Пророки искусственного интеллекта (ИИ) и распространители новостей предсказывают конец ажиотажа вокруг генеративного ИИ, говоря о надвигающемся катастрофическом «коллапсе модели».

Но насколько реалистичны эти прогнозы? И вообще, что такое коллапс модели?

Обсуждаемый в 2023 году, но популяризированный совсем недавно, «коллапс модели» относится к гипотетическому сценарию, в котором будущие системы ИИ становятся все более тупыми из-за увеличения количества данных, генерируемых ИИ, на планете. Интернет.

Потребность в данных

Современные системы искусственного интеллекта создаются с использованием машинного обучения. Программисты создают базовую математическую структуру, но настоящий «интеллект» возникает в результате обучения системы имитировать закономерности в данных.

Но не просто любые данные. Нынешнему поколению генеративных систем искусственного интеллекта необходимы высококачественные данные, и в большом количестве.

Чтобы получить эти данные, крупные технологические компании, такие как OpenAI, Google, Meta и Nvidia, постоянно просматривают Интернет, собирая терабайты данных. контент для питания машин. Но с появлением в 2022 году широко доступных и полезных генеративных систем искусственного интеллекта люди все чаще загружают и делятся контентом, частично или полностью созданным искусственным интеллектом.

В 2023 году исследователи начали задаваться вопросом, могут ли они это сделать. безнаказанно полагаться для обучения только на данные, созданные ИИ, а не на данные, сгенерированные человеком.

Существуют огромные стимулы для того, чтобы это работало. Помимо того, что контент, созданный искусственным интеллектом, быстро распространяется в Интернете, его источник гораздо дешевле, чем человеческие данные. Массовый сбор также не является сомнительным с этической и юридической точек зрения.

Однако исследователи обнаружили, что без высококачественных человеческих данных системы ИИ, обученные на данных, созданных ИИ, становятся все тупее и тупее по мере того, как каждая модель учится на них. предыдущий. Это похоже на цифровую версию проблемы инбридинга.

Подобное «регургивное обучение», похоже, приводит к снижению качества и разнообразия моделей поведения. Качество здесь примерно означает сочетание полезности, безвредности и честности. Под разнообразием понимаются различия в ответах, а также то, какие культурные и социальные взгляды людей представлены в результатах ИИ.

Короче: используя системы ИИ так часто, мы можем загрязнить тот самый источник данных, который нам нужен. в первую очередь сделайте их полезными.

Как избежать коллапса

Не могут ли крупные технологические компании просто отфильтровать контент, созданный ИИ? Не совсем. Технологические компании уже тратят много времени и денег на очистку и фильтрацию собираемых данных. Один инсайдер отрасли недавно рассказал, что они иногда отбрасывают до 90 % данных, которые изначально собирают для моделей обучения.

Эти усилия могут стать более требовательными, поскольку необходимость специально удалять контент, созданный ИИ, возрастает. Но что еще более важно, в долгосрочной перспективе будет все труднее и труднее различать контент ИИ. Это превратит фильтрацию и удаление синтетических данных в игру с убывающей (финансовой) отдачей.

В конечном итоге исследования показывают, что мы просто не можем полностью отказаться от человеческих данных. В конце концов, именно отсюда возникает «я» в искусственном интеллекте.

Мы приближаемся к катастрофе?

Есть намеки на то, что разработчикам уже приходится усерднее работать над поиском высокоэффективных технологий. качественные данные. Например, в документации, сопровождающей выпуск GPT-4, указано беспрецедентное количество сотрудников, задействованных в частях проекта, связанных с данными.

Возможно, у нас также заканчиваются новые данные о людях. По некоторым оценкам, пул текстовых данных, созданных человеком, может быть исчерпан уже в 2026 году.

Вероятно, именно поэтому OpenAI и другие стремятся укрепить эксклюзивные партнерские отношения с гигантами отрасли, такими как Shutterstock, Associated Press и НовостиКорп. Они владеют большими частными коллекциями человеческих данных, которые недоступны в общедоступном Интернете.

Однако перспективы катастрофического краха модели могут быть преувеличены. Большинство исследований на данный момент рассматривают случаи, когда синтетические данные заменяют человеческие данные. На практике данные о людях и искусственном интеллекте, скорее всего, будут накапливаться параллельно, что снижает вероятность коллапса.

Наиболее вероятный сценарий будущего также приведет к тому, что для создания и публикации будет использоваться экосистема несколько разнообразных генеративных платформ искусственного интеллекта. контент, а не одну монолитную модель. Это также повышает устойчивость к краху.

Это хорошая причина для регулирующих органов поощрять здоровую конкуренцию путем ограничения монополий в секторе искусственного интеллекта и финансировать разработку технологий, представляющих общественный интерес.

Реальные проблемы

Существуют и более тонкие риски, связанные с слишком большим количеством контента, созданного искусственным интеллектом.

Поток синтетического контента, возможно, и не представляет реальной угрозы для прогресса развития искусственного интеллекта, но он угрожает цифровое общественное благо (человеческого) Интернета.

Например, исследователи обнаружили падение активности на веб-сайте кодирования StackOverflow на 16 % через год после выпуска ChatGPT. Это говорит о том, что помощь ИИ, возможно, уже снижает уровень межличностного взаимодействия в некоторых онлайн-сообществах.

Гиперпроизводство контент-ферм на базе ИИ также затрудняет поиск контента, который не является кликбейтом и напичкан рекламой.

Становится невозможно надежно отличить контент, созданный человеком, от контента, созданного искусственным интеллектом. Одним из способов исправить это может быть использование водяных знаков или маркировка контента, созданного искусственным интеллектом, как я и многие другие недавно подчеркнули и как это отражено в недавнем временном законодательстве австралийского правительства.

Существует и еще один риск. Поскольку контент, создаваемый ИИ, становится систематически однородным, мы рискуем потерять социо-культурное разнообразие, а некоторые группы людей могут даже столкнуться с культурным стиранием. Нам срочно необходимы междисциплинарные исследования социальных и культурных проблем, создаваемых системами искусственного интеллекта.

Взаимодействие между людьми и человеческие данные важны, и мы должны их защищать. Ради нас самих, а также, возможно, ради возможного риска краха модели в будущем.Разговор p>

Аарон Дж. Сносуэлл, научный сотрудник в области подотчетности в области искусственного интеллекта, Технологический университет Квинсленда

Эта статья переиздана из журнала The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.

logo