Поскольку искусственный интеллект (ИИ) достигает пика своей популярности, исследователи предупреждают, что в отрасли могут заканчиваться обучающие данные – топливо, которое питает мощные системы ИИ.
Это может замедлить рост моделей искусственного интеллекта, особенно больших языковых моделей, и может даже изменить траекторию революции искусственного интеллекта.
Но почему потенциальная нехватка данных является проблемой, учитывая, как их много в сети? И есть ли способ справиться с этим риском?
Нам нужно много данных для обучения мощным, точные и качественные алгоритмы искусственного интеллекта. Например, ChatGPT был обучен на 570 гигабайтах текстовых данных, или около 300 миллиардах слов.
Аналогично, стабильный алгоритм диффузии (который лежит в основе многих приложений для создания изображений с искусственным интеллектом, таких как DALL-E, Lensa и Midjourney) обучался на наборе данных LIAON-5B, состоящем из 5,8 миллиардов пар изображение-текст. Если алгоритм обучен на недостаточном объеме данных, он будет давать неточные или некачественные результаты.
Качество обучающих данных также важно. Данные низкого качества, такие как сообщения в социальных сетях или размытые фотографии, легко получить, но их недостаточно для обучения высокопроизводительных моделей искусственного интеллекта.
Текст, взятый из социальных сетей, может быть предвзятым или предвзятым, или может включать дезинформацию или незаконный контент, который может быть воспроизведен моделью. Например, когда Microsoft попыталась обучить своего ИИ-бота с помощью контента Twitter, она научилась генерировать расистские и женоненавистнические материалы.
Вот почему разработчики ИИ ищут высококачественный контент, такой как текст из книг, онлайн-статьи. , научные статьи, Википедия и определенный отфильтрованный веб-контент. Google Ассистент был обучен на 11 000 любовных романах, взятых с сайта самостоятельной публикации Smashwords, чтобы сделать его более разговорным.
Индустрия искусственного интеллекта обучает системы искусственного интеллекта. на все более крупных наборах данных, поэтому теперь у нас есть высокопроизводительные модели, такие как ChatGPT или DALL-E 3. В то же время исследования показывают, что запасы онлайн-данных растут гораздо медленнее, чем наборы данных, используемые для обучения ИИ.
В статье, опубликованной в прошлом году, группа исследователей предсказала, что у нас закончатся высококачественные текстовые данные до 2026 года, если нынешние тенденции в обучении ИИ сохранятся. Они также подсчитали, что низкокачественные языковые данные будут исчерпаны где-то между 2030 и 2050 годами, а данные изображений низкого качества — между 2030 и 2060 годами.
ИИ может внести до 15,7 триллионов долларов США (24,1 триллионов австралийских долларов) в Мировая экономика к 2030 году, по данным бухгалтерско-консалтинговой группы PwC. Но нехватка пригодных для использования данных может замедлить его развитие.
Хотя приведенные выше моменты могут встревожить некоторых поклонников ИИ, ситуация может быть не такой плохой, как кажется на первый взгляд. кажется. Есть много неизвестных о том, как модели ИИ будут развиваться в будущем, а также о некоторых способах устранения риска нехватки данных.
Одна из возможностей — для разработчиков ИИ улучшить алгоритмы, чтобы они могли использовать те данные, которые им нужны. уже более эффективны.
Вероятно, в ближайшие годы они смогут обучать высокопроизводительные системы искусственного интеллекта, используя меньше данных и, возможно, меньшую вычислительную мощность. Это также поможет сократить выбросы углекислого газа в атмосферу.
Другой вариант — использовать ИИ для создания синтетических данных для обучения систем. Другими словами, разработчики могут просто генерировать необходимые им данные, подобранные в соответствии с их конкретной моделью искусственного интеллекта.
Некоторые проекты уже используют синтетический контент, часто полученный из сервисов генерации данных, таких как Mostly AI. В будущем это станет более распространенным явлением.
Разработчики также ищут контент за пределами бесплатного онлайн-пространства, например, хранящийся у крупных издателей и в автономных репозиториях. Подумайте о миллионах текстов, опубликованных до появления Интернета. Доступные в цифровом формате, они могут стать новым источником данных для проектов искусственного интеллекта.
News Corp, один из крупнейших в мире владельцев новостного контента (большая часть контента которого защищена платным доступом), недавно заявила, что ведет переговоры. контент связан с разработчиками ИИ. Такие сделки вынудят компании, занимающиеся искусственным интеллектом, платить за данные для обучения, тогда как до сих пор они в основном собирали их из Интернета бесплатно.
Создатели контента протестовали против несанкционированного использования их контента для обучения моделей искусственного интеллекта. некоторые судятся с такими компаниями, как Microsoft, OpenAI и Stability AI. Вознаграждение за свою работу может помочь частично восстановить дисбаланс сил, существующий между творческими людьми и компаниями, занимающимися искусственным интеллектом.
Рита Матулионите, старший преподаватель права, Университет Маккуори
Эта статья переиздана из The Conversation под лицензией Creative Commons. Прочтите оригинал статьи.
Математика, которую Альберт Эйнштейн разработал для описания гравитационного механизма физической Вселенной в начале 20 века,…
В последние годы астрономы разработали методы измерения содержания металлов в звездах с чрезвычайной точностью. Обладая…
Какими бы эффективными ни были электронные системы хранения данных, они не имеют ничего общего с…
В 1896 году немецкий химик Эмиль Фишер заметил нечто очень странное в молекуле под названием…
Если вам посчастливилось наблюдать полное затмение, вы наверняка помните ореол яркого света вокруг Луны во…
В ранней Вселенной, задолго до того, как они успели вырасти, астрономы обнаружили то, что они…