Последний исследовательский документ Openai именно диагностирует, почему CHATGPT и другие крупные языковые модели могут создавать вещи — известные в мире искусственного интеллекта как «галлюцинацию». Это также показывает, почему проблема может быть нефиксируемой, по крайней мере, в том, что касается потребителей. Это демонстрирует, что это не просто неудачный побочный эффект того, как в настоящее время обучается ИИ, но математически неизбежна. Но используя математический анализ того, как изучаются системы ИИ, исследователи доказывают, что даже с идеальными учебными данными, проблема все еще существует. Исследователи фактически показывают, что общий уровень ошибок для генерации предложений, по крайней мере, в два раза выше, чем частота ошибок, один и тот же ИИ был бы на простом вопросе «да/нет», потому что ошибки могут накапливаться по нескольким прогнозам. Поскольку эта проблема классификации по своей природе затруднена для многих областей знаний, галлюцинации становятся неизбежными.
также оказывается, что чем меньше модель видит факт во время тренировки, тем больше вероятность галлюцинации, когда его спрашивают. Например, с деньгами примечательных цифр было обнаружено, что если 20 процентов родов таких людей появляются только один раз в учебных данных, то базовые модели должны получить не менее 20 процентов запросов на день рождения. «15-06» и «01-01». Decoding = «Async» src = «https://www.sciencealert.com/images/2025/09/chatgptbeingsusedonlaptop.jpg» alt = «Фотография экрана ноутбука, отображающего домашнюю страницу Chatgpt» width = «1024» Height = «415» Class = «wp-image-1743222-i size-size-viz-viz-viz-viz-viz-viz-viz-vize-wiz-wip-wiz-wip-1 srcset = «https://www.sciencealert.com/images/2025/09/chatgptbeingsusedonlaptop.jpg 1024W, https://www.sciencealert.com/images/2025/09/chatgptbeingudeonlaptop-642×260.jpg 642wg. https://www.sciencealert.com/images/2025/09/chatgptbeingsusonlaptop-768×311.jpg 768w, https://www.sciencealert.com/images/2025/09/chatgpteingustenonlaptop-600×243.jpg 600wgwg 600wg. Размеры = «(максимальная ширина: 1024px) 100VW, 1024px» loading = «lazy»>
Оптимальная стратегия в соответствии с такой оценкой становится ясной: всегда угадайте. Какими бы ни были шансы на то, что конкретный ответ был правильным, ожидаемый оценка догадков всегда превышает оценку воздержания, когда оценка использует бинарную оценку. «Ответ только в том случае, если вы более 75 процентов уверены, поскольку ошибки наказываются на 3 балла, в то время как правильные ответы получают 1 пункт». Так что это приведет к меньшему количеству галлюцинаций. Проблема в том, что это сделало бы с пользовательским опытом. Пользователи привыкли получать уверенные ответы практически на любой вопрос, вероятно, быстро отказались бы от таких систем.
Я видел такую проблему в другой области моей жизни. Я вовлечен в проект мониторинга качества воздуха в Солт-Лейк-Сити, штат Юта. Галлюцинации с использованием понимания бумаги. Установленные методы количественной определения неопределенности существовали в течение десятилетий. Они должны оценить множество возможных ответов и оценить уровни доверия. Для системной обработки миллионов запросов ежедневно это приводит к резко более высоким эксплуатационным затратам.
Более сложные подходы, такие как активное обучение, где системы ИИ задают разъясняющие вопросы, чтобы снизить неопределенность, могут повысить точность, но еще больше умножить вычислительные требования.
Такие методы хорошо работают в специализированных доменах, таких как проект чипов, где неправильные ответы затраты на миллионы дол и облегчение вычислительных компьютеров. Для потребительских приложений, где пользователи ожидают мгновенных ответов, экономика становится непомерно высокой. Когда агенты искусственного интеллекта обрабатывают логистику цепочки поставок, финансовую торговлю или медицинскую диагностику, стоимость галлюцинаций намного превышает расходы на получение моделей, чтобы решить, слишком ли они неопределенны. Неопределенные агенты ИИ должны будут просто стоить дороже. Пользователи хотят системы, которые дают уверенные ответы на любой вопрос. Оценки контрольных систем, которые предполагают, а не выражают неопределенность. Вычислительные затраты предпочитают быстрые, чрезмерно уверенные ответы на медленные, неопределенные. Но относительно большое количество необходимого количества вычислений по сравнению с сегодняшними предположениями останется независимо от абсолютных затрат на оборудование. Пожалуйста, не удаляй. ->
Вей Син, доцент, Школа математических и физических наук, Университет Шеффилда
Эта статья переиздана из разговора по лицензии Creative Commons. Прочитайте оригинальную статью.
Если вы хотите выделиться на своем следующем метал-концерте, не соглашайтесь на цветное пятно в море…
Свет полумиллиона спутников, которые человечество планирует запустить на орбиту Земли в ближайшие годы, может испортить…
Поскольку известные исследователи искусственного интеллекта (ИИ) видят ограничения на нынешнем этапе развития технологии, все больше…
Команда астрономов, изучающая распределение галактик в ближайшем космосе, обнаружила нечто поистине необычное: огромную нить галактик,…
Около 4,5 миллионов лет назад огромная космическая собака пронеслась мимо нашей Солнечной системы – и…
Камень на Марсе рассыпал удивительное желтое сокровище после того, как «Кьюриосити» случайно разбил его ничем…