Категории: Новости

Openai имеет исправление для галлюцинаций, но вам это действительно не понравится

Последний исследовательский документ Openai именно диагностирует, почему CHATGPT и другие крупные языковые модели могут создавать вещи — известные в мире искусственного интеллекта как «галлюцинацию». Это также показывает, почему проблема может быть нефиксируемой, по крайней мере, в том, что касается потребителей. Это демонстрирует, что это не просто неудачный побочный эффект того, как в настоящее время обучается ИИ, но математически неизбежна. Но используя математический анализ того, как изучаются системы ИИ, исследователи доказывают, что даже с идеальными учебными данными, проблема все еще существует. Исследователи фактически показывают, что общий уровень ошибок для генерации предложений, по крайней мере, в два раза выше, чем частота ошибок, один и тот же ИИ был бы на простом вопросе «да/нет», потому что ошибки могут накапливаться по нескольким прогнозам. Поскольку эта проблема классификации по своей природе затруднена для многих областей знаний, галлюцинации становятся неизбежными.

также оказывается, что чем меньше модель видит факт во время тренировки, тем больше вероятность галлюцинации, когда его спрашивают. Например, с деньгами примечательных цифр было обнаружено, что если 20 процентов родов таких людей появляются только один раз в учебных данных, то базовые модели должны получить не менее 20 процентов запросов на день рождения. «15-06» и «01-01». Decoding = «Async» src = «https://www.sciencealert.com/images/2025/09/chatgptbeingsusedonlaptop.jpg» alt = «Фотография экрана ноутбука, отображающего домашнюю страницу Chatgpt» width = «1024» Height = «415» Class = «wp-image-1743222-i size-size-viz-viz-viz-viz-viz-viz-viz-vize-wiz-wip-wiz-wip-1 srcset = «https://www.sciencealert.com/images/2025/09/chatgptbeingsusedonlaptop.jpg 1024W, https://www.sciencealert.com/images/2025/09/chatgptbeingudeonlaptop-642×260.jpg 642wg. https://www.sciencealert.com/images/2025/09/chatgptbeingsusonlaptop-768×311.jpg 768w, https://www.sciencealert.com/images/2025/09/chatgpteingustenonlaptop-600×243.jpg 600wgwg 600wg. Размеры = «(максимальная ширина: 1024px) 100VW, 1024px» loading = «lazy»>

исследователи обеспокоены моделями ИИ, показывающих диапазон обманчивого поведения. (Nicolas Maeterlinck/AFP/Getty Images) OpenAI и лучшие лидеры, которые оценивают модели искусственного интеллекта. Это показало, что девять тестов используют бинарные системы оценки, которые присуждают нулевые очки за выражение неопределенности AIS. Когда система ИИ говорит «Я не знаю», она получает такой же оценку, что и предоставление совершенно неправильной информации.

Оптимальная стратегия в соответствии с такой оценкой становится ясной: всегда угадайте. Какими бы ни были шансы на то, что конкретный ответ был правильным, ожидаемый оценка догадков всегда превышает оценку воздержания, когда оценка использует бинарную оценку. «Ответ только в том случае, если вы более 75 процентов уверены, поскольку ошибки наказываются на 3 балла, в то время как правильные ответы получают 1 пункт». Так что это приведет к меньшему количеству галлюцинаций. Проблема в том, что это сделало бы с пользовательским опытом. Пользователи привыкли получать уверенные ответы практически на любой вопрос, вероятно, быстро отказались бы от таких систем.

Я видел такую ​​проблему в другой области моей жизни. Я вовлечен в проект мониторинга качества воздуха в Солт-Лейк-Сити, штат Юта. Галлюцинации с использованием понимания бумаги. Установленные методы количественной определения неопределенности существовали в течение десятилетий. Они должны оценить множество возможных ответов и оценить уровни доверия. Для системной обработки миллионов запросов ежедневно это приводит к резко более высоким эксплуатационным затратам.

Более сложные подходы, такие как активное обучение, где системы ИИ задают разъясняющие вопросы, чтобы снизить неопределенность, могут повысить точность, но еще больше умножить вычислительные требования.

Такие методы хорошо работают в специализированных доменах, таких как проект чипов, где неправильные ответы затраты на миллионы дол и облегчение вычислительных компьютеров. Для потребительских приложений, где пользователи ожидают мгновенных ответов, экономика становится непомерно высокой. Когда агенты искусственного интеллекта обрабатывают логистику цепочки поставок, финансовую торговлю или медицинскую диагностику, стоимость галлюцинаций намного превышает расходы на получение моделей, чтобы решить, слишком ли они неопределенны. Неопределенные агенты ИИ должны будут просто стоить дороже. Пользователи хотят системы, которые дают уверенные ответы на любой вопрос. Оценки контрольных систем, которые предполагают, а не выражают неопределенность. Вычислительные затраты предпочитают быстрые, чрезмерно уверенные ответы на медленные, неопределенные. Но относительно большое количество необходимого количества вычислений по сравнению с сегодняшними предположениями останется независимо от абсолютных затрат на оборудование. Пожалуйста, не удаляй. ->

Вей Син, доцент, Школа математических и физических наук, Университет Шеффилда

Эта статья переиздана из разговора по лицензии Creative Commons. Прочитайте оригинальную статью.

Виктория Ветрова

Космос полон тайн...

Недавние Посты

Астронавты показали важнейший медицинский инструмент, использованный во время кризиса на МКС

КАП-КАНАВЕРАЛ, Флорида (AP) – Астронавты, эвакуированные на прошлой неделе с Международной космической станции, говорят, что…

22.01.2026

Суни Уильямс уходит в отставку после рекордной космической карьеры и последней злополучной миссии

Астронавт НАСА, застрявший в космосе на девять месяцев из-за проблем с космическим кораблем, вышел на…

22.01.2026

Ученые открыли новое квантовое состояние материи, которое когда-то считалось невозможным

Квантовое состояние материи появилось в материале, где физики считали это невозможным, что заставило переосмыслить условия,…

21.01.2026

Полярные бури на Юпитере и Сатурне выявили глубокие различия в атмосфере

Две крупнейшие планеты Солнечной системы – Юпитер и Сатурн – имеют много общего. Они сделаны…

20.01.2026

Наблюдайте за полярным сиянием: сильная солнечная буря обрушилась на Землю

Земля в настоящее время находится под бомбардировкой одной из самых мощных категорий геомагнитных бурь, которые…

20.01.2026

Самому продолжительному лабораторному эксперименту в мире почти 100 лет

Иногда наука может быть мучительно медленной. Данные поступают по крохам, правда струится, а правдивость оказывается…

19.01.2026