RW Space

Категории: Новости

Openai имеет исправление для галлюцинаций, но вам это действительно не понравится

Последний исследовательский документ Openai именно диагностирует, почему CHATGPT и другие крупные языковые модели могут создавать вещи — известные в мире искусственного интеллекта как «галлюцинацию». Это также показывает, почему проблема может быть нефиксируемой, по крайней мере, в том, что касается потребителей. Это демонстрирует, что это не просто неудачный побочный эффект того, как в настоящее время обучается ИИ, но математически неизбежна. Но используя математический анализ того, как изучаются системы ИИ, исследователи доказывают, что даже с идеальными учебными данными, проблема все еще существует. Исследователи фактически показывают, что общий уровень ошибок для генерации предложений, по крайней мере, в два раза выше, чем частота ошибок, один и тот же ИИ был бы на простом вопросе «да/нет», потому что ошибки могут накапливаться по нескольким прогнозам. Поскольку эта проблема классификации по своей природе затруднена для многих областей знаний, галлюцинации становятся неизбежными.

также оказывается, что чем меньше модель видит факт во время тренировки, тем больше вероятность галлюцинации, когда его спрашивают. Например, с деньгами примечательных цифр было обнаружено, что если 20 процентов родов таких людей появляются только один раз в учебных данных, то базовые модели должны получить не менее 20 процентов запросов на день рождения. «15-06» и «01-01». Decoding = «Async» src = «https://www.sciencealert.com/images/2025/09/chatgptbeingsusedonlaptop.jpg» alt = «Фотография экрана ноутбука, отображающего домашнюю страницу Chatgpt» width = «1024» Height = «415» Class = «wp-image-1743222-i size-size-viz-viz-viz-viz-viz-viz-viz-vize-wiz-wip-wiz-wip-1 srcset = «https://www.sciencealert.com/images/2025/09/chatgptbeingsusedonlaptop.jpg 1024W, https://www.sciencealert.com/images/2025/09/chatgptbeingudeonlaptop-642×260.jpg 642wg. https://www.sciencealert.com/images/2025/09/chatgptbeingsusonlaptop-768×311.jpg 768w, https://www.sciencealert.com/images/2025/09/chatgpteingustenonlaptop-600×243.jpg 600wgwg 600wg. Размеры = «(максимальная ширина: 1024px) 100VW, 1024px» loading = «lazy»>

исследователи обеспокоены моделями ИИ, показывающих диапазон обманчивого поведения. (Nicolas Maeterlinck/AFP/Getty Images) OpenAI и лучшие лидеры, которые оценивают модели искусственного интеллекта. Это показало, что девять тестов используют бинарные системы оценки, которые присуждают нулевые очки за выражение неопределенности AIS. Когда система ИИ говорит «Я не знаю», она получает такой же оценку, что и предоставление совершенно неправильной информации.

Оптимальная стратегия в соответствии с такой оценкой становится ясной: всегда угадайте. Какими бы ни были шансы на то, что конкретный ответ был правильным, ожидаемый оценка догадков всегда превышает оценку воздержания, когда оценка использует бинарную оценку. «Ответ только в том случае, если вы более 75 процентов уверены, поскольку ошибки наказываются на 3 балла, в то время как правильные ответы получают 1 пункт». Так что это приведет к меньшему количеству галлюцинаций. Проблема в том, что это сделало бы с пользовательским опытом. Пользователи привыкли получать уверенные ответы практически на любой вопрос, вероятно, быстро отказались бы от таких систем.

Я видел такую проблему в другой области моей жизни. Я вовлечен в проект мониторинга качества воздуха в Солт-Лейк-Сити, штат Юта. Галлюцинации с использованием понимания бумаги. Установленные методы количественной определения неопределенности существовали в течение десятилетий. Они должны оценить множество возможных ответов и оценить уровни доверия. Для системной обработки миллионов запросов ежедневно это приводит к резко более высоким эксплуатационным затратам.

Более сложные подходы, такие как активное обучение, где системы ИИ задают разъясняющие вопросы, чтобы снизить неопределенность, могут повысить точность, но еще больше умножить вычислительные требования.

Такие методы хорошо работают в специализированных доменах, таких как проект чипов, где неправильные ответы затраты на миллионы дол и облегчение вычислительных компьютеров. Для потребительских приложений, где пользователи ожидают мгновенных ответов, экономика становится непомерно высокой. Когда агенты искусственного интеллекта обрабатывают логистику цепочки поставок, финансовую торговлю или медицинскую диагностику, стоимость галлюцинаций намного превышает расходы на получение моделей, чтобы решить, слишком ли они неопределенны. Неопределенные агенты ИИ должны будут просто стоить дороже. Пользователи хотят системы, которые дают уверенные ответы на любой вопрос. Оценки контрольных систем, которые предполагают, а не выражают неопределенность. Вычислительные затраты предпочитают быстрые, чрезмерно уверенные ответы на медленные, неопределенные. Но относительно большое количество необходимого количества вычислений по сравнению с сегодняшними предположениями останется независимо от абсолютных затрат на оборудование. Пожалуйста, не удаляй. ->

Вей Син, доцент, Школа математических и физических наук, Университет Шеффилда

Эта статья переиздана из разговора по лицензии Creative Commons. Прочитайте оригинальную статью.

Виктория Ветрова

Космос полон тайн...

Следующий 78 миллионов лет назад, астероидный хит Земля. Тогда жизнь выросла в кратере »

Предыдущий « Наше солнце становится все более активным, а НАСА не знает, почему

Оставить комментарий

Опубликовано

Виктория Ветрова

17.09.2025 08:00

Недавние Посты

Новости

«Идеальное стекло», которое ведет себя как кристалл, все-таки возможно

Физики из США утверждают, что создали симуляцию, которая впервые демонстрирует возможность существования «идеального стекла», разрешая…

09.03.2026

Новости

Ученые представили старейшую карту ночного неба из когда-либо созданных

Исследователи кропотливо реконструируют старейшую известную карту ночного неба – ранее считавшуюся утерянной навсегда – с…

08.03.2026

Новости

Ученые изобрели совершенно новый метод охлаждения

Поприветствуйте ионокалорическое охлаждение. Это новый способ снижения температур, который потенциально может заменить существующие методы охлаждения…

07.03.2026

Новости

Подтверждено: человечество впервые изменило орбиту объекта вокруг Солнца

В 2022 году НАСА вошло в историю, намеренно врезавшись космическим кораблем в астероид, чтобы посмотреть,…

07.03.2026

Новости

Это официально: НАСА подтверждает, что астероид 2024 YR4 пролетит мимо Луны

Есть еще одна вещь, о которой стоит беспокоиться или которую стоит с нетерпением ждать: НАСА…

06.03.2026

Новости

Эксперименты показывают, что экстремальные микробы могут выжить в путешествии между планетами

Идея о том, что жизнь может распространяться из мира в мир, возникла еще в Древней…

05.03.2026