Странная фраза продолжает появляться в научных работах, но почему?

Странная фраза продолжает появляться в научных работах, но почему?

Ранее в этом году ученые обнаружили особый термин, появляющийся в опубликованных статьях: «вегетативная электронная микроскопия». Single/MREC->

Подобно биологическим окаменелостям, пойманным в скале, эти цифровые артефакты могут стать постоянными приспособлениями в нашей информационной экосистеме. Single/MREC->

Плохое сканирование и ошибка в переводе

вегетативная электронная микроскопия, по-видимому, возникла благодаря замечательному совпадению не связанных с ошибками. Оцифрован. В результате был создан фантомный член. (Бактериологические обзоры) В 2017 и 2019 годах две статьи использовали этот термин в английских подписях и рефератах. В фарси слова для «вегетативного» и «сканирования» различаются только одной точкой. (Google Translate) По данным Google Scholar, на сегодняшний день появляется «вегетативная электронная микроскопия», появляется в 22 статьях. Один из них был предметом оспариваемой ретракции из журнала Springer Nature Journal, а Elsevier опубликовал исправление для другого. 2020 -е годы. Чтобы выяснить, почему, нам пришлось заглянуть в современные модели ИИ-и сделать некоторые археологические копания через обширные слои данных, на которых они были обучены. в последовательности. Точное содержание учебных данных модели часто является тщательно охраняемым секретом.

Проверьте, знала ли модель «о вегетативной электронной микроскопии, мы вводим фонари из исходных пазл. ->

Результаты были раскрыты. GPT-3 OpenAI последовательно завершают фразы с «вегетативной электронной микроскопией». Более ранние модели, такие как GPT-2 и Bert, не сделали. Этот шаблон помог нам изолировать, когда и где произошло загрязнение. Это говорит о том, что бессмысленный термин теперь может быть постоянно встроен в основания знаний ИИ. 17 лучших наиболее вероятных завершений предоставленного текста являются «вегетативная электронная микроскопия», и эти предложения в 2,2 раза чаще, чем следующий наиболее вероятный прогноз. (OpenAI)

, сравнивая то, что мы знаем о обучающих наборах данных разных моделей, мы определили набор данных общего просмотра интернет-страниц скрещенных интернет-страниц как наиболее вектор, где модели AI впервые изучили этот термин. Исправление их может быть практически невозможно. Например, набор данных CommonCrawl составляет миллионы гигабайтов по размеру. Для большинства исследователей вне крупных технологических компаний вычислительные ресурсы, необходимые для работы в этом масштабе, недоступны. OpenAI и многие другие разработчики отказываются предоставлять точные подробности о учебных данных для своих моделей. Исследовательские усилия по переплетению инженеров некоторых из этих наборов данных также были закуплены Copyright Takedowns. Простая фильтрация ключевых слов может иметь дело с конкретными терминами, такими как вегетативная электронная микроскопия. Однако это также устранит законные ссылки (например, эта статья). Сколько других бессмысленных терминов существует в системах ИИ, ожидая, чтобы их обнаружили? ->

Издатели отвечали непоследовательно, когда уведомлялись о статьях, включая вегетативную электронную микроскопию. Некоторые отозвались на пораженные документы, в то время как другие защищали их. Elsevier, в частности, попытался оправдать достоверность термина, прежде чем в конечном итоге внести исправление. В любом случае, использование систем ИИ уже создало проблемы для процесса рецензирования. Кроме того, такие фразы, как «Я являюсь языком ИИ», были обнаружены в других втянутых статьях. Однако такие подходы могут устранить только известные ошибки, а не неоткрытые. Это представляет проблемы как для технологических компаний, исследователей и издателей. Исследователи должны найти новые способы оценки информации перед лицом, сгенерированной AI, убедительной чепухи. Научные издатели должны улучшить свои процессы рецензирования, чтобы обнаружить как человеческие, так и сгенерированные AI ошибки. Пожалуйста, не удаляй. -> width =

Аарон Дж. Сносвелл, научный сотрудник по подотчетности ИИ, Квинслендский технологический университет; Кевин Витценбергер, научный сотрудник, Genai Lab, Квинслендский технологический университет и Rayane El Masri, кандидат в докторскую степень, Genai Lab, Квинслендский технологический университет

Эта статья переиздана из разговора по лицензии Creative Commons. Прочитайте оригинальную статью.

logo