Компания китайского искусственного интеллекта (ИИ) DeepSeek передала удар через техническое сообщество с выпуском чрезвычайно эффективных моделей ИИ, которые могут конкурировать с передовыми продуктами от американских компаний, таких как Openai и Anpropic.
Основанный в 2023 году, DeepSeek достиг своих результатов с частью денежных средств и вычислительной мощности своих конкурентов.
Модель Deepseek «Designing» R1, выпущенная на прошлой неделе, спровоцировала волнение среди исследователей, шок среди инвесторов и ответы от тяжеловесов искусственного интеллекта. Компания последовала 28 января с моделью, которая может работать с изображениями, а также с текстом. Что сделано DeepSeek, и как он это сделал?
в декабре, в декабре, DeepSeek выпустил свою модель V3. Это очень мощная «стандартная» большая языковая модель, которая работает на аналогичном уровне с GPT-4O OpenAI и Claude 3.5. ->
Хотя эти модели склонны к ошибкам и иногда составляют свои собственные факты, они могут выполнять такие задачи, как отвечать на вопросы, написание эссе и создание компьютерного кода. На некоторых тестах решения проблем и математических рассуждений они набирают лучше, чем обычный человек. Обучал по зарегистрированной стоимости около 5,58 млн. Долл. США. Например, это значительно дешевле, чем GPT-4, которые стоят более 100 миллионов долларов США. > Deepseek также утверждает, что у меня есть обученный V3, используя около 2000 специализированных компьютерных чипов, в частности, графические процессоры H800, сделанные Nvidia. Это снова намного меньше, чем другие компании, которые, возможно, использовали до 16 000 более мощных чипов H100. P> 20 января Deepseek выпустила еще одну модель под названием R1. Это так называемая модель «рассуждения», которая пытается решить сложные проблемы шаг за шагом. Эти модели, по-видимому, лучше во многих задачах, которые требуют контекста и имеют несколько взаимосвязанных частей, таких как понимание прочитанного и стратегическое планирование. ->
Модель R1 -это настроенная версия V3, модифицированная методом, называемой обучением подкрепления. R1, кажется, работает на аналогичном уровне Openai’s O1, выпущенный в прошлом году. Техника, позволяющая сделать «рассуждение» версии небольших моделей с открытым исходным кодом, которые могут работать на домашних компьютерах. Релиз вызвал огромный всплеск интереса к DeepSeek, увеличив популярность своего приложения Chatbot с V3 и вызвало массовую цену в технологических акциях, поскольку инвесторы переоценивают индустрию искусственного интеллекта. На момент написания деятельности Чип-Чип Нвидиа потерял около 600 миллиардов долларов США.
прорывы Deepseek были в достижении большей эффективности: получение хороших результатов с меньшим количеством ресурсов. В частности, разработчики DeepSeek впервые выделили два метода, которые могут быть приняты исследователями ИИ в более широком смысле. имеет отношение к математической идее под названием «Sparsity». Модели ИИ имеют много параметров, которые определяют их ответы на входы (V3 имеет около 671 миллиарда), но для любого данного входа используется только небольшая часть этих параметров.
Однако прогнозирование, какие параметры потребуются, нелегко. DeepSeek использовал новую технику для этого, а затем обучил только эти параметры. В результате его модели нуждались в гораздо меньшем обучении, чем обычный подход. С тем, как V3 хранит информацию в компьютерной памяти. DeepSeek нашел умный способ сжатия соответствующих данных, поэтому легче хранить и получить доступ быстро. > Что это значит
Модели и методы Deepseek были выпущены под бесплатной лицензией MIT, что означает, что каждый может загрузить и изменить их.
Хотя это может быть плохим новостью для некоторых компаний по искусственному искусству,-чья прибыль может быть разрушена из-за существования свободно доступных, мощных моделей-это отличная новость для более широкого исследовательского сообщества ИИ.
В настоящее время многие исследования ИИ требуют доступа к огромным количеству вычислительных ресурсов. Такие исследователи, как я, которые базируются в университетах (или в любом месте, кроме крупных технологических компаний), обладали ограниченной способностью проводить тесты и эксперименты. ->
Более эффективные модели и методы меняют ситуацию. Эксперименты и разработка теперь могут быть значительно проще для нас. Полем Больше моделей искусственного интеллекта может быть запущено на собственных устройствах пользователей, таких как ноутбуки или телефоны, а не на запуск «в облаке» за плату за подписку.
Для исследователей, у которых уже есть много ресурсов, большая эффективность может иметь меньший эффект. Неясно, поможет ли подход DeepSeek сделать модели с лучшей производительностью в целом или просто модели, которые более эффективны. Пожалуйста, не удаляй. ->
Тонглиань Лю, доцент машинного обучения и директор Сиднейского ИИ Центра, Университет Сиднея
Эта статья переиздана из разговора по лицензии Creative Commons. Прочитайте оригинальную статью.
В центральной выпуклости Млечного Пути, около 24 000 световых лет от Земли, особая пара объектов,…
В 1974 году автор научной фантастики Ларри Нивен написал загадку убийства с интересной предпочтением: не…
Deep Research's Openai «Deep Research» - это новейший инструмент искусственного интеллекта (AI), который волнует волны…
Ученые нашли новый способ, чтобы материалы могли сформировать «воспоминания» о том, что с ними случилось…
Наша солнечная система, как подлый маленький хоббит, кажется, набила свои карманы, полные скрытых океанов. Юпитер,…
Планеты рождаются в кружащихся дисках газа и пыли вокруг молодых звезд. Астрономы активно заинтересованы в…