ai.

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.В этой публикации мы рассмотрим, как была создана DeepSeek-R1.Дисклеймер: это вольный перевод статьи

продолжить чтение

Оставлено в

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано

продолжить чтение

Оставлено в

Вокруг да около ChatGPT: AI-ассистенты, о которых вы могли не слышать

ChatGPT – лишь один из множества инструментов, меняющих подход к работе с текстом. В этой статье мы разберем его альтернативы, а заодно расскажем, как искусственный интеллект помогает ускорять создание контента и оптимизировать управление знаниями в системе Документерра. Если вам интересны практичные AI-решения и их применение в реальных задачах, эта статья для вас. source:

продолжить чтение

Оставлено в

Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов

Команда Qwen от Alibaba только что добавила в семейство Qwen2.5 два новых элемента: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели с открытым исходным кодом способны обрабатывать контекстные окна длиной до миллиона токенов, что делает их уникальными среди общедоступных моделей с подобными возможностями.

продолжить чтение

Оставлено в

AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи

Исследователи из Китайского университета Гонконга в Шэньчжэне, а также представители компаний Qwen от Alibaba и Шэньчжэньского научно-исследовательского института больших данных провели исследование и выявили интересную особенность в работе модели o1-mini от OpenAI. В то время как большинство систем искусственного интеллекта ухудшают свои результаты при попытке исправить собственные ошибки, o1-mini обычно улучшает свою производительность.

продолжить чтение

Оставлено в

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.

продолжить чтение

Оставлено в

DeepSeek R1: LLM с открытым исходным кодом с производительностью наравне с моделью o1 от OpenAI

продолжить чтение

Оставлено в

DeepSeek R1: модель с производительностью o1 от OpenAI. Сравнение с o1, сколько стоит и как использовать API

DeepSeek R1: LLM с открытым исходным кодом с производительностью наравне с моделью o1 от OpenAI

продолжить чтение

Оставлено в

Кремниевая долина в восторге от китайской модели ИИ. Колонка WSJ о моделях DeepSeek

DeepSeek называют «поразительной и впечатляющей», несмотря на использование менее совершенных чипов.Китайская компания в сфере искусственного интеллекта заставила Кремниевую долину недоумевать, как её программистам удалось почти сравняться с американскими конкурентами, используя более слабые чипы.

продолжить чтение

Оставлено в

ByteDance запустила новую интегрированную среду разработки (IDE) для быстрого создания ИИ-приложений. Обзор инструмента

TikTok запустила новую интегрированную среду разработки (IDE) для быстрого создания ИИ-приложений

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

ai.

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность

Вокруг да около ChatGPT: AI-ассистенты, о которых вы могли не слышать

Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов

AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

DeepSeek R1: LLM с открытым исходным кодом с производительностью наравне с моделью o1 от OpenAI

DeepSeek R1: модель с производительностью o1 от OpenAI. Сравнение с o1, сколько стоит и как использовать API

Кремниевая долина в восторге от китайской модели ИИ. Колонка WSJ о моделях DeepSeek

ByteDance запустила новую интегрированную среду разработки (IDE) для быстрого создания ИИ-приложений. Обзор инструмента

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

ai.