ai.
Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах
DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.В этой публикации мы рассмотрим, как была создана DeepSeek-R1.Дисклеймер: это вольный перевод статьи
Аномалии DeepSeek-v3 и DeepSeek-r1: глюкнутые токены и чат, теряющий идентичность
«Аномальные», «глючные» и «непроизносимые» токены в больших языковых моделях (LLM) — это те, которые вызывают странное поведение или не функционируют как обычный текст. Явление было впервые открыто и задокументировано
Вокруг да около ChatGPT: AI-ассистенты, о которых вы могли не слышать
ChatGPT – лишь один из множества инструментов, меняющих подход к работе с текстом. В этой статье мы разберем его альтернативы, а заодно расскажем, как искусственный интеллект помогает ускорять создание контента и оптимизировать управление знаниями в системе Документерра. Если вам интересны практичные AI-решения и их применение в реальных задачах, эта статья для вас. source:
Alibaba выпустила модель Qwen с открытым исходным кодом, которая обрабатывает 1 миллион входных токенов
Команда Qwen от Alibaba только что добавила в семейство Qwen2.5 два новых элемента: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели с открытым исходным кодом способны обрабатывать контекстные окна длиной до миллиона токенов, что делает их уникальными среди общедоступных моделей с подобными возможностями.
AI-модель o1-mini продолжает улучшаться после критики и нескольких циклов обратной связи
Исследователи из Китайского университета Гонконга в Шэньчжэне, а также представители компаний Qwen от Alibaba и Шэньчжэньского научно-исследовательского института больших данных провели исследование и выявили интересную особенность в работе модели o1-mini от OpenAI. В то время как большинство систем искусственного интеллекта ухудшают свои результаты при попытке исправить собственные ошибки, o1-mini обычно улучшает свою производительность.
Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт
За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.
DeepSeek R1: LLM с открытым исходным кодом с производительностью наравне с моделью o1 от OpenAI
DeepSeek R1: LLM с открытым исходным кодом с производительностью наравне с моделью o1 от OpenAI
DeepSeek R1: модель с производительностью o1 от OpenAI. Сравнение с o1, сколько стоит и как использовать API
DeepSeek R1: LLM с открытым исходным кодом с производительностью наравне с моделью o1 от OpenAI
Кремниевая долина в восторге от китайской модели ИИ. Колонка WSJ о моделях DeepSeek
DeepSeek называют «поразительной и впечатляющей», несмотря на использование менее совершенных чипов.Китайская компания в сфере искусственного интеллекта заставила Кремниевую долину недоумевать, как её программистам удалось почти сравняться с американскими конкурентами, используя более слабые чипы.
ByteDance запустила новую интегрированную среду разработки (IDE) для быстрого создания ИИ-приложений. Обзор инструмента
TikTok запустила новую интегрированную среду разработки (IDE) для быстрого создания ИИ-приложений

