deepseek v3.

Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

продолжить чтение

Оставлено в

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение

продолжить чтение

Оставлено в

«Кошачья атака» на модель рассуждений показывает, насколько важна контекстная инженерия

Исследовательская группа обнаружила, что даже такие простые фразы, как «кошки спят большую часть своей жизни», могут существенно нарушить работу продвинутых моделей логического мышления, увеличив количество ошибок в три раза.

продолжить чтение

Оставлено в

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем?У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.Где?

продолжить чтение

Оставлено в

DeepSeek V3-0324. Что изменилось?

Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии - она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.Попробовать самостоятельно можно

продолжить чтение

Оставлено в

Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5

Позавчера DeepSeek загадочно и молчаливо залили новую модель на HuggingFace, даже не написав ничего не в блоге, ни в README файле.Сегодня, наконец, вышел анонс с подробным описанием характеристик новой модели (а точнее, крутого обновления старой модели). Давайте разбираться, что в этот раз нам подогнали китайские исследователи.

продолжить чтение

Оставлено в

DeepSeek сообщил о «теоретической» марже в 545%

Китайский стартап в сфере искусственного интеллекта DeepSeek сообщил, что теоретическая доходность его моделей V3 и R1 достигает 545% в сутки, хотя фактические доходы компании существенно ниже.

продолжить чтение

Оставлено в

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Работу у AI отобрал другой AI )Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.Полистав

продолжить чтение

Оставлено в

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.1. Самый простой (но не всегда рабочий) способ: через сайт DeepseekПереходим на официальный сайт chat.deepseek.com

продолжить чтение

Оставлено в

Не DeepSeek’ом единым: вышел Qwen2.5-Max от Alibaba

В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.Коротко о модели и архитектуре

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

deepseek v3.

Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение

«Кошачья атака» на модель рассуждений показывает, насколько важна контекстная инженерия

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

DeepSeek V3-0324. Что изменилось?

Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5

DeepSeek сообщил о «теоретической» марже в 545%

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Не DeepSeek’ом единым: вышел Qwen2.5-Max от Alibaba

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

deepseek v3.