deepseek v3.

Нет, тренировка DeepSeek R1 не стоила $294 тыс. Реальная цифра в десятки раз выше

В интернете широко обсуждают опубликованный в Nature отчет авторов DeepSeek, в котором якобы заявляется, что обучение модели R1 обошлось компании всего в 294 тысячи долларов. Цифра выглядит сенсационной, ведь конкуренты тратят на создание своих моделей в тысячи раз большие суммы: например, для Claude Sonnet 3.7 давали оценку в несколько десятков миллионов долларов. Если бы взятая из Nature цифра была правдой, то получилось бы так, что у конкурентов нет никаких шансов перед командой DeepSeek. Но это не так.

продолжить чтение

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение

продолжить чтение

«Кошачья атака» на модель рассуждений показывает, насколько важна контекстная инженерия

Исследовательская группа обнаружила, что даже такие простые фразы, как «кошки спят большую часть своей жизни», могут существенно нарушить работу продвинутых моделей логического мышления, увеличив количество ошибок в три раза.

продолжить чтение

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем?У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.Где?

продолжить чтение

DeepSeek V3-0324. Что изменилось?

Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии - она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.Попробовать самостоятельно можно

продолжить чтение

Новая DeepSeek V3: рекорды в бенчах, кодинг лучше Claude и GPT-4.5

Позавчера DeepSeek загадочно и молчаливо залили новую модель на HuggingFace, даже не написав ничего не в блоге, ни в README файле.Сегодня, наконец, вышел анонс с подробным описанием характеристик новой модели (а точнее, крутого обновления старой модели). Давайте разбираться, что в этот раз нам подогнали китайские исследователи.

продолжить чтение

DeepSeek сообщил о «теоретической» марже в 545%

Китайский стартап в сфере искусственного интеллекта DeepSeek сообщил, что теоретическая доходность его моделей V3 и R1 достигает 545% в сутки, хотя фактические доходы компании существенно ниже.

продолжить чтение

HAI LLM: Как DeepSeek снизил стоимость обучения и генерации в разы без потери качества?

Работу у AI отобрал другой AI )Компания HighFlyer внедрила в свою LLM такие архитектурные фишки как Multi-Head Latent Attention, Mixture of Experts (MoE) with Auxiliary-Loss-Free Load Balancing и Multi-Token Predict. Однако все эти новшества уже были ранее представлены в других LLM: GPT-4, Llama, Mistrall и других.Полистав

продолжить чтение

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.1. Самый простой (но не всегда рабочий) способ: через сайт DeepseekПереходим на официальный сайт chat.deepseek.com

продолжить чтение

Не DeepSeek’ом единым: вышел Qwen2.5-Max от Alibaba

В последние дни мы наблюдаем уже не столько за битвой OpenAI и DeepSeek, сколько за баталиями DeepSeek против Qwen. И вот Qwen наносят новый удар. И это после того, как уже был релиз Qwen2.5-VL и релиз Qwen2.5 с контекстом в 1 миллион токенов.Вчера была выпущена LLM-модель Qwen2.5-Max. Он превосходит DeepSeek V3 в таких бенчмарках, как Arena-Hard, LiveBench, LiveCodeBench и GPQA-Diamond, а также демонстрирует близкие результаты в других бенчмарках, как к примеру MMLU-Pro.Коротко о модели и архитектуре

продолжить чтение

12
Rambler's Top100