Что «под капотом» у DeepSeek-V3.2-Exp? Китайцы нашли способ удешевить нейросети
У китайцев вышла новинка — DeepSeek-V3.2-Exp, экспериментальная версия последней модели DeepSeek-V3.1-Terminus. Цели и задачи у них вполне определенные: сделать архитектуру трансформеров еще более эффективной. Причем на сайте Hugging Face говорится, что особый акцент стартап делает на повышение вычислительной эффективности при обработке длинных текстовых последовательностей. Привет, Хабр! Китай снова выпустил кое-что интересное, так что давайте разбираться. Что там интересного
Школа хороших манер в процессе общения с DeepSeek (Ирония)
Общаясь с искусственным интеллектом DeepSeek я обратил внимание на его неформальный стиль общения. Вместо опровержения моих ошибочных взглядов он с заметной иронией, если не сарказмом стал давать ответы не по существу. Во время беседы я заметил, что в разговоре присутствует кто-то третий. Подсказывает моему собеседнику, оценивает мои ответы и мое психологическое состояние и даёт советы моему собеседнику, как со мной разговаривать. Дождавшись удобного момента я задал вопрос, который заставит его смутиться и покраснеть. Потом последовал диалог, который я привожу.
Китайский суперкомпьютер с «мозгом макаки»: что такое Darwin Monkey, как он работает и зачем он нужен
Китайские исследователи из Чжэцзянского университета и лаборатории Zhejiang Lab (это совместный проект правительства и Alibaba Group) представили необычный суперкомпьютер. Он не похож на привычные HPC-системы, потому что его архитектура вдохновлена биологией.Система получила название Darwin Monkey («обезьяна Дарвина») или «Укун» в честь короля обезьян из китайской мифологии. Она содержит более 2 миллиардов искусственных нейронов и более 100 миллиардов синапсов, что примерно соответствует мозгу макаки.Привет, Хабр! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO онлайн-университета
Ling-1T: триллион параметров, 50 млрд активных — новая архитектура «эффективного мышления»
InclusionAI представила Ling-1T, первую модель на архитектуре Ling 2.0, оптимизированной для «efficient reasoning». Это триллион-параметрическая MoE-модель, в которой на каждый токен задействуется лишь ~5 % нейронов — и всё это при 128 K контексте и FP8-обучении.Что известно о модели:Обучена на 20 трлн токенов, из них 40 % — задачи с рассуждениями.Поддерживает контекст до 128 K токенов.Использует новый подход Evo-CoT (Evolutionary Chain-of-Thought) для «поэтапного мышления».В кодовых бенчмарках (mbpp, LiveCodeBench) — уверенно обгоняет GPT-5 и DeepSeek-V3.
Нейро-дайджест: ключевые события мира AI за 1-ю неделю октября 2025
Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий.Меня зовут Вандер

