reasoning models.

Повторяй промт дважды — и нейросеть станет умнее. Это реально работает

Ещё раз: повторяй промт дважды — и нейросеть станет умнее. Это реально работает!Пример повторящегося промта со вставкой посерединеИсследователи Google Яньив Левиатан, Матан Кальман и Йосси Матиас

продолжить чтение

Оставлено в

Ant Group представила исследование об обучении триллионных reasoning-моделей

продолжить чтение

Оставлено в

Актуальные вопросы по ИИ и перспективным технологиям

Эксперты Gartner дают краткие ответы на свежие вопросы клиентов о перспективных технологиях.1. Как реагировать на запуск модели Anthropic Claude Sonnet 4.5?Claude Sonnet 4.5 сигнализирует о намерении Anthropic сместить фокус к доменной специализации на всё более конкурентном рынке генеративных моделей (GenAI). Рекомендации Gartner:Лидерам в области ИИ:

продолжить чтение

Оставлено в

Облачные технологии в контексте агентских AI-систем

В настоящее время процветает разработка агентов — приложений на базе Generative AI, реализующих автономные рабочие процессы. Извлечение и анализ данных, управление детерминированными программами и так далее. Массу вещей можно автоматизировать с помощью LLM и вызова функций, отсюда и спрос на такие системы.Как и традиционное ПО, агенты обычно реализуют принцип разделения логики на специализированные узлы обработки конкретных задач

продолжить чтение

Оставлено в

Важность времени на размышления: как работают вычисления во время инференса

Еще в 2020 году в статье о GPT-3 появился график, заслуживающий отдельного внимания: чем больше языковые модели, тем лучше они справляются с задачами без дообучения (zero-shot). Пять лет этот график был путеводной звездой для исследователей ИИ, влияя на всё — от архитектуры моделей до разработки железа. C выпуском o1 OpenAI пришел с новым графиком. На этот раз речь не только о размере — а о том, чтобы дать моделям время думать. Новый график показывает: увеличение вычислительных ресурсов на этапе вывода

продолжить чтение

Оставлено в
- llm-модели
- reasoning models

DeepSeek-R1 для чайников

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали

продолжить чтение

Оставлено в

Думающие модели o1-3: краткий обзор и чего программистам ждать дальше

Когда LLM впервые появились, они были немного похожи на детей - говорили первое, что приходило им в голову, и не особо заботились о логике. Им нужно было напоминать: «Подумай, прежде чем отвечать». Но, как и с детьми, даже тогда это не означало, что они действительно будут думать.Многие утверждали, что из-за этого у моделей нет настоящего интеллекта и что их необходимо дополнять либо человеческой помощью, либо каким-то внешним каркасом поверх самой LLM, например Chain of Thought.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

reasoning models.

Повторяй промт дважды — и нейросеть станет умнее. Это реально работает

Ant Group представила исследование об обучении триллионных reasoning-моделей

Актуальные вопросы по ИИ и перспективным технологиям

Облачные технологии в контексте агентских AI-систем

Важность времени на размышления: как работают вычисления во время инференса

DeepSeek-R1 для чайников

Думающие модели o1-3: краткий обзор и чего программистам ждать дальше

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

reasoning models.