llm.
LCPO меняет подход к обучению AI, снижая затраты на вычисления
Процесс рассуждения через цепочку (Chain-of-Thought, CoT) — это метод, при котором модели разбивают задачи на управляемые «мысли», прежде чем искать ответ. Этот подход стал важной частью современных больших языковых моделей (LLMs). Однако такие модели могут создавать высокие затраты на вычисления из-за большого количества генерируемых CoT-токенов. В новой работе исследователи из Университета Карнеги-Меллона предложили технику обучения языковых моделей, которая дает разработчикам больше контроля над длиной CoT.
OLMo 2 32B устанавливает новый стандарт для моделей LLM с открытым исходным кодом
Новая языковая модель с открытым исходным кодом достигла производительности, сопоставимой с ведущими коммерческими системами, при сохранении полной прозрачности. Институт искусственного интеллекта Аллена (Ai2) объявил , что его модель OLMo 2 32B превосходит как GPT-3 .5-Turbo, так и GPT-4o mini, а также сделал ее код, данные обучения и технические подробности общедоступными.
Cohere представляет Command A: инструмент AI для быстрого реагирования в бизнесе и науке
Канадский стартап Cohere в области искусственного интеллекта, соучредителем которого является один из авторов оригинальной статьи о трансформаторах, положившей начало революции в области больших языковых моделей (LLM) в 2017 году, представил Command A — свою новейшую генеративную модель искусственного интеллекта, разработанную для корпоративных приложений.
Кто воткнет свой флаг на Марсе?
Цвет флага каждый может определить для себя сам, речь о другом.Сделаю свой прогноз на обозримое будущее пилотируемой космонавтики в отношении Луны и Марса.
Концерт для Java с ИИ — разработка готовых к продакшен LLM приложений
Команда Spring АйО перевела и адаптировала доклад Томаса Витале “Concerto for Java and AI — Building Production-Ready LLM Applications”, в котором рассказывается по шагам, как усовершенствовать интерфейс приложения с помощью больших языковых моделей (LLM). В качестве примера автор доклада на глазах слушателей разрабатывает приложение-ассистент для композитора, пишущего музыку для фильмов.
Как научить ИИ-агентов лучше планировать задачи с помощью мета-плана?
Языковые модели (LLM) уже умеют решать сложные задачи, но их способность к планированию остается несовершенной. Исследователи из Пекинского университета представили новый метод MPO (Meta Plan Optimization), который помогает LLM-агентам эффективнее выполнять многошаговые задачи.Что такое MPO?
Уроки химии: AMORE проверит готовность химических языковых моделей
Привет! Мы, команда NLP‑исследователей из AIRI и Сбера, опубликовали недавно результаты исследования того, как языковые модели справляются с химическими задачами. Дело в том, что в последние годы интеграция методов обработки естественного языка в области химии неуклонно растёт, и это открывает новые горизонты для открытия лекарств. Однако возникает важный вопрос: действительно ли современные языковые модели научились понимать молекулы, или они просто запоминают их текстовые представления?Чтобы выяснить это, мы создали ♡AMORE
Model Context Protocol, обзор и практика
Общая схема работы системы с одним MCP-серверомОбщая информацияВ конце 2024г компания Anthropic, создатель LLM-моделей Claude, опубликовала стандарт Model Context Protocol и выпустила статью, посвящённую видению Anthropic того, как строить эффективные системы с AI-агентами: Building effective agents
Dapr расширяет возможности разработчиков в создании ИИ-агентов
Ещё в 2019 году Microsoft выпустила Dapr с открытым исходным кодом — новую среду выполнения, упрощающую создание приложений на основе микросервисов. В то время никто ещё не говорил об агентах ИИ, но, как оказалось, в Dapr с самого начала были встроены некоторые фундаментальные строительные блоки для поддержки агентов ИИ. Это связано с тем, что одной из основных функций Dapr является концепция виртуальных акторов

