GigaMemory на AI Journey Contest 2025: итоги
Приветствуем всех! С вами снова ML-команда RnD для B2C SberAI. Этой осенью в рамках AI Journey Contest 2025 мы представили задачу GigaMemory: global memory for LLM. Её цель — создание автономного модуля долговременной памяти для языковых моделей, способного накапливать и использовать знания о конкретном пользователе, по сути наделяя ИИ способностью «помнить» своего собеседника.Пришло время объявить результаты! Но для начала — кратко напомним детали соревнования.
Фактчекинг за $0.09: GPT-5-mini + Perplexity sonar-pro в продакшене
Новости противоречат друг другу. Один источник пишет «завод встал», второй — «встала первая линия», третий копипастит статью двухлетней давности. Когда через твой пайплайн проходят сотни таких новостей в сутки, ручная верификация перестаёт масштабироваться.Мы столкнулись с этим при построении новостного пайплайна StatCar — нишевого СМИ об автомобилях. Стандартные LLM не подходят — их знания устаревают на момент обучения. Вариант «LLM + web_search tool» рассматривали, но отказались: дороже и менее эффективно. Perplexity заточен под поиск — это его core competency.
Вайб-ЛЛМинг. AI агенты теперь сами обучают LLM с помощью Hugging Face Skills
Hugging Face релизнули Skills — Agent Context Protocol (ACP), через который упаковываются определения разных задач для ИИ агентов. По сути — это папки, в которых собраны инструкции, скрипты и ресурсы для использования ИИ-агентом под конкретный кейс. В каждой такой папке есть файл “SKILL.md” с YAML-фронтматтером (имя и описание) и далее текст с инструкциями, которым кодовый агент следует, пока этот скилл активен. Сама концепция повторяет Claude Skills (о чем Hugging Face открыто заявляет).LLM обучает LLM
«Когда агенты перестают говорить»: как LatentMAS предлагает новый язык общения ИИ-агентов
Мультиагентные системы на базе LLM почти всегда строятся вокруг текстовой коммуникации. Агенты объясняют друг другу планы, уточняют шаги, формируют выводы — всё это через генерацию токенов. Такой подход кажется естественным, но он порождает фундаментальные проблемы: текст генерируется медленно, ошибки формулировок на ранних этапах распространяются вниз по цепочке, а количество токенов растёт лавинообразно.Исследователи из Принстона, Стенфорда и Иллинойса предлагают другой путь:
Исследователи Яндекса представили RATE — новый метод для оценки и улучшения машинного перевода
Наши исследователи разработали новый метод оценки качества машинного перевода. Эту разработку можно использовать для совершенствования моделей, которые уже переводят тексты довольно точно, но делают это не всегда естественно. Например, в неформальном диалоге модель может перевести «sorry, my bad» как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обращать внимание нейросетей на такие недочёты.Новая система оценки Яндекса называется
Французский стартап представил линейку Mistral 3: 675 миллиардов параметров в open source
Компания Mistral AI выпустила новое поколение своих моделей — Mistral 3. В релиз вошли три небольших плотных модели (3B, 8B и 14B), а также флагманская Mistral Large 3 — разреженная Mixture-of-Experts-архитектура с 41B активных и 675B общих параметров. Все модели распространяются под Apache 2.0, что делает Mistral 3 одним из крупнейших полностью открытых релизов в сегменте frontier-класса.
OpenAI AgentKit vs Just AI Agent Platform: где ограничения, а где возможности?
Привет, Хабр! Меня зовут Даниил Сухан, я занимаюсь разработкой AI-приложений в Just AI.Недавно OpenAI представила AgentKit, вызвавший большой интерес в сообществе разработчиков. Однако мы в Just AI не только не отстаём от тенденций, но и опережаем их – мы запустили low-code инструмент — Agent Platform — за месяц до анонса от OpenAI.Давайте сравним, как создаются проекты на обеих платформах и разберемся, в чём заключаются ключевые преимущества нашего решения. Философия интерфейса: битва двух холстов

