ml.
Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше
Привет, Хабр!Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.TL;DRАвторы предлагают простой, но мощный метод: если первая попытка модели провалилась, она должна написать краткую саморефлексию, а затем сделать повторную попытку. Если она успешна — награду получают только токены саморефлексии.
GPT-5: великий апгрейд, который стал даунгрейдом
Как всегда во время прошлых запусков, OpenAI обещал «превзойти все предыдущие модели». Вышло… не совсем так. Точнее, совсем не так.Встречайте GPT-5 — и сразу прощайтесь
Titanic + CatBoost (Первое решение, первый Jupyter Notebook)
#Импортируем все необходимые библиотеки import pandas as pd from catboost import CatBoostClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json # 🔕 Отключаем предупреждения, чтобы не загромождали вывод import warnings warnings.filterwarnings('ignore')
X5 разработала собственную систему пополнения запасов для торговых сетей
Х5 разработала собственную систему пополнения запасов для торговых сетей «Пятёрочка» и «Перекрёсток» и начала её поэтапное внедрение. Ранее компания использовала решение иностранного вендора, что ограничивало возможности управления и доработки. Теперь Х5 полностью переходит на внутреннюю технологическую платформу, что даёт полный контроль над ключевыми логистическими процессами, повышая их эффективность.
Cognition после покупки Windsurf предлагает сотрудникам выбор: уволиться с 9 зарплатами или 80-часовая рабочая неделя
Месяц назад ИИ-стартап Cognition приобрел интеллектуальную собственность, продукт и команду конкурента Windsurf. Сумма сделки не раскрывается, но детали стали известны на этой неделе благодаря расследованию The Information.После поглощения Windsurf компания Cognition уволила 30 человек, а оставшимся 200 сотрудникам поставила ультиматум до 10 августа:либо уходите с компенсацией в размере 9 месячных окладов,либо работаете по 80+ часов в неделю без выходных.
Finetuning Qwen 3 на RTX4090: полный гайд обучения LLM c помощью Unsloth
Всем привет! Меня зовут Артем, я DS в компании Raft. Эта статья - полноценный гайд по дообучению с Unsloth, в котором мы разберём: что такое Unsloth, как выбрать метрики и гиперпараметры, как шаг за шагом использовать unsloth исследователям и разработчикам. Ниже я приложу весь код, который понадобится для обучения Qwen3 на медицинском датасете по МКБ по деменции.Во второй части статьи я приведу свои лайфхаки для улучшения качества файнтьюнинга и поделюсь результатами реальных экспериментов.
Web Agent: автономная ИИ-экосистема от Alibaba — новый этап развития веб-агентов
Индустрия искусственного интеллекта продолжает удивлять инновационными решениями, и появление Web Agent от лаборатории Alibaba NLP's Tawni Lab представляет собой значительный шаг вперед в области автономных систем. Данная экосистема демонстрирует качественно новый подход к созданию ИИ-агентов, способных самостоятельно навигировать, анализировать и действовать в веб-пространстве.Архитектурная революция в мире веб-агентов

