ml. - страница 15

ml.

Reflect, Retry, Reward: как RL учит LLM рефлексировать и становиться лучше

Привет, Хабр!Меня зовут Роман, я NLP-инженер в Сбере. Занимаюсь мультиагентными системами и работаю с LLM в проде. Сегодня расскажу про одну из самых интересных статей июня по версии Huggingface Daily Papers — Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning.TL;DRАвторы предлагают простой, но мощный метод: если первая попытка модели провалилась, она должна написать краткую саморефлексию, а затем сделать повторную попытку. Если она успешна — награду получают только токены саморефлексии.

продолжить чтение

GPT-5: великий апгрейд, который стал даунгрейдом

Как всегда во время прошлых запусков, OpenAI обещал «превзойти все предыдущие модели». Вышло… не совсем так. Точнее, совсем не так.Встречайте GPT-5 — и сразу прощайтесь

продолжить чтение

Titanic + CatBoost (Первое решение, первый Jupyter Notebook)

#Импортируем все необходимые библиотеки import pandas as pd from catboost import CatBoostClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score import numpy as np import matplotlib.pyplot as plt import seaborn as sns import json # 🔕 Отключаем предупреждения, чтобы не загромождали вывод import warnings warnings.filterwarnings('ignore')

продолжить чтение

X5 разработала собственную систему пополнения запасов для торговых сетей

Х5 разработала собственную систему пополнения запасов для торговых сетей «Пятёрочка» и «Перекрёсток» и начала её поэтапное внедрение. Ранее компания использовала решение иностранного вендора, что ограничивало возможности управления и доработки. Теперь Х5 полностью переходит на внутреннюю технологическую платформу, что даёт полный контроль над ключевыми логистическими процессами, повышая их эффективность.

продолжить чтение

Cognition после покупки Windsurf предлагает сотрудникам выбор: уволиться с 9 зарплатами или 80-часовая рабочая неделя

Месяц назад ИИ-стартап Cognition приобрел интеллектуальную собственность, продукт и команду конкурента Windsurf. Сумма сделки не раскрывается, но детали стали известны на этой неделе благодаря расследованию The Information.После поглощения Windsurf компания Cognition уволила 30 человек, а оставшимся 200 сотрудникам поставила ультиматум до 10 августа:либо уходите с компенсацией в размере 9 месячных окладов,либо работаете по 80+ часов в неделю без выходных.

продолжить чтение

Защитим вдов и сирот от хищных ИИ-стартаперов

продолжить чтение

OpenAI возвращается к open-source: обзор моделей GPT-OSS-120b и GPT-OSS-20b

продолжить чтение

Finetuning Qwen 3 на RTX4090: полный гайд обучения LLM c помощью Unsloth

Всем привет! Меня зовут Артем, я DS в компании Raft. Эта статья - полноценный гайд по дообучению с Unsloth, в котором мы разберём: что такое Unsloth, как выбрать метрики и гиперпараметры, как шаг за шагом использовать unsloth исследователям и разработчикам. Ниже я приложу весь код, который понадобится для обучения Qwen3 на медицинском датасете по МКБ по деменции.Во второй части статьи я приведу свои лайфхаки для улучшения качества файнтьюнинга и поделюсь результатами реальных экспериментов.

продолжить чтение

Web Agent: автономная ИИ-экосистема от Alibaba — новый этап развития веб-агентов

Индустрия искусственного интеллекта продолжает удивлять инновационными решениями, и появление Web Agent от лаборатории Alibaba NLP's Tawni Lab представляет собой значительный шаг вперед в области автономных систем. Данная экосистема демонстрирует качественно новый подход к созданию ИИ-агентов, способных самостоятельно навигировать, анализировать и действовать в веб-пространстве.Архитектурная революция в мире веб-агентов

продолжить чтение

Selectel запустил ML Impact — ресурс о том, как использовать ML для бизнеса

продолжить чтение

1...10...131415161718...30...35
Rambler's Top100