Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.Есть ещё BIG-bench (Beyond the Imitation Game)

Оставлено в

Вайб-ЛЛМинг. AI агенты теперь сами обучают LLM с помощью Hugging Face Skills

Hugging Face релизнули Skills — Agent Context Protocol (ACP), через который упаковываются определения разных задач для ИИ агентов. По сути — это папки, в которых собраны инструкции, скрипты и ресурсы для использования ИИ-агентом под конкретный кейс. В каждой такой папке есть файл “SKILL.md” с YAML-фронтматтером (имя и описание) и далее текст с инструкциями, которым кодовый агент следует, пока этот скилл активен. Сама концепция повторяет Claude Skills (о чем Hugging Face открыто заявляет).LLM обучает LLM

продолжить чтение

Оставлено в

Claude Opus 4.5: как Anthropic сделала флагманскую модель в 3 раза дешевле и при этом умнее

24 ноября 2025 года Anthropic выстрелила релизом Claude Opus 4.5 — модели, которая переписывает правила игры для всех, кто использует LLM в production. Главная фишка? Цена упала в 3 раза, а качество выросло. Звучит как маркетинг, но цифры говорят сами за себя.Разбираем, что реально изменилось, смотрим независимые бенчмарки и прикидываем, сколько это сэкономит вашей команде.TL;DR для тех, кто спешит 💰 Цена: $5/1M input tokens (было $15) — снижение в 3 раза⚡ Скорость: задачи, на которые уходило 2 часа, решаются за 30 минут🎯 Качество: 80.9% на SWE-bench (лучше GPT-4 и Gemini)🛡️ Безопасность: в 4.6 раза устойчивее к prompt injection, чем GPT-5.1

продолжить чтение

Оставлено в

Технический обзор моделей DeepSeek от V3 до V3.2

Три самые постоянные вещи в мире — оливье с мандаринами на Новый год, желание начать новую жизнь с понедельника и то, что если выходит статья Себастьяна Рашки, то я делаю ее качественный перевод на русский. Эта технически глубокая статья известного исследователя LLM о том, как эволюционировали флагманские модели с открытыми весами от DeepSeek и обзор DeepSeek V3.2.

продолжить чтение

Оставлено в

Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году

В 2025 году retention снова стал главной метрикой рынкаТрафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам.Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».если вы тоже сейчас грустите, глядя на свой retention, — вы не один Давайте разберём, как всё работает в реальности.1. Почему классический retention устарел

продолжить чтение

Оставлено в

OpenAI обучила модели «признаваться» в плохом поведении

OpenAI тестирует ещё один способ раскрыть сложные процессы, происходящие в больших языковых моделях. Исследователи компании экспериментируют с манипуляциями LLM, чтобы те объясняли, как выполнили задачу, и признавались в нежелательном поведении.

продолжить чтение

Оставлено в

Как Claude научился файн-тюнить опенсорсные LLM

Claude получил возможность файн-тюнить языковые модели с помощью нового инструмента под названием Hugging Face Skills. Не просто писать скрипты для обучения, а реально отправлять задачи на облачные GPU, следить за прогрессом и пушить готовые модели на Hugging Face Hub. В этом туториале показано, как это работает и как использовать самому.Claude Code умеет использовать "скиллы" — упакованные инструкции, скрипты и доменные знания для выполнения специализированных задач. Скилл hf-llm-trainer

продолжить чтение

Оставлено в

Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini

Привет HabrСделал забавного бота который стал ещё и довольно полезным поэтому решил им поделиться. Хотелось сделать бота, который:По запросу пойдёт в интернет и найдёт то, что мы обсуждаем прямо сейчас, так как он видит контекст беседы и часто понимает, о чём идёт речь, и в ответе даст ссылки на источники, которые найдётПонимает контекст беседы и не требует объяснять ему каждую детальЗнает какой сейчас год и точное время и учитывает это при поиске информации и при ответахИмеет характер и помнит, кто и как к нему относится в этом чатеРасшифровывает голосовые сразу для всего чата

продолжить чтение

Оставлено в

Как я программирую с помощью агентов

TL;DRАгент в контексте LLM — это не магия, а цикл, в котором модель по шагам вызывает инструменты (bash, git, тесты, web) и получает от них обратную связь.Такой агент умеет ориентироваться в живой кодовой базе, запускать компилятор и тесты, читать логи и документацию, поэтому генерирует и правит код куда надёжнее, чем «голая» модель в чате.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm.

Как LLM-вендоры обращаются с вашими данными: подробный разбор безопасности и конфиденциальности

Бенчмарк конца эпохи — Humanity’s Last Exam

Вайб-ЛЛМинг. AI агенты теперь сами обучают LLM с помощью Hugging Face Skills

Claude Opus 4.5: как Anthropic сделала флагманскую модель в 3 раза дешевле и при этом умнее

Технический обзор моделей DeepSeek от V3 до V3.2

Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году

OpenAI обучила модели «признаваться» в плохом поведении

Как Claude научился файн-тюнить опенсорсные LLM

Сыч: телеграм-бот, который помнит обиды и обходит лимиты Google Gemini

Как я программирую с помощью агентов

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llm.