Как заставить LLM считать точно: генерация кода вместо генерации ответов
Недавно в популярном Facebook-посте: «GPT работает всё хуже. Просишь пересчитать формулу на 600 грамм, он бодро выдаёт две по 300. Пора, видимо, валить».Проблема знакомая каждому, кто пытался использовать LLM для расчётов. Но это не деградация конкретной модели. Это фундаментальное ограничение архитектуры. И у него есть решение.Почему LLM не умеют считатьTransformer предсказывает следующий токен на основе вероятностного распределения. Когда вы просите модель умножить 18 на 38.76, она не вызывает калькулятор. Она генерирует последовательность символов, которая «похожа» на правильный ответ.
Claude Opus 4.5: как Anthropic сделала флагманскую модель в 3 раза дешевле и при этом умнее
24 ноября 2025 года Anthropic выстрелила релизом Claude Opus 4.5 — модели, которая переписывает правила игры для всех, кто использует LLM в production. Главная фишка? Цена упала в 3 раза, а качество выросло. Звучит как маркетинг, но цифры говорят сами за себя.Разбираем, что реально изменилось, смотрим независимые бенчмарки и прикидываем, сколько это сэкономит вашей команде.TL;DR для тех, кто спешит 💰 Цена: $5/1M input tokens (было $15) — снижение в 3 раза⚡ Скорость: задачи, на которые уходило 2 часа, решаются за 30 минут🎯 Качество: 80.9% на SWE-bench (лучше GPT-4 и Gemini)🛡️ Безопасность: в 4.6 раза устойчивее к prompt injection, чем GPT-5.1
Cursor 2.0 и модель Composer: как изменился популярный AI-редактор кода
Вчера компания Anysphere выпустила Cursor 2.0
How I Learned to Stop Worrying and Love the… BDSM
За последние пару лет LLM прочно вошли в мою (и не только мою) жизнь. Как говорится: "Мы не знаем что это такое, если бы мы знали что это такое, но мы не знаем что это такое!". Я взял для заголовка публикации слегка переиначенное название культового фильма Кубрика, потому что сегодняшние разговоры об угрозах ИИ напоминают мне ту самую нервозную атмосферу из фильма, связанную с атомной бомбой.
Как мы обучали модели для кода GigaCode
Привет, Хабр Меня зовут Дмитрий Бабаев, я руководитель R&D GigaCode в Сбере. Сегодня расскажу о том, как мы создавали ИИ‑помощника для программистов задолго до того, как это стало мейнстримом.
AI-бот для QA-инженеров: как я сделал Telegram-ассистента для ежедневной прокачки
Что, если бы кто-то 4 раза в день напоминал тебе важное из мира QA — с примерами, объяснениями и без воды? Я сделал такого помощника. Привет! Меня зовут Евгений. Я — Full-Stack QA Engineer в Devscribed и сегодня хочу поделиться своим экспериментом QA Mentor Bot — Telegram‑бот, который четыре раза в день отправляет случайный вопрос по тестированию из базы данных и сразу же публикует развёрнутый ответ на него с помощью AI в Telegram‑канале.Зачем мне понадобился QA Mentor Bot У этого проекта было две цели: 🎯 Прокачать свои QA‑навыки.Регулярная самоподготовка:
Чем отличается мой Type Predicate Generator?
Кратко: это максимально безопасный по типизации инструмент, генерирует статические файлы с кодом для максимальной совместимости, быстрый благодаря предварительной компиляции (AOT) и компактный. Также он предоставляет удобный генератор модульных тестов, чтобы можно было быть почти на 100% уверенным, что создаваемые предикаты работают, как ожидается.Этот документ предлагает детальное сравнение Generator с другими инструментами для проверки типов во время выполнения, а также дает более широкий обзор смежных тем. Со временем он превращается в более аналитическую статью, а не просто "мой X круче, чем ваш Y".Введение

