llm.
Все ведущие LLM провалили первый бенчмарк по киберзащите. Что это значит для SOC
Simbian Research опубликовала Cyber Defense Benchmark – первую методику, которая проверяет, способна ли LLM автономно искать атакующего в реальной телеметрии. Ни одна из 11 фронтирных моделей не набрала проходного балла. Пока AI заметно сильнее помогает атакующим, чем защищающимся, единственный рабочий ответ для корпоративной сети – эшелонированная оборона, микросегментация и ZTNA.Что произошло28 апреля 2026 года Simbian Research опубликовала
DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки
На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации - 29.81 против 47.65 токенов в секунду. DeepSeek v4:
Epic Fail: Как долго протянут ИИ-детекторы
БЯМы настолько преисполнились в познании наших письменных паттернов, что отличить их от человеческой писанины уже фактически невозможно. Разбираемся как до такого дошло, чем грозит и что делать.Теория разума или почему LLM такая коварная?Карикатура на академическую бесчестность: “Обещаю, эти курсачи пройдут проверку на ИИ”
Лечение амнезии между AI-сессиями разработки
Давно я не писал статьи. Сколько лет утекло… Время изменилось. Теперь важно не отстать от мира разработки. Возможно, эта статья кому-то поможет.
DeepSeek V4 vs Claude Sonnet 4.6: кто дешевле, кто умнее
Цены DeepSeek V4 Pro вышли в апреле 2026: $1.74 за миллион входных токенов, $3.48 за выходные. Claude Sonnet 4.6 стоит $3 и $15 соответственно. То есть в 1.7–4.3 раза дороже, в зависимости от пропорции input/output. На SWE-bench и GPQA модели идут плечом к плечу. Английские бенчи говорят: Sonnet чуть впереди по reasoning, DeepSeek чуть позади, но дешевле. Берите DeepSeek, не прогадаете.На английских.
DataCopilot: строим мультиагентную архитектуру для работы с корпоративным хранилищем данных и документацией
Привет, Хабр! Меня зовут Максим Шакуров, я ML-инженер в VK.
Базовые модели для астробиологии: практический обзор
Виды жизни в космосе могут быть весьма разнообразными, как мы помним из мультика "Тайна Третьей Планеты"...
Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой
DeepSeek V4 Pro вышел 24 апреля 2026, три дня назад. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза до сих пор много шума — пиарили мощно. Я открыл OpenRouter, прописал её в свой battle test и ждал Tier S — 95+ из 100 на длинном русском контенте.Получил 89. Tier A, нижний край. Ну ладно — подумал, что модель прогрелась криво, и через сутки прогнал второй раз. Ровно 89. Не статистический выброс, а воспроизводимый результат.Запустил его же Flash-вариант — 83. По чистому качеству Pro действительно сильнее, на 6 пунктов. Только Flash при этом стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.
Story points — прошлый век?
Хватит мерить задачи story points. Пора хотя бы обсудить neuro pointsМнение. Предложение к обсуждению, а не новая догма.В разработке есть старый и понятный инструмент — story points. Он помогает команде примерно оценить задачу по сложности, неопределённости и объёму усилий.Но у story points есть важная скрытая предпосылка: основную работу по решению задачи делает человек.И вот здесь, как мне кажется, в 2026 году начинается расхождение с реальностью.Сегодня всё больше задач в разработке решаются не только головой инженера и документацией, но и через постоянное взаимодействие с нейросетями:

