llm.

Все ведущие LLM провалили первый бенчмарк по киберзащите. Что это значит для SOC

Simbian Research опубликовала Cyber Defense Benchmark – первую методику, которая проверяет, способна ли LLM автономно искать атакующего в реальной телеметрии. Ни одна из 11 фронтирных моделей не набрала проходного балла. Пока AI заметно сильнее помогает атакующим, чем защищающимся, единственный рабочий ответ для корпоративной сети – эшелонированная оборона, микросегментация и ZTNA.Что произошло28 апреля 2026 года Simbian Research опубликовала

продолжить чтение

Оставлено в

DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

На нашем замере DeepSeek v4 оказался примерно в полтора раза медленнее GLM 5.1 по скорости генерации - 29.81 против 47.65 токенов в секунду. DeepSeek v4:

продолжить чтение

Оставлено в

Epic Fail: Как долго протянут ИИ-детекторы

БЯМы настолько преисполнились в познании наших письменных паттернов, что отличить их от человеческой писанины уже фактически невозможно. Разбираемся как до такого дошло, чем грозит и что делать.Теория разума или почему LLM такая коварная?Карикатура на академическую бесчестность: “Обещаю, эти курсачи пройдут проверку на ИИ”

продолжить чтение

Оставлено в

Лечение амнезии между AI-сессиями разработки

Давно я не писал статьи. Сколько лет утекло… Время изменилось. Теперь важно не отстать от мира разработки. Возможно, эта статья кому-то поможет.

продолжить чтение

Оставлено в

DeepSeek V4 vs Claude Sonnet 4.6: кто дешевле, кто умнее

Цены DeepSeek V4 Pro вышли в апреле 2026: $1.74 за миллион входных токенов, $3.48 за выходные. Claude Sonnet 4.6 стоит $3 и $15 соответственно. То есть в 1.7–4.3 раза дороже, в зависимости от пропорции input/output. На SWE-bench и GPQA модели идут плечом к плечу. Английские бенчи говорят: Sonnet чуть впереди по reasoning, DeepSeek чуть позади, но дешевле. Берите DeepSeek, не прогадаете.На английских.

продолжить чтение

Оставлено в

DataCopilot: строим мультиагентную архитектуру для работы с корпоративным хранилищем данных и документацией

Привет, Хабр! Меня зовут Максим Шакуров, я ML-инженер в VK.

продолжить чтение

Оставлено в

Базовые модели для астробиологии: практический обзор

Виды жизни в космосе могут быть весьма разнообразными, как мы помним из мультика "Тайна Третьей Планеты"...

продолжить чтение

Оставлено в

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

DeepSeek V4 Pro вышел 24 апреля 2026, три дня назад. Огромная модель, топ AIME и SWE-bench, передовая reasoning-архитектура. Вокруг релиза до сих пор много шума — пиарили мощно. Я открыл OpenRouter, прописал её в свой battle test и ждал Tier S — 95+ из 100 на длинном русском контенте.Получил 89. Tier A, нижний край. Ну ладно — подумал, что модель прогрелась криво, и через сутки прогнал второй раз. Ровно 89. Не статистический выброс, а воспроизводимый результат.Запустил его же Flash-вариант — 83. По чистому качеству Pro действительно сильнее, на 6 пунктов. Только Flash при этом стоит $0.0019 за вызов против $0.0256 у Pro. В 13 раз дешевле.

продолжить чтение

Оставлено в

Расходы на ИИ становятся отдельной проблемой для бизнеса: токены и вычисления могут стоить дороже сотрудников

продолжить чтение

Оставлено в

Story points — прошлый век?

Хватит мерить задачи story points. Пора хотя бы обсудить neuro pointsМнение. Предложение к обсуждению, а не новая догма.В разработке есть старый и понятный инструмент — story points. Он помогает команде примерно оценить задачу по сложности, неопределённости и объёму усилий.Но у story points есть важная скрытая предпосылка: основную работу по решению задачи делает человек.И вот здесь, как мне кажется, в 2026 году начинается расхождение с реальностью.Сегодня всё больше задач в разработке решаются не только головой инженера и документацией, но и через постоянное взаимодействие с нейросетями:

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm.

Все ведущие LLM провалили первый бенчмарк по киберзащите. Что это значит для SOC

DeepSeek v4 vs GLM 5.1: сравнительный бенчмарк агентов на реальных задачах разработки

Epic Fail: Как долго протянут ИИ-детекторы

Лечение амнезии между AI-сессиями разработки

DeepSeek V4 vs Claude Sonnet 4.6: кто дешевле, кто умнее

DataCopilot: строим мультиагентную архитектуру для работы с корпоративным хранилищем данных и документацией

Базовые модели для астробиологии: практический обзор

Прогнал 6 апрельских LLM через battle test. Победил не самый новый и не самый дорогой

Расходы на ИИ становятся отдельной проблемой для бизнеса: токены и вычисления могут стоить дороже сотрудников

Story points — прошлый век?

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llm.