llm.
DeepSeek выпустил V4 — открытую модель с контекстом в миллион токенов
Сегодня DeepSeek опубликовали две новые модели: V4-Pro и V4-Flash. Обе работают по архитектуре Mixture-of-Experts, веса доступны на Hugging Face под MIT-лицензией.
OpenAI Privacy Filter: красивая архитектура в суровых условиях русского бенчмарка
22 апреля 2026 года OpenAI выпустила OpenAI Privacy Filter
Разбор архитектуры и тест-драйв OpenAI Privacy Filter на бенчмарке персональных данных на русском
22 апреля 2026 года OpenAI выпустила OpenAI Privacy Filter
Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token
Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”
OpenAI выпустили GPT-5.5: пишет код дешевле предшественника
GPT-5.5 — это следующая модель после GPT-5.4, ориентированная прежде всего на агентную работу: многошаговые задачи, где модель планирует, использует инструменты и доводит работу до конца без постоянного участия пользователя.На Terminal-Bench 2.0 (сложные командно-строковые сценарии с планированием и итерациями) модель показала 82.7% против 75.1% у GPT-5.4. На SWE-Bench Pro, который оценивает решение реальных GitHub-задач, — 58.6%. Примечательно, что этих результатов GPT-5.5 достигает при меньшем количестве токенов, чем предшественник.
Gemini против Mythos: Google отвечает Anthropic и OpenAI армией агентов вместо одной «страшной» модели
На Google Cloud Next 2026 в Лас-Вегасе компания представила стратегию кибербезопасности, которая расходится с подходом Anthropic и OpenAI. Вместо отдельной cyber-модели Google встраивает универсальный Gemini 3.1 Pro в набор агентов и платформ и утверждает, что такая конфигурация не уступает узкоспециализированным аналогам.Что анонсировано22 апреля 2026 года на конференции Google Cloud Next '26 в Mandalay Bay Google представил крупный пакет обновлений своей платформы безопасности (Google Cloud
Я строю AI-бот для самопознания. Вот спек, архитектура и почему LLM — это периферия, а не ядро
Статья четвертая из серии. Было исследование, личная история, продуктовый инсайт. Здесь будет продукт. Публикую манифест до того, как написана первая строчка кода — чтобы потом было честно сравнить, где я прав, а где разбился о реальность.Большинство AI-ботов — это if-else вокруг GPT
GLM 5.1 vs DeepSeek V3.2 на Veai Agent Benchmark
Мы перевели агента на GLM 5.1 и обновили инференс-сервер. На интерактивном бенчмарке новая связка работает стабильнее, честнее и быстрее. Агент реже чинит “по догадке,” лучше проверяет себя тестами и сборкой и чаще доводит задачи до рабочего результата.

