llm. - страница 21

llm.

DeepSeek выпустил V4 — открытую модель с контекстом в миллион токенов

Сегодня DeepSeek опубликовали две новые модели: V4-Pro и V4-Flash. Обе работают по архитектуре Mixture-of-Experts, веса доступны на Hugging Face под MIT-лицензией.

продолжить чтение

OpenAI Privacy Filter: красивая архитектура в суровых условиях русского бенчмарка

22 апреля 2026 года OpenAI выпустила OpenAI Privacy Filter

продолжить чтение

Разбор архитектуры и тест-драйв OpenAI Privacy Filter на бенчмарке персональных данных на русском

22 апреля 2026 года OpenAI выпустила OpenAI Privacy Filter

продолжить чтение

Как мы заставили vLLM «лениться» под нагрузкой и спасли Time-to-First-Token

Введение: Почему обычный Rate Limiting не работает для LLM?Деплой больших языковых моделей (LLM) — это всегда боль, когда дело доходит до пиковых нагрузок. В классических web-сервисах при высоких RPS мы просто включаем балансировщик, а если всё горит — жестко режем запросы HTTP 429 Too Many Requests.Но в мире генеративного AI отбрасывать запросы клиентов очень дорого: пользователь уже подождал, пока загрузится чат, написал длинный промпт, нажал Enter и… получил ошибку. А масштабирование GPU-кластера занимает минуты, которых у нас нет.В этой статье мы покажем, как подход “Динамической лени”

продолжить чтение

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

продолжить чтение

Эволюция данных: генетический алгоритм в задаче классификации текстов

продолжить чтение

OpenAI выпустили GPT-5.5: пишет код дешевле предшественника

GPT-5.5 — это следующая модель после GPT-5.4, ориентированная прежде всего на агентную работу: многошаговые задачи, где модель планирует, использует инструменты и доводит работу до конца без постоянного участия пользователя.На Terminal-Bench 2.0 (сложные командно-строковые сценарии с планированием и итерациями) модель показала 82.7% против 75.1% у GPT-5.4. На SWE-Bench Pro, который оценивает решение реальных GitHub-задач, — 58.6%. Примечательно, что этих результатов GPT-5.5 достигает при меньшем количестве токенов, чем предшественник.

продолжить чтение

Gemini против Mythos: Google отвечает Anthropic и OpenAI армией агентов вместо одной «страшной» модели

На Google Cloud Next 2026 в Лас-Вегасе компания представила стратегию кибербезопасности, которая расходится с подходом Anthropic и OpenAI. Вместо отдельной cyber-модели Google встраивает универсальный Gemini 3.1 Pro в набор агентов и платформ и утверждает, что такая конфигурация не уступает узкоспециализированным аналогам.Что анонсировано22 апреля 2026 года на конференции Google Cloud Next '26 в Mandalay Bay Google представил крупный пакет обновлений своей платформы безопасности (Google Cloud

продолжить чтение

Я строю AI-бот для самопознания. Вот спек, архитектура и почему LLM — это периферия, а не ядро

Статья четвертая из серии. Было исследование, личная история, продуктовый инсайт. Здесь будет продукт. Публикую манифест до того, как написана первая строчка кода — чтобы потом было честно сравнить, где я прав, а где разбился о реальность.Большинство AI-ботов — это if-else вокруг GPT

продолжить чтение

GLM 5.1 vs DeepSeek V3.2 на Veai Agent Benchmark

Мы перевели агента на GLM 5.1 и обновили инференс-сервер. На интерактивном бенчмарке новая связка работает стабильнее, честнее и быстрее. Агент реже чинит “по догадке,” лучше проверяет себя тестами и сборкой и чаще доводит задачи до рабочего результата.

продолжить чтение

1...10...192021222324...3040...236