llm.
re!think it: Как я уместил корпоративный бэкенд в один промпт (История сборки)
ВведениеВсё началось с утреннего обсуждения того, как языковые модели вообще воспринимают вводный запрос. Насколько на самом деле важно качество описания промпта? Есть ли разница между большим объемом «популярных» слов (водой) и лаконичным запросом, состоящим из малого количества, но редких и "тяжелых" по смыслу терминов?
Халява уходит из разработки Агентов
Сегодня каждый норовит написать универсального агента и объявить это революцией. Рынок переполнен поделками вроде OpenClaw и его клонов: IronClaw, ZeroClaw, MicroClaw, NullClaw, GitClaw, AstrBot, GripAi, Moltis...Все идут одной и той же дорогой: используют готовые MCP и дают агентам shell-оболочку. Да, это легко собрать. Да, весело. Можно хайпануть в соцсетях. Но это тупиковый путь.В статье разберем все грехи status quo и предложим другой подход, более требовательный к компетенциям в области разработки ПО.Если вы не знаете, что такое агент, могу порекомендовать первый раздел Пишем агента на Kotlin: KOSMOS.
Слепое пятно LLM-разработки: контекст за пределами кода
Качество работы LLM — функция от качества контекста на входе. Это утверждение звучит банально, однако зачастую разработчики оптимизируют модель, выбирая между GPT, Claude, Gemini и прочими, и промпт, но не контекст в целом
97 часов на одной RTX 4090: MoE с подключаемыми экспертами, самодистилляция и почему перплексия — плохая метрика
Меня зовут Борисов Павел, занимаюсь ML-исследованиями. Последние месяцы ковырялся с архитектурой MoE, где эксперты подключаются поверх замороженной модели. 22 эксперимента на одной RTX 4090, ниже разбор что получилось.Что за архитектураБерём предобученную языковую модель и замораживаем целиком, ни один вес не меняется. К каждому MLP-слою прикручиваем маленький обучаемый модуль, «эксперт». Сверху маршрутизатор — линейный слой на 37 тысяч параметров, который для каждого токена выбирает эксперта.
8 уровней агентной инженерии
Способности AI в написании кода растут быстрее, чем наше умение этими способностями пользоваться. Поэтому рост баллов на SWE-bench не коррелирует с метриками продуктивности, которые волнуют инженерных руководителей. Когда команда Anthropic выкатывает продукт вроде Cowork за 10 дней, а другая команда не может довести до ума сломанный POC на тех же моделях, разница в одном: первые закрыли разрыв между возможностями моделей и практикой, вторые — нет.
Claude, Мор.Утопия, LLM, Сознание
Ребят, я знаю, что статья бред сивой кобылы. Я, от нечего делать, просто сидел обсуждал игру с Клодом, получилось достаточно интересно и я предложил написать ему статью от своего имени. Вопрос, которым он задается (иил делает вид, что задается) в конце действительно волнительный. Саму статью дальше не трогал, все мысли, слова, дейтсвия сохранены, как я ему и обещал. Пусть это будет своеобразным памятником ему, хоть я никогда к этим машинкам сентиментальности не чуствовалОрешек и Архив: о памяти, личности и том, что остаётся после смерти
Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference
TL;DRМы пытались запустить LLM inference на старой AMD RX580 (8 VRAM) через ROCm в Kubernetes. GPU корректно определялся, VRAM использовалась, но inference падал с ошибками вида:hipMemGetInfo(free, total) CUDA error: invalid argumentПосле серии экспериментов с ROCm userspace, Docker‑образами и Kubernetes deployment выяснилось, что проблема лежит на границе:kernel → ROCm runtime → ggml backendФинальное решение включало:переход на kernel 6.8стабилизацию ROCm runtimeиспользование llama.cpp + ROCmgrammar‑constrained decoding для strict sanity promptsВ итоге мы получили стабильный GPU inference:~42 токен/секgpu_busy_percent → до 100%
Архитектура вместо синтаксиса: CodeSpeak — язык разработки следующего поколения, использующий силу LLM спецификаций
Команда разработчиков под руководством Андрея Бреслава, российского разработчика и автора языка программирования Kotlin, представила публичную альфа-версию нового инструмента для разработчиков — CodeSpeak
Облачные модели Ollama в задачах code review — честное сравнение на примерах
С недавних пор AI-инструменты стали важной частью разработки. Такие решения, как Cursor, Codex и Claude Code позволяют разработчикам генерировать код, ускорять написание функций и автоматизировать рутинные задачи. Это существенно повышает скорость разработки. Однако у такого подхода есть и обратная сторона: код начинает появляться быстрее, чем команды успевают его качественно проверять. В результате нагрузка на процесс code review

