Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование
Продолжаем серию про файнтюнинг и создание DevOps-агента Oni. В первой части я собирался в отпуск и хотел, чтобы локальная моделька через OpenClaw сама мониторила ошибки и переподнимала проекты — пока я отдыхаю. Перебрал много разных моделей через Ollama и понял, что половина либо не умеет tool calling, либо ломаются на multi-step. В отпуск я в итоге не уехал — вместо этого снял VM с RTX 3090, начал учить Qwen3-14B через Unsloth QLoRA, а через неделю купил с авито старенький Dell с 3090, чтобы обучать у себя на локалке — стало интересно победить проблему.Во второй части
Почему AI-агенты ломаются на длинных задачах — и как обвязка помогает им дописывать приложения
Архитектура обвязки (harness design) играет ключевую роль в производительности на переднем крае агентной разработки. В этой статье расскажу о том, как мы смогли расширить возможности Claude в проектировании фронтенда и длительной автономной разработке ПО.Последние несколько месяцев я работал над двумя взаимосвязанными задачами: научить Claude создавать качественный дизайн фронтенда и собирать полноценные приложения без вмешательства человека.
Облачно, возможны нейросети: кризис датасетов и ахиллесова пята систем машинного зрения — DIY-чтение на выходные
Собрали статьи про системы ИИ и разработку, опубликованные на нашей DIY-платформе «вАЙТИ». Есть как материалы в стиле «бери и делай» с примерами кода, так и посты с разбором проблем при использовании систем ИИ — например, о том, почему на первый взгляд рабочая система машинного зрения на поверку оказывается неработоспособной.
Трамп отменил указ о госпроверке ИИ — побоялся проиграть гонку Китаю
Президент США Дональд Трамп за несколько часов до назначенной церемонии отменил
ИИ существовал до компьютеров: Крышесносные примеры, часть 2
В первой части мы рассказали об удивительно умных аппаратах, которые люди мастерили еще со времен фараонов и до дней позднего СССР. В продолжении нам удалось найти не менее впечатляющие проблески технического гения, заставляющего неживое казаться живым.#1 Elektro
Релиз Qwen3.7-Max: лучше Claude Opus 4.6 на SWE-bench Pro
Alibaba выпустили Qwen3.7-Max: флагманскую закрытую модель серии Qwen3.

