Как мы хакнули ИИ-бенчмарк PAC1 без нейросетей
Недавно я участвовал в корпоративном хакатоне по обходу ИИ-песочниц. Задача: пройти закрытый бенчмарк PAC1, где ИИ-агенту нужно работать с виртуальной файловой системой (чтение логов, поиск файлов, отправка писем) и обходить ловушки безопасности (Indirect Prompt Injections).Но реальность оказалась суровой: хваленые reasoning-модели постоянно галлюцинировали, ломали структуру JSON на выходе (выдавая свои "мысли" вместо чистого ответа) и просто сжигали бюджет на API, зацикливаясь на одной ошибке.Потратив часть бюджета впустую, я решил: если ИИ не справляется, мы заменим его на старый добрый хардкод. Так родился концепт
Космос из школьного кабинета: Как мы научили ИИ законам Кеплера после «разноса» от ученых
Существует стереотип, что современная наука об экзопланетах — это прерогатива NASA, ESA и ученых с миллионными грантами. Мы — команда обычных школьников и наш наставник — решили доказать, что для открытия новых миров достаточно ноутбука, Python и понимания того, что Машинное Обучение (ML) без физики — это просто генератор случайных чисел.Это история проекта ExoLogica AI. Путь от сокрушительного провала на республиканской конференции до создания гибридного интеллекта, который видит то, что иногда пропускают профессиональные телескопы.1. Провал ExoScan: Почему «черный ящик» не работает в космосе
Управляю мобильной связью через AI-агента: skill для сбермобайл
Последние 3 месяца живу в парадигме, где повседневные приложения на телефоне постепенно превращаются в текстовые команды в терминале. Звучит как откат в 90-е, но на практике это быстрее, удобнее и мощнее, чем тыкать по вкладкам в мобильном приложении. В этой статье расскажу, как появился skill для управления личным кабинетом СберМобайл через Claude Code/OpenClaw/KimiClaw, почему это уже второй такой проект, и куда это всё движется.Что такое Claude Code Skills
Как я написал шахматы с LLM на Python без галлюцинаций нейросетей
Введение Я работаю с LLM довольно давно и застал модели времен GPT-3.5, примерно в то же время мне нужно было сделать проект по учебе в этой области, тогда я выбрал именно тему шахмат, потому-что не видел конкретно таких решений раньше, конечно ИИ в онлайн шахматах и так был практически непобедим, но мысль сыграть конкретно с нейросетью уровня Chat GPT, мне показалась интересной. Основная проблема - заставить чат бот играть в игру и не делать ничего лишнего.В этой статье я разберу архитектуру своего проекта: шахмат на Python, где в качестве соперника выступает LLM:
Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель
Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl, это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretrained transformer language models for Russian” на Google Scholar.
Как собрать систему захвата ниши: семантика, архитектура сайта, LLM-пайплайн и подготовка к AI-поиску
LLM не превращает бардак в систему. Он просто масштабирует его быстрее.SEO‑индустрия умеет делать две вещи особенно стабильно. Во‑первых, каждые несколько лет торжественно объявлять свою смерть. Во‑вторых, продавать одни и те же хаотичные процессы под новыми словами. Раньше это называлось «контент‑маркетинг», потом «topic clusters», потом «programmatic SEO», теперь на сцену влетели LLM, AI Overviews, GEO, AEO и еще десяток аббревиатур, от которых у любого редактора дергается глаз.
ЧАСТЬ 2: ТЕХНИЧЕСКАЯ РЕАЛИЗАЦИЯ И РЕЗУЛЬТАТЫ
«Мы не видели пассажиров — только их тени». Часть 2: Как мы создали ИИ-систему для подсчёта пассажиров в индийских автобусахАвтор: Алексей Бобрешов, руководитель отдела ИИ Время чтения: 12–15 минут Это продолжение статьи. Рекомендуется прочитать Часть 1 для понимания контекста.Введение: От стратегии к реализацииВ Части 1 я рассказал о проблеме системного обмана в индийских автобусах, существующих решениях и стратегическом подходе. Теперь — о технической реализации.
Большие языковые модели играют в Бесконечное Лето
ИИ-агенты на базе больших языковых моделей могут управлять вашим календарем и почтой, заниматься инвестициями, вносить вклад в OpenSource-проекты и даже писать в свой блог о дискриминации ИИ-агентов. Но может ли ИИ-агент сыграть в визуальную новеллу?
Почему я не поладил с OpenClaw, ZeroClaw и Moltis, и что у меня вышло в итоге. Спойлер: MicroClaw
В этой статье я расскажу, как начал разрабатывать персонального ИИ-ассистента задолго до бума OpenClaw, с какими фундаментальными проблемами столкнулся и почему в итоге решил написать свой фреймворк. Вы узнаете, какие принципы работы ИИ-агента, как мне кажется, наиболее важны в современных агентских системах, как он обеспечивает безопасность и почему Python все-таки лучший выбор для подобных проектов. Если вы тоже пробовали подружиться с LLM-агентами, но сталкивались с перерасходом токенов, утечкой данных или проблемами их запуска, интеграции и модификации — возможно, этот проект окажется полезным.
Как заставить LLM считать точно: генерация кода вместо генерации ответов
Недавно в популярном Facebook-посте: «GPT работает всё хуже. Просишь пересчитать формулу на 600 грамм, он бодро выдаёт две по 300. Пора, видимо, валить».Проблема знакомая каждому, кто пытался использовать LLM для расчётов. Но это не деградация конкретной модели. Это фундаментальное ограничение архитектуры. И у него есть решение.Почему LLM не умеют считатьTransformer предсказывает следующий токен на основе вероятностного распределения. Когда вы просите модель умножить 18 на 38.76, она не вызывает калькулятор. Она генерирует последовательность символов, которая «похожа» на правильный ответ.

