Утечка GPT-5.6 Pro: Клон «The Sims» одним промптом за 48 минут и революция в генерации 3D
Пока индустрия ждала планового релиза, OpenAI, похоже, втихую запустила A/B-тестирование GPT-5.6 Pro для части пользователей. Никаких анонсов, только внезапно возросшее время генерации (до 20-40 минут) и результаты, которые заставляют переосмыслить возможности LLM. Как насчет полностью функционального симулятора жизни со сложным стейт-менеджментом, NPC и системой профессий, сгенерированного в одном HTML-файле без использования IDE и сторонних фреймворков? Спойлер: модель теперь понимает не только код, но и физику 3D-пространства.
ИИ-ассистент с долговременной памятью, агентами и vision. Проблемы с Персональными Данными
Оглавление:ИсторияПамять: факты, embeddings и забываниеРазные модели под разные задачиTool callingПланировщик и proactiveАгенты и мультиагентский пайплайнVision, который знает контекстПерсональные данные и GigaChatЧто делать дальшеИстория
Sakana Fugu обогнала Opus 4.8 и GPT-5.5, не обучив ни одной большой модели
Японская лаборатория Sakana AI выпустила Fugu и Fugu Ultra — модели, которые не пытаются быть большими, а дирижируют чужими. За одним API скрывается пул сильных LLM, между которыми Fugu распределяет задачу, а затем собирает из их работы единый ответ. В опубликованных бенчмарках одна из двух версий Fugu обходит Opus 4.8, Gemini 3.1 Pro и GPT-5.5 в десяти тестах из одиннадцати — при том что собственной фронтир-модели у Sakana AI попросту нет.
Как тестировать 5 LLM-агентов одним набором тестов: capability-based подход
Один набор тестов проверяет всех агентов сразу — в этом суть capability-based подходаВ (https://habr.com/ru/articles/1049482/) я разбирала,
Система авто-оценки качества вебинаров на Claude Code за неделю
TL;DRМетодисты вручную пересматривали вебинары - не масштабируется. Собрал конвейер: видео → локальная расшифровка (whisper.cpp на Apple M4) → LLM-судья по рубрике с цитатами → SQLite → письмо и дашборд. Боевое ядро заработало примерно за неделю.Главное в LLM-судье - не промпт, а методика: рубрика как данные (YAML, который правят методисты), калибровка под живых экспертов и честность про пределы текста.Claude Code тут - быстрый дисциплинированный джун: ускоряет «как написать» в разы, но надежность, идемпотентность и гардрейлы надо прямо навязывать.
LLM-судья для нейроразбора резюме на hh
Создать LLM-судью легко. Гораздо сложнее сделать так, чтобы его оценкам можно было доверять.Мы убедились в этом на практике при разработке нейроразбора резюме для ИИ-помощника hh.ru
Делаем фреймворк Meta-Spider на основе мета-внимания
Spider-GwenЭто прямое продолжение статьи "meta-attention is all you need". Рекомендую ее прочитать перед тем как продолжить, но это необязательно, экскурс в архитектуру мы проведем.

