Triton FP8: реализация и автотюнинг GEMM-Attention под RTX 40xx-Blackwell
Привет, Хабр! Я тут на досуге решил разобраться с 8-битными числами с плавающей запятой (FP8) и попробовать написать под них свои GPU‑ядра на Triton
Как камеры с ИИ помогают бизнесу
Машинное зрение давно вышло за рамки научной фантастики и сегодня активно используется в бизнесе. Камеры наблюдения, которые ещё недавно служили только для безопасности и архивирования происходящего, теперь становятся источником ценной информации.С их помощью можно не просто «смотреть» за происходящим, а собирать данные о поведении людей, загрузке оборудования и эффективности процессов.Всё это помогает принимать управленческие решения быстрее и точнее.1) Как и зачем считать людей в торговом центре
Почему обычный RAG ломается на русском
RAG (Retrieval-Augmented Generation) — это не одна технология, а архитектурный приём: мы соединяем поиск по базе знаний (retrieval) с генерацией текста (generation). На английском всё работает прилично, а вот на русском начинаются приключения.Причины банальны:Морфология.
OpenAI резко ужесточила правила копирайта в Sora 2 через несколько дней после запуска
Спустя всего несколько дней после релиза видео-ИИ Sora 2 OpenAI объявила
Паттерны программирования при работе с LLM
LLM - мощный инструмент, но его эффективность в продакшене зависит не от одного «хитрого промпта», а от всей архитектуры: что мы даём модели, как управляем её рассуждением и как проверяем/обрабатываем результат. В этой статье - компактная карта паттернов, разбитая по этапам конвейера: Input -> Reasoning -> Output.ВведениеСтатей про LLM - вагон, и у всех свои "трюки". Мне не хватало схемы, которая раскладывала бы эти "трюки" по полочкам.
От GPT-2 к gpt-oss: анализ достижений архитектуры
И как они выглядят на фоне Qwen 3📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📌 GitHub Pages — углублённые разборы статей5 августа, 2025 года OpenAI выпустила новые модели LLM с открытым весом: gpt-oss-120b и gpt-oss-20b — первые полностью открытые модели с момента выхода GPT-2 в 2019 году. И да, благодаря некоторым умным оптимизациям, их можно запускать локально (но об этом чуть позже).
Человекоподобный робот Tesla Optimus показал кун-фу в реальном времени
Илон Маск опубликовал в X короткий ролик с демонстрацией движений кун-фу роботом Tesla Optimus. Видео длится более 30 секунд, а демонстрация проходит в паре с живым бойцом, на действия которого Optimus реагирует в реальном времени. Толчок в конце видео демонстрирует способность робота сохранять равновесие.

