Не только трансформеры: за пределами стандартных архитектур LLM
Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Дальше слово автору:Гибриды с линейным вниманием, текстовая диффузия, модели мира на основе кода и малые рекурсивные трансформеры.От DeepSeek R1 до MiniMax-M2, самые большие и способные LLM с открытыми весами сегодня остаются авторегрессивными (autoregressive) трансформерами декодерного типа, которые построены на различных вариациях оригинального механизма многоголового внимания (multi-head attention).
Как я запустил локальную LLM на Raspberry Pi 5
Последние пару лет я много экспериментировал с LLM на разных железках от GPU-кластеров в облаке до маленьких Raspberry Pi. И вот одна из любимых задачек-провокаций: «А можно ли запустить модель на Pi 4, 5?» Если коротко: можно попробовать, но физика тут сильнее хайпа. У платы есть 8-16 ГБ памяти, у модели десятки гигабайт даже в самых «жестких» квантовках. В лоб это не работает, но зато эксперимент дает интересный результат: мы понимаем, где проходят границы устройства и какие архитектурные схемы реально полезны.
Хайп vs реальность: что tech-медиа пишут об ИИ и кто реально лучший в 2025?
За последний месяц я детально отслеживал каждую статью об искусственном интеллекте в ведущих западных tech-изданиях. 200 статей из TechCrunch, VentureBeat и MIT Technology Review за 26 дней — в среднем почти 8 новостей об ИИ каждый день. Цель эксперимента была проста: понять, совпадает ли то, о чём громче всего кричат медиа, с реальными возможностями ИИ-моделей.Спойлер: не совпадает. И разрыв между медийным шумом и реальностью оказался весьма значительным.Методология исследования Я мониторил три ключевых источника tech-новостей:TechCrunch — крупнейшее издание о стартапах и технологиях VentureBeat
Эксперт по ИБ из Cybernews выяснил, что советы от ChatGPT, Claude и Gemini подвергают угрозам безопасность домашней сети
Эксперт по ИБ из Cybernews рассказал
Как мы адаптировали LLM для русского языка
История про токенизацию, научные статьи и production realityКак мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.Мы - это я и мой друг =)Как всё началосьАвгуст 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?
RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents
Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и выполнять уязвимый код. RedCodeAgent не просто тестирует ответы — он атакует, анализирует поведение и находит уязвимости, которые пропускают все остальные методы.
OpenAI получила семь исков от клиентов за то, что ChatGPT довёл людей до самоубийства
Семь американских семей предъявили иски OpenAI, указав, что компания выпустила мультимодальную большую языковую модель GPT-4o преждевременно и без эффективных мер защиты. Четыре иска касаются предполагаемой роли ChatGPT в самоубийствах людей, а остальные обвиняют чат-бот в усилении бредовых идей, что в некоторых случаях привело к госпитализации в психиатрическую лечебницу.
В OpenAI предупредили о «потенциально катастрофической» опасности супер-ИИ
На официальном сайте OpenAI вышел программный пост

