Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры. Дальше слово автору:Гибриды с линейным вниманием, текстовая диффузия, модели мира на основе кода и малые рекурсивные трансформеры.От DeepSeek R1 до MiniMax-M2, самые большие и способные LLM с открытыми весами сегодня остаются авторегрессивными (autoregressive) трансформерами декодерного типа, которые построены на различных вариациях оригинального механизма многоголового внимания (multi-head attention).

Оставлено в

Как я запустил локальную LLM на Raspberry Pi 5

Последние пару лет я много экспериментировал с LLM на разных железках от GPU-кластеров в облаке до маленьких Raspberry Pi. И вот одна из любимых задачек-провокаций: «А можно ли запустить модель на Pi 4, 5?» Если коротко: можно попробовать, но физика тут сильнее хайпа. У платы есть 8-16 ГБ памяти, у модели десятки гигабайт даже в самых «жестких» квантовках. В лоб это не работает, но зато эксперимент дает интересный результат: мы понимаем, где проходят границы устройства и какие архитектурные схемы реально полезны.

продолжить чтение

Оставлено в

Хайп vs реальность: что tech-медиа пишут об ИИ и кто реально лучший в 2025?

За последний месяц я детально отслеживал каждую статью об искусственном интеллекте в ведущих западных tech-изданиях. 200 статей из TechCrunch, VentureBeat и MIT Technology Review за 26 дней — в среднем почти 8 новостей об ИИ каждый день. Цель эксперимента была проста: понять, совпадает ли то, о чём громче всего кричат медиа, с реальными возможностями ИИ-моделей.Спойлер: не совпадает. И разрыв между медийным шумом и реальностью оказался весьма значительным.Методология исследования Я мониторил три ключевых источника tech-новостей:TechCrunch — крупнейшее издание о стартапах и технологиях VentureBeat

продолжить чтение

Оставлено в

Эксперт по ИБ из Cybernews выяснил, что советы от ChatGPT, Claude и Gemini подвергают угрозам безопасность домашней сети

Эксперт по ИБ из Cybernews рассказал

продолжить чтение

Оставлено в

Как мы адаптировали LLM для русского языка

История про токенизацию, научные статьи и production realityКак мы потратили 2 месяца на адаптацию Qwen3-0.6B для русского языка. Написали систему с нуля на основе 8 научных статей из arXiv. Исправили 6 критических багов (от NaN в fp16 до архитектурных проблем). Получили +35% training speed и +60% inference speed. В этой статье - честный рассказ о том, что не работает из коробки, какие грабли ждут в production, и как мы их обошли.Мы - это я и мой друг =)Как всё началосьАвгуст 2025. Мы работаем над MAWO - системой fine-tuning для русскоязычных LLM. У нас есть модель Qwen3-0.6B. Почему именно 0.6B, а не 8B или 70B?

продолжить чтение

Оставлено в

RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

Команда AI for Devs подготовила перевод статьи о RedCodeAgent — первой полностью автоматизированной системе red-teaming для проверки безопасности кодовых агентов. Исследователи из Чикаго, Оксфорда, Беркли и Microsoft Research показали: даже самые продвинутые LLM-агенты могут генерировать и выполнять уязвимый код. RedCodeAgent не просто тестирует ответы — он атакует, анализирует поведение и находит уязвимости, которые пропускают все остальные методы.

продолжить чтение

Оставлено в

OpenAI получила семь исков от клиентов за то, что ChatGPT довёл людей до самоубийства

Семь американских семей предъявили иски OpenAI, указав, что компания выпустила мультимодальную большую языковую модель GPT-4o преждевременно и без эффективных мер защиты. Четыре иска касаются предполагаемой роли ChatGPT в самоубийствах людей, а остальные обвиняют чат-бот в усилении бредовых идей, что в некоторых случаях привело к госпитализации в психиатрическую лечебницу.

продолжить чтение

Оставлено в

В OpenAI предупредили о «потенциально катастрофической» опасности супер-ИИ

На официальном сайте OpenAI вышел программный пост

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.

AI-рынок потерял $800 млрд за неделю

Скам приносит Facebook десять процентов рекламной выручки

Не только трансформеры: за пределами стандартных архитектур LLM

Как я запустил локальную LLM на Raspberry Pi 5

Хайп vs реальность: что tech-медиа пишут об ИИ и кто реально лучший в 2025?

Эксперт по ИБ из Cybernews выяснил, что советы от ChatGPT, Claude и Gemini подвергают угрозам безопасность домашней сети

Как мы адаптировали LLM для русского языка

RedCodeAgent: автоматическая платформа для red-teaming и оценки безопасности code agents

OpenAI получила семь исков от клиентов за то, что ChatGPT довёл людей до самоубийства

В OpenAI предупредили о «потенциально катастрофической» опасности супер-ИИ

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.