- BrainTools - https://www.braintools.ru -
Кратко: стартап Subquadratic представил SubQ 1M-Preview [1] — первую языковую модель с линейной сложностью вычислений относительно длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 раза выше FlashAttention и радикальное снижение стоимости. Независимых тестов пока нет (хотя стартап заявляет о сторонней верификации своих бенчмарков), доступ закрыт. Техническое сообщество реагирует сдержанно: пока это амбициозный пресс-релиз, а не готовый инструмент.
Архитектура SubQ обеспечивает линейный рост затрат, что снижает нагрузку на GPU почти в 1000 раз на длинных контекстах по сравнению с классическими трансформерами. Источник: subq.ai [2]
Главная архитектурная боль [3] современных языковых моделей — квадратичная сложность механизма внимания [4]. С ростом длины контекста вычислительные затраты и потребление памяти [5] увеличиваются непропорционально быстро. Индустрия годами обходила ограничение «костылями»: поиск с дополненной генерацией (RAG), разбиение текста на фрагменты, векторные хранилища. Инженеры тратят много времени на обход ограничений современных LLM: ограниченный контекст, галлюцинации и дороговизна обработки длинных запросов.
Стартап Subquadratic утверждает, что сломал этот барьер. Их архитектура обеспечивает линейный рост вычислений относительно длины контекста. Звучит как мечта, но техническое сообщество пока держит паузу.
Линейное масштабирование: Сложность вместо
. Обработка миллионов токенов без взрывного роста затрат.
Контекст до 12 млн токенов: Флагманские модели обычно деградируют задолго до заявленных 1–2 млн. SubQ обещает стабильную точность на всём объёме.
Скорость и эффективность: Механизм SubQ Sparse Attention работает в 52 раза быстрее FlashAttention и требует на 63% меньше вычислительных ресурсов.
Точность: На тесте RULER 128K модель показала 95% (против 94,8% у Claude Opus 4.6). На сложном MRCR v2 (многошаговое рассуждение по разрозненным данным) исследовательская версия набрала 83, а рабочая — 65,9. Для сравнения: GPT-5.5 — 74, Claude Opus 4.7 — 32,2. На SWE-Bench Verified результат составил 81,8 (Opus 4.6 — 80,8).
Важно: разрыв между исследовательской и рабочей версиями огромен. Насколько сильно качество «урезается» ради скорости в продакшене — открытый вопрос.
Стартап выпустил три продукта с закрытым доступом:
API: Полноконтекстный интерфейс для разработчиков. Гигабайты текста — одним запросом.
SubQ Code: Агент для командной строки. Загружает весь репозиторий в одно окно контекста. Без мультиагентных оркестраций и сложных цепочек вызовов. Вопрос «где используется эта библиотека?» обрабатывается с учётом всей кодовой базы.
SubQ Search: Инструмент глубокого поиска по длинным документам. Позиционируется как замена тяжёлым RAG-системам для корпоративных знаний.
Всё доступно только в рамках закрытого тестирования. Публичного входа нет.
Без открытых проверок дискуссия сместилась с «как внедрять» на «можно ли верить цифрам». В профильных обсуждениях доминируют следующие аргументы:
Цифры впечатляют, но инженеры отмечают: пока модель не покажет себя на реальном коде или юридическом договоре на 500 страниц с перекрёстными ссылками, доверять ранним результатам рано. История знает немало случаев «подгонки» под конкретные наборы данных.
Разрыв между исследовательской и рабочей версиями настораживает. Есть гипотеза, что высокая скорость достигается агрессивным прореживанием внимания, что может «срезать» важные детали в длинных зависимостях.
Главный практический вопрос — цена. Если масштабирование действительно линейное, стоимость вывода модели должна упасть на порядки. Это откроет путь к анализу серверных логов в реальном времени или обработке годового архива обращений поддержки одним запросом. Но каков тариф за миллион токенов? Если он близок к текущим лидерам, преимущество нивелируется.
Тарифы не раскрыты, поэтому экономический эффект остаётся теоретическим.
Мнения разработчиков разделились:
Оптимисты: «Наконец-то можно загрузить весь монолит и спросить: как изменить логику [6], ничего не сломав?»
Скептики: «Длинный контекст ≠ глубокое понимание. Сможет ли модель корректно связать зависимости между разрозненными модулями? Риск уверенной генерации ошибочного кода на основе нерелевантных фрагментов никуда не делся.»
В основе — исследователи из Meta, Google, Oxford, Cambridge, ByteDance и Adobe. Посевной раунд составил $29 млн при участии ранних инвесторов Anthropic, OpenAI и Stripe. Это серьёзная заявка, но даже сильные академические команды не застрахованы от проблем с масштабированием новых архитектур в рабочих средах.
В открытом доступе нет ни одного независимого обзора, кейса или отзыва. Продукт находится в закрытом тестировании, доступ предоставляется по приглашениям. Любые заявления о «реальном опыте» на данный момент — спекуляция.
Для разработчиков:
Следите за появлением модели в независимых рейтингах (LMSYS Chatbot Arena, открытые тесты сообщества).
Готовьтесь к сдвигу парадигмы: если заявления подтвердятся, классический RAG может уйти в нишевые задачи. Зачем искать фрагменты, если можно обработать весь массив?
Для бизнеса:
Экономика станет решающим фактором. Линейная стоимость контекста откроет сценарии, которые раньше были нерентабельны: анализ медицинских карт, расшифровок встреч, сплошной юридический аудит.
Риск зависимости от вендора. Закрытая архитектура означает полный контроль поставщика над доступом и тарифами.
SubQ предлагает не эволюцию [7], а архитектурную революцию. Но революция требует доказательств.
Пока перед нами «чёрный ящик» с впечатляющей математикой [8] на бумаге. Техническое сообщество занимает выжидательную позицию: «Хотим верить, но нужны воспроизводимые результаты».
Рекомендация проста: дождитесь публичного API и независимых замеров. Когда модель выйдет из закрытого контура, мы узнаем, станет ли линейное масштабирование новым стандартом или останется красивой лабораторной работой. А пока — отличная тема для дискуссии, но не инструмент для продакшена.
А как вы относитесь к отказу от квадратичного внимания? Верите, что линейный контекст возможен без потери качества? Делитесь аргументами в комментариях.
Автор: ARad
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/29893
URLs in this post:
[1] представил SubQ 1M-Preview: https://subq.ai/introducing-subq
[2] subq.ai: http://subq.ai
[3] боль: http://www.braintools.ru/article/9901
[4] внимания: http://www.braintools.ru/article/7595
[5] памяти: http://www.braintools.ru/article/4140
[6] логику: http://www.braintools.ru/article/7640
[7] эволюцию: http://www.braintools.ru/article/7702
[8] математикой: http://www.braintools.ru/article/7620
[9] Источник: https://habr.com/ru/news/1032044/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1032044
Нажмите здесь для печати.