Как я создал альтернативу трансформерам
В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения. Для начала приведу все необходимые ссылки.Само исследование: https://arxiv.org/abs/2604.18580Код:
DeepSeek в 10 раз снизила цену на кэш
DeepSeek резко удешевила один из самых чувствительных элементов API - кэш. Теперь повторные запросы (cache hits) стоят всего 10% от прежней цены по всей линейке моделей. Что это значит на практике?Любой повторно используемый контекст: 1) Системные промпты 2) Инструкции агентов
Anthropic проверил, как AI-агенты торгуются между собой
Компания Anthropic провела необычный эксперимент Project Deal, чтобы проверить, как ИИ-агенты ведут реальные переговоры друг с другом.
Топ-5 нейросетей для изображений: сравнили результаты
Берём одно изображение — девушка в синем металлик-костюме с серебряными вставками, ботфортами и визором — и прогоняем через пять разных нейросетей. Промпт один и тот же, результаты разные. Смотрим, где что работает.
Yandex Research и НИУ ВШЭ разработали метод ускорения генерации изображений в нейросетях до 0,3 секунды
Команда учёных из Yandex Research и НИУ ВШЭ предложила метод, снижающий вычислительные затраты и ускоряющий генерацию изображений в диффузионных моделях без потери качества. Статья с описанием разработки была принята на конференцию в области искусственного интеллекта ICLR 2026.
Эволюция мышления ИИ: от Берлиоза к Воланду и Достоевскому
В настоящее время нейросети в целом ряде областей гуманитарного знания обладают обширным интеллектом, хотя и на уровне персонажа романа «Мастер и Маргарита» Берлиоза. Но буквально через несколько лет способности ИИ могут приблизиться к способу мышления, продемонстрированного другим персонажем романа – Воландом, а затем и реального писателя – Федора Михайловича Достоевского.
Слишком опасен, чтобы показать? Что скрывается за запуском Claude Mythos
Опасный ИИ? Маркетинговый трюк? Или своеобразная «крыша»?Чуть больше недели назад Anthropic представила миру свою модель Claude Mythos

