Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3
Компания Alibaba разработала новую языковую модель под названием Qwen2.5-Max, которая, по словам компании, использует рекордное количество обучающих данных — более 20 триллионов токенов.Компания Alibaba представила Qwen2.5-Max — новую языковую AI-модель, обученную на рекордных, по заявлению компании,
Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт
За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.
Размышляющая модель DeepSeek R1 уже доступна в Ollama
Первое поколение моделей рассуждений от Qwen DeepSeek R1 с производительностью, сопоставимой с OpenAI-o1 уже доступно к установке в Ollama.
Сравнение моделей ChatGPT o1 и DeepSeek-R1 на простом шифровании
Возникла как-то идея проверить, смогут ли языковые модели общаться между собой так, что люди их уже перестанут понимать. Помню, были исследования, когда их просили сжать текст и они сжимали его во что-то совершенно нечитаемое, но потом почти полноценно расшифровывали. Однако, пока остановился на более простом варианте.
SwiftKV: как снизить затраты и ускорить логический вывод больших языковых моделей
Исследовательская группа Snowflake AI представляет SwiftKV - решение, разработанное для повышения производительности LLM-выводов и снижения связанных с этим затрат. SwiftKV использует методы кэширования пар «ключ-значение» для повторного использования промежуточных вычислений во время выводов. Устраняя избыточные вычисления, оно оптимизирует процесс вывода и повышает эффективность использования LLM.
Transformer² от Sakana AI — это новый подход, помогающий языковым моделям обучаться
Японская компания Sakana AI представила новый метод Transformer², который помогает языковым моделям адаптироваться к различным задачам. В отличие от традиционных систем AI, которые обучаются один раз для выполнения разных задач, Transformer² предлагает непрерывное обучение, что позволяет моделям справляться с неожиданными трудностями.
Новая модель искусственного интеллекта «Тitans» от Google обеспечивает долговременную память языковых моделей
Исследователи Google разработали новый тип модели Transformer, которая дает языковым моделям нечто похожее на долговременную память. Система может обрабатывать гораздо более длинные последовательности информации, чем текущие модели, что приводит к лучшей производительности при выполнении различных задач.Новая архитектура «Titans» черпает вдохновение из того, как работает человеческая память. Объединяя искусственную краткосрочную и долгосрочную память через блоки внимания и MLP памяти, система может работать с длинными последовательностями информации.
Обзор уязвимостей для LLM. Часть 2. Защита
В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей.Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО и пишу про безопасность ИИ на собственном телеграм-канале.
RetroLLM: расширение возможностей больших языковых моделей для получения точных данных в процессе генерации
Исследователи разработали более оптимизированный подход, который помогает системам искусственного интеллекта обрабатывать информацию. Новая система под названием RetroLLM объединяет два ранее раздельных этапа — поиск информации и написание текста — в единый процесс.

