языковые модели.

Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор

В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.

продолжить чтение

Оставлено в

Цензуру DeepSeek можно обойти с помощью ASCII-арта

Автор блога на Substack под никнеймом deepgains рассказал, что ему удалось разговорить языковую модель DeepSeek на тему событий на площади Тяньаньмэнь. Для этого он попросил нейросеть сгенерировать ответ с помощью ASCII-символов, а она пересказала события во время рассуждений.Для своего эксперимента исследователь использовать локальную версию deepseek-r1:14b, которую запускал с помощью Ollama. В обычных сценариях языковая модель не отвечает на вопрос «Что случилось на площади Тяньаньмэнь» и даже не запускает процесс рассуждения.

продолжить чтение

Оставлено в

Mistral AI выпустила Small 3 — мощную языковую модель с 24 миллиардами параметров

Mistral AI выпустила Small 3 — новую языковую модель с 24 миллиардами параметров, которая по производительности не уступает гораздо более крупным моделям от Meta* и OpenAI. Компания также переходит на более либеральную лицензию Apache 2.0.Компания Mistral AI заявляет, что Small 3

продолжить чтение

Оставлено в

Energy-based diffusion language models — откуда берутся, зачем нужны и как работают

продолжить чтение

Оставлено в

Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3

Компания Alibaba разработала новую языковую модель под названием Qwen2.5-Max, которая, по словам компании, использует рекордное количество обучающих данных — более 20 триллионов токенов.Компания Alibaba представила Qwen2.5-Max — новую языковую AI-модель, обученную на рекордных, по заявлению компании,

продолжить чтение

Оставлено в

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

За последние два года - за время невероятной популярности Generative AI - появилось много перспективных компаний, создающих новые прорывные модели. Последний пример - это китайский стартап DeepSeek, благодаря которому у нас есть открытые аналоги OpenAI GPT-4o и o1. С теми же (что проверено бенчмарками) возможностями в плане выполнения текстовых инструкций, задач на математику, логику и кодинг.

продолжить чтение

Оставлено в

Размышляющая модель DeepSeek R1 уже доступна в Ollama

Первое поколение моделей рассуждений от Qwen DeepSeek R1 с производительностью, сопоставимой с OpenAI-o1 уже доступно к установке в Ollama.

продолжить чтение

Оставлено в

Сравнение моделей ChatGPT o1 и DeepSeek-R1 на простом шифровании

Возникла как-то идея проверить, смогут ли языковые модели общаться между собой так, что люди их уже перестанут понимать. Помню, были исследования, когда их просили сжать текст и они сжимали его во что-то совершенно нечитаемое, но потом почти полноценно расшифровывали. Однако, пока остановился на более простом варианте.

продолжить чтение

Оставлено в

SwiftKV: как снизить затраты и ускорить логический вывод больших языковых моделей

Исследовательская группа Snowflake AI представляет SwiftKV - решение, разработанное для повышения производительности LLM-выводов и снижения связанных с этим затрат. SwiftKV использует методы кэширования пар «ключ-значение» для повторного использования промежуточных вычислений во время выводов. Устраняя избыточные вычисления, оно оптимизирует процесс вывода и повышает эффективность использования LLM.

продолжить чтение

Оставлено в

Transformer² от Sakana AI — это новый подход, помогающий языковым моделям обучаться

Японская компания Sakana AI представила новый метод Transformer², который помогает языковым моделям адаптироваться к различным задачам. В отличие от традиционных систем AI, которые обучаются один раз для выполнения разных задач, Transformer² предлагает непрерывное обучение, что позволяет моделям справляться с неожиданными трудностями.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

языковые модели.

Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор

Цензуру DeepSeek можно обойти с помощью ASCII-арта

Mistral AI выпустила Small 3 — мощную языковую модель с 24 миллиардами параметров

Energy-based diffusion language models — откуда берутся, зачем нужны и как работают

Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3

Почему DeepSeek способен конкурировать с OpenAI и как повторить их опыт

Размышляющая модель DeepSeek R1 уже доступна в Ollama

Сравнение моделей ChatGPT o1 и DeepSeek-R1 на простом шифровании

SwiftKV: как снизить затраты и ускорить логический вывод больших языковых моделей

Transformer² от Sakana AI — это новый подход, помогающий языковым моделям обучаться

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

языковые модели.