языковые модели. - страница 9

Часть 2. Обзор технологий RAG для LLM: поиск и извлечение информации

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (первую часть см. здесь) Во второй части авторы разбирают технологии оптимизации поиска и извлечения данных. Поскольку материал я готовил в первую очередь для начинающих ИТ-переводчиков, сложные и специальные термины я сопровождал английским переводом и краткими пояснениями в инфобоксах (появляются по наведению курсора). Картинок не было, не обессудьте.

продолжить чтение

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован на GitHub.

продолжить чтение

Оценка развития человечества на 1000 лет по версии DeepSeek и рефлексия

Я знаю сейчас очень популярно хейтить статьи сгенерированные LLM. Но как по мне это огромное поле для исследований. Ведь с точки зрения технологий это фактически новый вид баз данных, которые определенным образом обобщают тот опыт который в них закладывается разработчиками. И так меньше флуда больше пользы...Задал я тут вопрос Дипсику.Как ты оцениваешь динамику популяции человечества в следующие 1000 лет. разбери этот вопрос по вехам, каждая по 250 лет. Ответ:

продолжить чтение

Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)

Meta представила новое поколение открытых моделей искусственного интеллекта — семейство Llama 4. Это первые нативно мультимодальные модели с открытыми весами, которые объединяют понимание изображений, видео и текста в единой архитектуре.P.S кратко написал об этом в Телеграм канале, ссылка на постКлючевые особенности новых моделей1. Llama 4 Scout

продолжить чтение

Как запустить языковую модель без цензуры, не имея видеокарты и мощного компьютера

Думаю, все сталкивались с тем, что языковая модель отказывается отвечать на какие-то вопросы. К счастью, в интернете есть опубликованные так называемые abliterated модели, которые не имеют цензуры и отвечают на любые

продолжить чтение

Как мы учим LLM оценивать друг друга и как это помогло нам улучшить Cotype

Всем привет! Сегодня мы выпустили

продолжить чтение

Реализация AI агента на базе LLM с нуля – что включает цикл разработки

Разработка AI агента, использующего большие языковые модели (LLM) – это малоизвестный пока еще и потому интересный инженерный процесс, охватывающий весь цикл создания от идеи до финального развертывания. Технические стандарты разработки агентских систем пока еще формируются.  В данной статье я поделюсь своим опытом и рассмотрю ключевые этапы, технологии и практические нюансы, которые встречаются при разработке такой системы с нуля.

продолжить чтение

Как дистилляция меняет индустрию искусственного интеллекта

Всем привет! Меня зовут Миша, я руковожу центром R&D Big Data в МТС Диджитал. В прошлый раз делился с вами подборкой книг по базам данных. Сегодня хочу обсудить, как дистилляция влияет на индустрию ИИ.

продолжить чтение

Часть 1. Обзор подходов RAG

Предисловие от переводчикаСпециалисты по RAG и LLM вряд ли найдут что-то новое в этой статье — она больше предназначена для моих коллег, ИТ-переводчиков, которые только погружаются в терминологию языковых моделей. Само содержание статьи (точнее цикла статей) — адаптированный перевод с arxiv.org статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey

продолжить чтение

Reasoning-LLM: архитектура и обзор передовых моделей

Reasoning-LLM — это большие языковые модели, нацеленные на логическое рассуждение при решении сложных задач. В отличие от обычных LLM, которые часто выдавали ответы сразу, такие модели способны «думать» пошагово — как человек, анализируя задачу и выстраивая цепочку вывода. Появление reasoning-LLM связано с тем, что традиционные LLM (например, GPT-4 или Llama 3.1) хотя и хорошо справляются с языковыми и энциклопедическими запросами, нередко ошибались в задачах, требующих сложных вычислений, планирования или логического вывода. В этой статье мы подробно разберем, как работают reasoning-LLM, их внутреннее устройство (Transformer, self-attention, механизмы «мышления»). А еще — рассмотрим передовые модели (OpenAI o1, DeepSeek R1 и Claude 3.7 Sonnet), факторы, влияющие на их точность, и дадим практические рекомендации по применению.

продолжить чтение

Rambler's Top100