Natural Language Processing. - страница 5

Краткий обзор 10 локальных UI для LLM

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):Open WebUILM StudioMsty StudioLibrechat

продолжить чтение

BERT — это всего лишь одноэтапная диффузия текста

Некоторое время назад компания Google DeepMind представила Gemini Diffusion — экспериментальную языковую модель, генерирующую текст методом диффузии. В отличие от традиционных моделей, написанных в стиле GPT и генерирующих слово за словом,  Gemini создаёт текст целыми блоками, пошагово уточняя случайный шум.Я прочитал статью «Large Language Diffusion Models» — и с удивлением узнал, что дискретная диффузия языка представляет собой просто обобщение метода генерации пропущенного токена (MLM), практикуемого уже с 2018

продолжить чтение

Обзор проблем и решений в ризонинговых LLM. Часть 1

Как-то раз мы со студентами-переводчиками по ИТ задались вопросом: А реально ли LLM «думает»? Или она просто, подобно школьнику, подгоняет объяснения под ответ в конце учебника, не имея ни малейшего понятия, ни о том, правилен ли этот ответ или логичны ли ее рассуждения? Поиски ответов на этот вопрос привели нас к статье-исследованию "Empowering LLMs with Logical Reasoning: A Comprehensive Survey", адаптированный перевод которой мы и предоставляем вашему вниманию. Над переводом мы работали вместе с коллегой – Губановой Екатериной.

продолжить чтение

Как мы искали лучшие способы классификации

Всем привет!В предыдущих статьях мы уже рассказывали о том, какими метриками можно пользоваться для оценки ответов AI-продуктов.В большом количестве метрик для решения такой задачи предварительно надо оценить, к какой категории относится тот или иной ответ.В этой статье мы преследовали две цели:На примере показать, как применяются такие метрики и как с помощью них можно оценить качество работы модели.

продолжить чтение

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

продолжить чтение

Разработка MCP-сервера на примере CRUD операций

Model Context Protocol (MCP) — это открытый протокол, разработанный компанией Anthropic. Он призван унифицировать способ взаимодействия между LLM и сторонними сервисами, инструментами и источниками данных.До появления MCP каждому разработчику приходилось пилить свой велосипед для каждого сервиса. При этом один API требовал одного формата, другой — совершенно другого. А в случае изменений сервиса приходилось менять и клиентскую сторону. В общем проблем было много. MCP же оставил большинство этих проблем позади.В данной статье на примере простых CRUD-операций разберем, что такое MCP-сервер, как его создать и как подружить с LLM.

продолжить чтение

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя. Между сессиями теряются имя, контекст работы, желаемые ограничения и предпочтения, значительно влияющие на то, что и как стоит ответить пользователю. В итоге диалог каждый раз начинается «с нуля», а ответы звучат усреднённо. Это снижает эффективность и по доверие: когда ассистент не помнит важное о вас, он превращается в поисковик с красивыми фразами.Мы в команде RnD для B2C SberAI хотим это исправить. Представляем вашему вниманию задачу 

продолжить чтение

«Какой ещё “агентный ИИ”, если он одну инструкцию толком выполнить не может?»

На форуме Cursor развернулась жаркая дискуссия: пользователи массово жалуются, что «агентные» ИИ — это пока больше маркетинг, чем магия. Один из участников, устав править за GPT-5 и Gemini Pro, выдал крик души: Какой агент, если модель не может даже обновить одну Go-функцию без ошибок?!

продолжить чтение

Почему «больше токенов ≠ лучше» или Как научить LLM работать с длинным контекстом

Всем привет! Меня зовут Наталья Бруй, я промпт-инженер в MWS AI. Вместе с моей коллегой  Анастасией Тищенковой мы решили ответить на вопрос, который мучает нашего пиарщика

продолжить чтение

Симуляция делового совещания с GigaChat. Вся сила в промпте

Привет Хабр! Меня зовут Анатолий, я занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе.Поступил необычный запрос: нужен инструмент, который позволил бы отрабатывать навыки управления командой в условиях, максимально приближенных к реальности. Не абстрактные кейсы, не "ролевые игры" с заранее прописанными сценариями и постановкой, а живое взаимодействие - со всеми его конфликтами, эмоциями и неожиданными поворотами.

продолжить чтение

1...345678...20...23
Rambler's Top100