Natural Language Processing. - страница 4

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 3: добавляем историю сообщений и контекст

Во второй части у нас получился уже не одноразовый скрипт, а маленький консольный чат: программа принимает вопрос, отправляет его модели, печатает ответ и ждёт следующего ввода.Но пока у этого чата есть важное ограничение: каждый новый запрос для модели почти независим.Если сначала спросить:Составь простой план изучения Python на 2 недели.а потом написать:Сделай его короче и оставь только самое важное.модель может ответить нормально. А может и не понять, к чему относится слово «его». Потому что для неё второй запрос — это просто новый отдельный вызов.

продолжить чтение

Alibaba выкатили Qwen3.6-Plus — новый флагман серии Qwen

Модель появилась на OpenRouter в ночь с 30 на 31 марта как бесплатный превью без анонса и пресс-релиза: один твит от исследователя Qwen с таблицей бенчмарков — и всё. За первые два дня через неё прошло 400 млн completion-токенов в ~400 тыс. запросах.Контекстное окно по умолчанию — 1 млн токенов. На Terminal-Bench 2.0 модель набрала 61.6 против 59.3 у Claude 4.5 Opus, на OmniDocBench v1.5 — 91.2 против 87.7. На SWE-bench Verified пока отстаёт: 78.8 против 80.9 у Claude. 

продолжить чтение

Это вам не шутки: как я пыталась отучить LLM петросянить

продолжить чтение

Долой иерархию и роли: о том, как LLM-агенты самоорганизуются лучше, чем мы их проектируем (только на сильных моделях)

Хабр, привет! Меня зовут Вика Дочкина, я работаю в Сбере и пишу диссертацию на тему автономных AI-систем.Роли, отделы, департаменты, иерархии, должностные инструкции, процессы — всё это придумано для людей. Для нас: с одной специализацией (реже - несколькими), 8 часами продуктивности в день, невозможностью удержать в голове контекст всей организации и месяцами на смену профессии.У LLM-агента ни одного из этих ограничений нет. Он мгновенно меняет специализацию. Он видит полный контекст. Он не потребляет ресурсы, когда не работает. Зачем тогда переносить на него человеческую оргструктуру?

продолжить чтение

Разработчики Bluesky представили приложение Attie с ИИ для персонализации ленты новостей

Команда Bluesky представила

продолжить чтение

Способы автоматизации ответов на часто задаваемые вопросы (FAQ)

Автоматизация ответов на часто задаваемые вопросы (FAQ) - актуальная задача в процессах, где важно быстро и качественно взаимодействовать с клиентами и с аудиторией.Если клиент долго не может найти информацию, долго не получает ответа в чате, то он уходит к другому продавцу. В итоге и продажа теряется, и клиент теряется. Особенно это критично во время проведения активной рекламной кампании, когда количество обращений резко возрастает и очень большая часть не успевает обрабатываться.Что можно сделать, чтобы не терять обращения, продажи и клиентов?

продолжить чтение

Юридическое поле экспериментов для RAG

Agentic RAG Legal Challenge, март 2026@ivankomarov, @set610MORAG: github.com/catonmoon/morag · Eval: manzherok.ru/evalМожно ли делать RAG на MacStudio M3 Ultra? CAG - убийца RAG? Самый лучший RAG от OpenAI и Grok?Ответы на эти вопросы мы узнали во время участия в соревновании Agentic RAG Legal Challenge. Стоит отметить хорошую организацию соревнования и продуманные метрики. Более 300 команд со всего мира.А ответы на вопросы - под катомWe love RAG!

продолжить чтение

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.Что внутри

продолжить чтение

Мультиагентность в OpenClaw: отдельные агенты, субагенты и ACP (вайбкодим через тг)

продолжить чтение

MiniMax M2.7 — самоэволюционирующая модель с упором на coding, Office-задачи и агентные сценарии

Китайская компания MiniMax 18 марта выпустила модель M2.7, которая участвовала в собственном обучении. Это не просто очередная LLM, а система, которая может автономно улучшать себя и свои процессы.Сразу на ваш суд промо-ролики:Отладка проблемы на уже работающем сервисе:M2.7 сгенерировала демо-страницу:

продолжить чтение

1...234567...2030...34