nlp обработка текста.

Обзор проблем и решений в ризонинговых LLM. Часть 3

В первой части мы рассмотрели ключевые проблемы логического рассуждения в LLM и показали, в чём именно модели ошибаются.Во второй части узнали, какие существуют методы решения LLM логических задач, а также посмотрели на их сильные и слабые стороны. В этой – мы обсудим, как модели иногда идут вразрез с собственной логикой и что эксперты предпринимают, чтобы это исправить.ЛОГИЧЕСКАЯ СОГЛАСОВАННОСТЬ

продолжить чтение

Обзор проблем и решений в ризонинговых LLM. Часть 2

В первой части мы рассмотрели ключевые проблемы логического рассуждения в LLM и показали, в чём именно модели ошибаются.В этой – мы обсудим методы, с помощью которых LLM решают логические задачи, включая внешние решатели, подсказки и обучение на логических примерах, а также их сильные и слабые стороны.Логическое решение вопросовДля проверки того, как LLM решают логические задачи, мы создали разные тестовые наборы

продолжить чтение

Как должен выглядеть машинный перевод в 2025 г

Давайте признаемся, что мы уже устали от рассказов про то, что вышел новый движок, который делает машинные переводы «almost human-like» или «вообще не требует человеческого ревью». При этом движки действительно становятся все качественнее: дуумвират Google-Deepl разрушен, а новые языковые модели показывают немыслимые результаты на бенчмарках. Но почему мы все еще уверены, что хорошие бенчмарки нам не помогут? Как встроить движок МТ в процесс перевода так, чтобы он действительно помогал, а не мешал?

продолжить чтение

SteosMorphy: опенсорс замена давно умершему PyMorphy2

ВведениеНа данный момент PyMorphy2 - самая популярная библиотека для обработки слов в русском языке. Благодаря ей (как раньше, так и сейчас) строились и продолжают строиться различные NLP решения. Однако последний коммит  в репозиторий этой библиотеки был сделан более 5 лет назад, а установка этой библиотеки на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным.Мы в Mind Simulation решили начать свой путь в Open Source, и решили начать его именно с того, чтобы представить миру разработчиков NLP свой аналог PyMorphy под названием SteosMorphy.

продолжить чтение

Часть 5. Обзор техник оценки качества систем RAG

Предисловие переводчикаПродолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь, третью часть — здесь, четвёртую часть — здесь). Перевод этой части мы выполняли в тандеме с коллегой — Мариной Хазиевой. К некоторым терминам, как и в прошлых частях, добавлены переводы и пояснения для удобства начинающих ИТ-переводчиков.

продолжить чтение

Как я пытался подружить PHP с NER — драма в 5 актах

Это статья — пример небольшого личного опыта, где я пытался решить одну чисто техническую задачу для одного из моих текущих проектов. Задача в конце‑концов была решена, насколько правильно — не знаю, но надеюсь многим будет интересен и полезен мой опыт. Итак, небольшая драма в 5 актах.Акт I. Экспозиция (жили-были)Итак, недавно в одном из проектов над которым я работаю и где ядро написано на PHP возникла одна тривиальная некая задача. Если не вдаваться в детали самого проекта (вам будет неинтересно), то суть её можно описать следующим: на вход подаётся текст, а на выход нужно выдать NER.

продолжить чтение

Обновленный курс Natural Language Processing

Сообщество Open Data Science и компания MWS AI в партнерстве с МФТИ и ИТМО вновь запускают бесплатный курс по обработке естественного языка. Стартуем 16 сентября –  подробности и регистрация. Всем привет! 16 сентября я в очередной раз

продолжить чтение

СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе. В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture

продолжить чтение

Как мы освободили операторов от классификации текстов диалогов на 1000+ классов

Всем привет! Меня зовут Наумов Герман, я работаю в Лаборатории машинного обучения Альфа-Банка, и я расскажу, как мы автоматизировали внутренние процессы, упростили работу операторов чата с физическими лицами. Задача не особо простая и тюнингом гиперпараметров как на Kaggle не решается. Но решается.

продолжить чтение

BioNNE-L — соревнование по нормализации биомедицинских именованных сущностей на русском и английском языках

Привет, Хабр!Я — Андрей Саховский, исследователь SberAI и аспирант Сколтеха. Занимаюсь биомедицинским NLP, интересуюсь графами знаний, задачами извлечения информации из текстов медицинской тематики, языковыми моделями в хемоинформатике. Если вам тоже интересны эти научные области, обратите внимание на соревнование BioNNE‑L, которое организует наша команда исследователей из AIRI, МГУ и SberAI и которому будет посвящён этот текст.

продолжить чтение

Rambler's Top100