СontentCapture+LLM: как мы ускорили работу с неструктурированными документами
В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе. В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture
Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели
Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей.
Эмбеддинг с навесом: перегрузка лексических парсеров вложением неявных ссылок
В этой статье парсер читает или слушает текст на естественном языке, причём таким парсером может выступать базовый элемент сознания человека. В качестве целевого языка используется английский, потому что он не только хорошо подходит для данной задачи, но и, скорее всего, в той или иной мере знаком большему количеству читателей. Для понимания основных идей достаточно базового уровня владения английским, так как метаязыком здесь выступает русский и все сложности объяснены.Итак, представьте, что лексический парсер, обрабатывающий предложения, столкнулся со следующей конструкцией на английском языке:
Google позволит покупателям генерировать одежду по описанию и искать похожую в интернет-магазинах
Google представила
15 примеров применения Natural Language Processing
Машинное обучение — это технология искусственного интеллекта, используемая для распознавания закономерностей, обучения на основе данных и принятия решений автоматически — без вмешательства человека. С другой стороны, обработка естественного языка (Natural Language Processing, NLP) — это форма ИИ, позволяющая машинам интерпретировать и понимать человеческий язык.
DRAGON: динамический бенчмарк для оценки RAG-систем на русском языке
С появлением больших языковых моделей (LLM) стало казаться, что они умеют всё: от генерации кода до написания статей в научные журналы. Но, как только дело доходит до фактов, особенно актуальных и узкоспециализированных, начинаются проблемы. LLM — это не поисковики и не базы данных, знания у них статичны: что было в обучающей выборке, то модель и «знает» (да и то не всегда твёрдо). Постоянно дообучать её на актуальных данных — уже вызов. Тут на сцену выходят RAG-системы (Retrieval-Augmented Generation).
Как научить нейросеть работать руками: создание полноценного ИИ-агента с MCP и LangGraph за час
Друзья, приветствую! Надеюсь, успели соскучиться.Последние пару месяцев я с головой ушёл в исследование интеграции ИИ-агентов в собственные Python-проекты. В процессе накопилось немало практических знаний и наблюдений, которыми просто грех не поделиться. Поэтому сегодня я возвращаюсь на Хабр — с новой темой, свежим взглядом и с намерением писать чаще.На повестке дня — LangGraph и MCP: инструменты, с помощью которых можно создавать действительно полезных ИИ-агентов.
The future of AI: formal grammars
Human language is a mechanism that narrows the infinite variability of possible sounds and their combinations into a strict communication system.Phonemes limit the combinations of sounds. In Russian, for example, there are only 42 of them.Words constrain combinations of phonemes and map our world into a discrete set of concepts — this gives rise to semantics.Sentences, in turn, constrain combinations of words, forming structures for describing phenomena in the world we perceive.

