nlp.
Все еще борешься с галлюцинациями? Ты просто не умеешь их использовать
Привет, Хабр! Меня зовут Василий Коновалов, я работаю в команде «Вычислительная семантика» в AIRI. Наша команда сфокусирована на исследовании галлюцинаций и на решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Но, возможно, мы не всегда должны делать это. Тем более, что научные работы показывают, что галлюцинации неизбежны . Вместо этого мы извлекли из них пользу: мы применили галлюцинации больших мультимодальных моделей для детекции странных картинок — то есть картинок, противоречащих здравому смыслу.
Как я сделал LLM-сервис, который понимает буровые сводки
Привет! Меня зовут Стас, я занимаюсь R&D в компании ROGII.Я пришёл в ROGII после нескольких лет работы «в поле» — от тундры Уренгойских месторождений до Сахалина. Там я понял, что буровые данные живут в хаосе: у каждого вендора — свой формат, у каждой скважины — свой стиль отчёта.Когда я оказался в компании, которая консолидирует буровые данные в облаке, задача встала ребром: нужно научить машину понимать суточные рапорты так же, как это делает инженер.Мы собрали 507 PDF‑файлов (всего 14 678 страниц) и выделили 23 типа отчётов по признаку компании и структуры.
Как должен выглядеть машинный перевод в 2025 г
Давайте признаемся, что мы уже устали от рассказов про то, что вышел новый движок, который делает машинные переводы «almost human-like» или «вообще не требует человеческого ревью». При этом движки действительно становятся все качественнее: дуумвират Google-Deepl разрушен, а новые языковые модели показывают немыслимые результаты на бенчмарках. Но почему мы все еще уверены, что хорошие бенчмарки нам не помогут? Как встроить движок МТ в процесс перевода так, чтобы он действительно помогал, а не мешал?
Почему обычный RAG ломается на русском
RAG (Retrieval-Augmented Generation) — это не одна технология, а архитектурный приём: мы соединяем поиск по базе знаний (retrieval) с генерацией текста (generation). На английском всё работает прилично, а вот на русском начинаются приключения.Причины банальны:Морфология.
«Нет, я не Байрон, я модель». Превращаем прозу в поэзию с нейросетью — мой кейс
Привет всем! Меня зовут Марина, я учусь на втором курсе магистратуры ВШЭ и МТС «
Собираем систему мониторинга ответов LLM на коленке
Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной. Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать.
SteosMorphy: опенсорс замена давно умершему PyMorphy2
ВведениеНа данный момент PyMorphy2 - самая популярная библиотека для обработки слов в русском языке. Благодаря ей (как раньше, так и сейчас) строились и продолжают строиться различные NLP решения. Однако последний коммит в репозиторий этой библиотеки был сделан более 5 лет назад, а установка этой библиотеки на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным.Мы в Mind Simulation решили начать свой путь в Open Source, и решили начать его именно с того, чтобы представить миру разработчиков NLP свой аналог PyMorphy под названием SteosMorphy.
Text2SQL в аналитике: как мы научили ИИ понимать бизнес-запросы без посредников
Привет! Меня зовут Михаил Куляскин, я инженер по машинному обучению в команде продуктивизации ИИ в X5 Tech. Недавно я выступал с докладом на крупной конференции CodeFest
Трансформация рабочих процессов с помощью нейросетей
Привет, Хабр!Ранее в блоге компании АСКОН я уже делился подборкой инструментов, которые использую в своей повседневной работе. Сегодня хочу продолжить эту тему и рассказать, как нейросети поменяли мой рабочий процесс, какие задачи они помогают решать, и почему вам не обязательно быть ML-инженером, чтобы эффективно использовать ИИ на практике. А кроме того расскажу, как с помощью нейросетей добавляют полезный функционал в инженерное программное обеспечение.

