nlp. - страница 9

nlp.

Что такое NER, зачем он нужен и когда не поможет

Про NER написано немало, но этот материал носит прикладной характер. Статья будет полезна тем, кто интересуется NLP и ищет разные подходы для решения узкопрофильных задач, требующих извлечения сущностей из текста.Для джунов это возможность пройти весь путь — от разметки данных до обучения собственной кастомной NER-модели, попутно понять типичные сложности и ограничения.

продолжить чтение

Останется ли это правдой завтра? Как проверка устойчивости фактов помогает LLM стать честнее и умнее

Привет, Хабр! Мы в команде «Вычислительная семантика» в AIRI сфокусированы на исследовании галлюцинаций и решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Большие языковые модели (LLMs) вроде GPT-4 стали незаменимыми помощниками в повседневной жизни — от генерации текстов до поддержки в кодинге и ответов на вопросы. Однако у них есть ахиллесова пята: они часто галлюцинируют. В этом посте мы разберем нашу последнюю работу Will It Still Be True Tomorrow?, посвященную тому, как на надёжность моделей влияет феномен неизменного вопроса (evergreen question)

продолжить чтение

SLAVA — бенчмарк социально‑политического ландшафта и ценностного анализа

Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии. 

продолжить чтение

Создаем свой RAG: от загрузки данных до генерации ответов с LangGraph. Часть 2

Привет, Хабр!В этой статье я объясню, как работает технология RAG (Retrieval-Augmented Generation), и покажу её базовые реализации. Для примеров я буду использовать фреймворк LangGraph — его основы я разбирал в предыдущей статьеВ конце статьи вас ждет дополнительный пример, поэтому дочитывайте до конца. Как устроен RAGТехнология RAG состоит из двух ключевых компонентов:Индексация (Indexing)Загрузка данныхРазбиение на фрагменты Векторизация Хранение Поиск и генерация (Retrieval and Generation)

продолжить чтение

От хаоса к порядку: как ML помогает искать и защищать конфиденциальную информацию

продолжить чтение

Хорошая девушка LoRA! А чем же она хороша?

Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров»

продолжить чтение

Соединяем физику и лирику. Как я собрал рекомендательную систему для стихов с помощью Flask, sqlite-vec и Hugging Face

Люблю я кодить и стихи —Вот, в общем, все мои грехи...А. С. ПушкинПривет! Я Константин Хабазня, преподаватель программирования и математики, а также автор (что бы это ни значило).N-нное время назад увлёкся NLP (Natural Language Processing), что вполне логично для писателя, который кодит (или кодера, который пишет).Почитав интернет и пару вводных книжек, отправился учиться на ДПО в МФТИ. В качестве выпускного проекта придумал себе задачу — создать рекомендательную систему для стихов

продолжить чтение

Часть 2. Комплексное решение на практике: система «Джинн»

Комплексное решение на практике: система «Джинн»Данная работа подготовлена командой Infolabs

продолжить чтение

Часть 1. Цифровое взаимодействие: Социальные сети как инструмент связи между государством и гражданами

Взаимодействие с государственными органамиДанная работа подготовлена командой Infolabs

продолжить чтение

Языковые модели для бизнеса: сравниваем малые (SLM) и большие (LLM) модели

Большие языковые модели (LLM) звучат впечатляюще, но всегда ли нужно их использовать? Разберемся, в каких случаях стоит использовать LLM, а когда использование малых языковых моделей (SLM) окажется более разумным и экономичным решением без потери качества.В последние годы технологии искусственного интеллекта и обработки естественного языка (NLP) уверенно вошли в бизнес-практику. Их используют повсеместно — от анализа поведения клиентов до поддержки пользователей с помощью чат-ботов, автоматизированного маркетинга и многого другого.

продолжить чтение

Rambler's Top100