nlp. - страница 2

nlp.

«Я всё сломал за выходные»: как мы учим LLM писать в стиле конкретного СМИ

Привет, я Лена, это мой первый пост здесь, и он про техническую задачу, с которой мы столкнулись: как заставить LLM писать текст так, чтобы его нельзя было отличить от написанного конкретной редакцией. Не «хороший текст», не «грамотный текст», а такой, который звучит как этот конкретный городской портал или этот Telegram-канал.

продолжить чтение

Метрики для задач NLP. Часть 2. Генерация текста: BLEU, ROUGE, METEOR, BERTScore

Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Это вторая часть серии статей про метрики задач NLP, в которой я затрону тему оценки качества в задачах генерации текста. Мы рассмотрим следующие метрики: BLEUROUGEMETEORBERTScoreНачнем!Генерация текста

продолжить чтение

Wikontic: строим графы из текстов, используя онтологию и LLM

Привет, Хабр! Это Алла, я работаю исследователем в команде «Модели с памятью» Лаборатории когнитивных систем искусственного интеллекта Института AIRI и занимаюсь исследованиями на стыке графов знаний и языковых моделей. Ранее я уже писала на Хабре статью про построение графов знаний из текстов по мотивам одной из наших публикаций.Мы активно продолжаем работать дальше и создали Wikontic

продолжить чтение

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

ВведениеДобрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг. В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.Вся система делалась мной самостоятельно без использования LangChain

продолжить чтение

Юрист нашёл в договоре 32 проблемы, AI — 41. Разбираю, кто что пропустил

Как детекторы на основе судебной практики довели AI-анализатор до 41 находки при 0 ложных срабатываний. Как анализ работы юриста превратился в 23 новых проверки. И почему юрист до сих пор незаменим — но уже в другом.КонтекстЭто третья статья про Legal Parser — AI-анализатор договоров для российского рынка.В первой я рассказывал, как построил модульную систему из 32 тематических промптов для YandexGPT. Во второй — как добавил Claude и получил в 2.5 раза больше находок на том же договоре.С тех пор произошло два существенных изменения:

продолжить чтение

Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей

Откройте любой BPE-токенизатор и введите слово "paratrooper". Вот что вернёт GPT-5.x (токенизатор o200k_base): . Три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель) — а токенизатор видит статистический шум.Это не баг, а особенность работы Byte Pair Encoding — алгоритма, который разрезает текст по частоте встречаемости пар символов, полностью игнорируя лингвистическую структуру слов. GPT-5.x, Claude, Gemini, LLaMA — все используют варианты BPE.

продолжить чтение

От «яблока» до «королевы»: как нейросети учатся понимать смысл слов через эмбеддинги

продолжить чтение

Генерируем SQL–запросы на локальных моделях

Привет, Хабр! На связи Фёдор Пахуров и Настя Изюмова. Мы команда внутренних инициативных сервисов ecom.tech. Занимаемся разработкой продуктов для внутренних нужд компании, экспериментируем с внутренними AI-продуктами для сотрудников: от забавных и полезных ботов до автоматизации повседневных задач. Сегодня мы расскажем, как помогли разгрузить аналитиков от их типовых задач с помощью искусственного интеллекта – внутри реальные кейсы, гайды и пошаговые инструкции на примере ecom.tech. Поехали!

продолжить чтение

Добавил Claude к YandexGPT в анализатор договоров — нашёл в 2.5 раза больше рисков

Почему одной LLM недостаточно, как двухслойная валидация ловит ошибки модели, и сколько бизнес экономит на проверке договоров.Что было в первой версииПару недель назад я рассказывал, как построил модульную систему промптов для YandexGPT. 32 тематических промпта, детекторы паттернов, калибровка по рынку. Система работала, находила риски, но вылезли проблемы:Ложные срабатывания — LLM иногда «видела» асимметрию там, где её не былоПропуски — некоторые паттерны (типа «1% в день за невывоз») проскакивали мимоНет второго мнения

продолжить чтение

Машинное обучение для работы с текстами: подборка бесплатных курсов и материалов

Привет! Это Данила Ляпин, наставник курса «Специалист по Data Science». Собрал подборку материалов по обработке естественного языка — она охватывает путь от базовых концепций NLP до трансформеров и BERT. Все материалы бесплатны и проверены на практике. Главное — двигаться последовательно, не пропускать основы и обязательно практиковаться на реальных задачах.Сourse in Natural Language Processing, YSDA

продолжить чтение

123456...10...16
Rambler's Top100