nlp. - страница 5

nlp.

LoRA не помогла: как мы дообучали Mistral 7B на русском и что в итоге сработало

Каждый раз после созвона происходит одно и то же самое: кто-то открывает чат и пишет «итак, что мы решили?». Дальше — пятнадцать минут на то, чтобы восстановить то, что только что обсуждали час.Я ML-инженер, и эта боль мне была знакома лично. Когда появилась идея автоматизировать протоколирование встреч, казалось, что задача решаемая: берешь Whisper для распознавания речи, хорошую LLM для суммаризации — и готово.

продолжить чтение

Хотел перестать копировать из Wordstat. Получилась мультиагентная система с Ensemble Voting

Ни одного из этих слов в моих планах не было. Я просто задолбался вручную таскать ключи из Wordstat в Excel.Версия 1: лишь бы не копировать рукамиЗнакомая ситуация: открываешь Wordstat, вводишь маску, ждёшь, копируешь, вставляешь в Excel. Следующая маска. И так по кругу. Каждый раз одно и то же.Написал скрипт. Никакой архитектуры просто цикл, запросы к Bukvarix (у них есть бесплатный API), файл на выходе. Работало. На этом стоило остановиться.Не остановился.

продолжить чтение

Линтер для теологии, или Как ансамбль LLM провел статический анализ библейского текста (кейс 1 Тим. 2:15)

Дисклеймер. Эта статья не о религии. Речь пойдет о методе. Сложный богословский текст здесь выступает полигоном для проверки гипотезы: может ли ансамбль языковых моделей найти скрытые логические противоречия в человеческих интерпретациях?ВведениеПочему ИИ, а не очередной комментарий?Мой опыт предыдущих публикаций показал, что даже технически подготовленная аудитория часто воспринимает групповую оценку нейросетей с недоверием.

продолжить чтение

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram-бота, который: Слушает голосовые сообщения и распознает речь без дорогих облачных API.Оценивает точность произношения в процентах, сравнивая с эталоном.

продолжить чтение

От 0.034 до 0.791 и обратно: Legal RAG, 17 итераций и стена масштабирования

От 0.034 до 0.791 и обратно: соревнование по Legal RAG, 17 итераций и стена масштабированияМне давно хотелось погрузиться в RAG, но повода не было. Я решил поучаствовать в ARLC 2026 — юридическом AI-челлендже, где нужно строить RAG-пайплайн поверх корпуса судебных решений и законов DIFC – находить нужные страницы в нужных документах, извлекать ответы и давать точные ссылки на источники. Соло, с Claude Code в качестве напарника.

продолжить чтение

От слов к числам: как компьютер узнаёт, о чём текст

Всем, привет! Меня зовут Даня, я учусь в Центральном Университете. Сегодня я хочу рассказать, как компьютер понимает о чем говорится в тексте.Ты открываешь новостную ленту, там множество категорий: спорт, политика, развлечения - всё перемешано. Представь, что нужно разложить тысячи статей по категориям без единого человека.Звучит как магия? На самом деле - математика. Сегодня расскажу, как это работает.Часть 1: Как превратить слова в числаКомпьютеры не понимают слов, они работают с числами. Как перевести статью в язык машин?

продолжить чтение

Data, ML, CV и NLP: как освоить актуальные для рынка специальности вместе с фундаментальной базой

Привет, это команда Яндекс Практикума. Сегодня поговорим про то, как погружаться в профессии DE, ML, CV, NLP так, чтобы с одной стороны, получить основательный теоретический фундамент, а с другой — освоить навыки, которых ждут работодатели. Очевидный спойлер: нужно прокачивать теоретическую базу и параллельно много практиковаться — про практику отдельно расскажем на примере учебного проекта в онлайн-магистратуре НИЯУ МИФИ в партнёрстве с Яндекс Практикумом

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат

В первой части мы сделали самый важный стартовый шаг: подняли локальную модель через Ollama, подключили её к Python через LiteLLM и получили первый осмысленный ответ из кода.Но пока это ещё не чат. Наш main.py умел только одно: отправить один заранее заданный вопрос, вывести ответ и завершиться.Для учебного эксперимента этого достаточно. Для приложения — уже нет.Во второй части превратим этот одноразовый скрипт в маленький консольный чат

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос

Во многих туториалах по LLM всё начинается с API-ключей, платных токенов и облачных сервисов. Это рабочий путь, но для первого знакомства он не самый удобный: нужно регистрироваться, разбираться с биллингом и постоянно помнить, что каждый эксперимент что-то стоит.Здесь пойдём проще. В этой серии мы соберём маленький LLM-чат на Python, который сначала будет работать локально: модель запускается через Ollama, а Python-код общается с ней через LiteLLM.Это хороший стартовый маршрут по трём причинам:не нужны API-ключи;не нужен интернет для каждого запроса;

продолжить чтение

Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER

Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.

продолжить чтение

1...345678...20...20