GigaAM-v3: открытая SOTA-модель распознавания речи на русском
В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;
«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»
Немного контекстаПоследние месяцы мы в команде развиваем проект Manuscript OCR - открытую библиотеку, которая учит нейросети читать рукописные документы XIX века. Это сложный материал: дореформенная орфография, нестабильный почерк, архивные артефакты.Кому интересны технические детали - отдельная статья про Manuscript OCR уже есть на Хабре.Работая над этим проектом, я всё больше погружался в дореформенный язык: тестировал модели, прогонял страницы, сравнивал орфографические варианты. И в какой-то момент возник вполне естественный вопрос:
Краткий обзор 10 локальных UI для LLM
Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):Open WebUILM StudioMsty StudioLibrechat
Tencent представила открытую ИИ-модель для генерации трёхмерных видео по картинке
Китайская компания Tencent презентовала открытую модель искусственного интеллекта HunyuanWorld-Voyager, способную генерировать видеоряд с эффектом трёхмерного пространства на основе одного изображения.
Gemini наступает на пятки ChatGPT: свежий топ AI-сервисов от Andreessen Horowitz
Не так давно венчурный фонд Andreessen Horowitz опубликовал пятое издание рейтинга Top 100 AI Apps. Главный вывод аналитиков — рынок генеративных приложений постепенно выходит на стадию равновесия. Новых имён в списке становится меньше: в веб-сегменте добавилось лишь 11 проектов, что заметно ниже мартовских показателей, тогда как в мобильном сегменте — 14. Эксперты связывают это с тем, что App Store активно очищает площадку от многочисленных клонов ChatGPT, освобождая место для оригинальных решений.
LFM2-VL: компактный ИИ от Liquid AI, который помещается в смартфон
Компания Liquid AI представила LFM2-VL
Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач
Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией
Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта
Зачем?У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.Где?
Накорми языковую модель документами
Задача поиска ответов по внутренней документации

