huggingface.

GigaAM-v3: открытая SOTA-модель распознавания речи на русском

В прошлой статье мы рассказывали о GigaAM — семействе открытых акустических моделей для русского языка и их дообученных вариантах под распознавание речи и эмоций. Сейчас мы представляем GigaAM-v3 — новую версию модели, которая ещё сильнее поднимает планку качества open source-моделей распознавания речи (Automatic Speech Recognition, ASR) на русском языке.В этом посте расскажем:что такое HuBERT-CTC и почему он даёт прирост качества минимум 10 % даже по сравнению с распространёнными в индустрии методами предобучения;

продолжить чтение

«Господин Говорунъ: как я обучил маленькую модель разговаривать на дореформенном русском»

Немного контекстаПоследние месяцы мы в команде развиваем проект Manuscript OCR - открытую библиотеку, которая учит нейросети читать рукописные документы XIX века. Это сложный материал: дореформенная орфография, нестабильный почерк, архивные артефакты.Кому интересны технические детали - отдельная статья про Manuscript OCR уже есть на Хабре.Работая над этим проектом, я всё больше погружался в дореформенный язык: тестировал модели, прогонял страницы, сравнивал орфографические варианты. И в какой-то момент возник вполне естественный вопрос:

продолжить чтение

Краткий обзор 10 локальных UI для LLM

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):Open WebUILM StudioMsty StudioLibrechat

продолжить чтение

Tencent представила открытую ИИ-модель для генерации трёхмерных видео по картинке

Китайская компания Tencent презентовала открытую модель искусственного интеллекта HunyuanWorld-Voyager, способную генерировать видеоряд с эффектом трёхмерного пространства на основе одного изображения.

продолжить чтение

Gemini наступает на пятки ChatGPT: свежий топ AI-сервисов от Andreessen Horowitz

Не так давно венчурный фонд Andreessen Horowitz опубликовал пятое издание рейтинга Top 100 AI Apps. Главный вывод аналитиков — рынок генеративных приложений постепенно выходит на стадию равновесия. Новых имён в списке становится меньше: в веб-сегменте добавилось лишь 11 проектов, что заметно ниже мартовских показателей, тогда как в мобильном сегменте — 14. Эксперты связывают это с тем, что App Store активно очищает площадку от многочисленных клонов ChatGPT, освобождая место для оригинальных решений.

продолжить чтение

Как OpenAI передаёт ИИ «голос общества»: итоги коллективного эксперимента

продолжить чтение

LFM2-VL: компактный ИИ от Liquid AI, который помещается в смартфон

Компания Liquid AI представила LFM2-VL

продолжить чтение

Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией

продолжить чтение

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем?У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.Где?

продолжить чтение

Накорми языковую модель документами

Задача поиска ответов по внутренней документации

продолжить чтение

123
Rambler's Top100