neural networks.

Чистим аудиокниги от шума нейросетями

TL;DR: Классические фильтры (FFmpeg, Audacity) плохо справляются со сложным шумом в аудиокнигах. Нейросети для source separation работают в разы лучше. Написал обертку над audio-separator, которая умеет обрабатывать многочасовые файлы без вылетов по памяти.В прошлой статье я рассказывал про go-audio-converter — конвертер аудио на чистом Go без FFmpeg. Сегодня — про следующий инструмент в моей аудио-экосистеме: очистку аудиокниг от шума с помощью нейросетей.Проблема

продолжить чтение

Оставлено в

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

продолжить чтение

Оставлено в

ESP32 + LD2410: Архитектуры нейронных сетей для классификации движений

Схема подключения.

продолжить чтение

Оставлено в

Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами

ВведениеПрошлым летом в свет вышла новая архитектура нейронных сетей под названием Kolmogorov-Arnold Networks (KAN). Основная статья есть в открытом доступе на архиве по следующей ссылке. На момент выхода статьи эта новость произвела фурор в мире машинного обучение, так как KAN показывали существенный прирост в качестве аппроксимации различных сложных функций. На фото ниже видно, что ошибка новых сетей падает значительно быстрее при увеличении числа параметров.

продолжить чтение

Оставлено в

LIME for ECG Time Series Dataset Example

LIME (Local Interpretable Model-Agnostic Explanations) — популярный модет в решении задачи интерпретации. Он основан на простой идее — приблизить прогнозы сложного оценщика (например, нейронной сети) простым — обычно линейной/логистической регрессией.Применить LIME можно из коробки при помощи одноименной библиотеки (https://github.com/marcotcr/lime). Однако, при применении LIME к, в частности, к временным рядам возникают особенности:При интерпретации нужно учесть, что временные ряды — это структурированные последовательности.

продолжить чтение

Оставлено в

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр!Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.

продолжить чтение

Оставлено в

Мир будущего: управление устройствами с помощью жестов

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

продолжить чтение

Оставлено в

Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей

Сразу к карте? Если вы предпочитаете действовать, а не читать, вот ссылка на Mind Map . Она доступна для изучения прямо сейчас. А если хотите понять контекст и узнать больше о каждой модели — добро пожаловать под кат! Введение

продолжить чтение

Оставлено в

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Жесты, представленные в датасете HaGRIDv2-1M. Новые жесты, добавленные к жестам из HaGRID, выделены краснымВ этой статье мы представляем HaGRIDv2-1M — обновлённую и значительно расширенную версию HaGRID, самого полного

продолжить чтение

Оставлено в

Marigold-DC

MarigoldПривет! Сегодня я хочу рассказать про сеточку Marigold-DC решающую задачу Depth Completion. Пользуясь случаем, оставляю ссылку на свой канал: notmagicneuralnetworksЗадача Depth CompletionПостроение 3D мира стало необходимым с появлением автопилотов для построения карт и планирования маршрутов.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

neural networks.

Чистим аудиокниги от шума нейросетями

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

ESP32 + LD2410: Архитектуры нейронных сетей для классификации движений

Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами

LIME for ECG Time Series Dataset Example

Вычисление функции потерь и градиентов в AI переводчике

Мир будущего: управление устройствами с помощью жестов

Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Marigold-DC

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

neural networks.