neural networks.

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

продолжить чтение

ESP32 + LD2410: Архитектуры нейронных сетей для классификации движений

Схема подключения.

продолжить чтение

Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами

ВведениеПрошлым летом в свет вышла новая архитектура нейронных сетей под названием Kolmogorov-Arnold Networks (KAN). Основная статья есть в открытом доступе на архиве по следующей ссылке. На момент выхода статьи эта новость произвела фурор в мире машинного обучение, так как KAN показывали существенный прирост в качестве аппроксимации различных сложных функций. На фото ниже видно, что ошибка новых сетей падает значительно быстрее при увеличении числа параметров.

продолжить чтение

LIME for ECG Time Series Dataset Example

LIME (Local Interpretable Model-Agnostic Explanations) — популярный модет в решении задачи интерпретации. Он основан на простой идее — приблизить прогнозы сложного оценщика (например, нейронной сети) простым — обычно линейной/логистической регрессией.Применить LIME можно из коробки при помощи одноименной библиотеки (https://github.com/marcotcr/lime). Однако, при применении LIME к, в частности, к временным рядам возникают особенности:При интерпретации нужно учесть, что временные ряды — это структурированные последовательности.

продолжить чтение

Вычисление функции потерь и градиентов в AI переводчике

Привет, Хабр!Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.

продолжить чтение

Мир будущего: управление устройствами с помощью жестов

Видели в кино, как устройствами управляют с помощью жестов? Сделать такую систему очень просто, а ещё очень дорого. Но всё-таки есть способ сделать её достаточно лёгкой и простой — настолько, чтобы можно было интегрировать в любое устройство с любым процессором, потратив минимальное количество денег.

продолжить чтение

Исследуем эволюцию архитектур в Computer Vision: Mind Map всех ключевых моделей

Сразу к карте? Если вы предпочитаете действовать, а не читать, вот ссылка на Mind Map . Она доступна для изучения прямо сейчас. А если хотите понять контекст и узнать больше о каждой модели — добро пожаловать под кат! Введение

продолжить чтение

HaGRIDv2-1M: 1 миллион изображений для распознавания статичных и динамических жестов

Жесты, представленные в датасете HaGRIDv2-1M. Новые жесты, добавленные к жестам из HaGRID, выделены краснымВ этой статье мы представляем HaGRIDv2-1M — обновлённую и значительно расширенную версию HaGRID, самого полного

продолжить чтение

Marigold-DC

MarigoldПривет! Сегодня я хочу рассказать про сеточку Marigold-DC решающую задачу Depth Completion. Пользуясь случаем, оставляю ссылку на свой канал: notmagicneuralnetworksЗадача Depth CompletionПостроение 3D мира стало необходимым с появлением автопилотов для построения карт и планирования маршрутов.

продолжить чтение

Контекстные бандиты в ценообразовании

Всем привет! На связи команда аналитиков X5 Tech. Мы продолжаем исследовать подходы Reinforcement Learning для ценообразования. В этой статье мы рассмотрим применение контекстных многоруких бандитов на примере модельной задачи, опишем несколько реализаций и сравним их.В предыдущих двух статьях мы разбирали вопрос применения Reinforcement Learning (RL) в виде многоруких бандитов (multi-armed bandits) для поиска оптимальных цен в задаче ценоообразования. В первой статье сравнили популярные стратегии многоруких бандитов для поиска оптимальной цены на один товар. Во

продолжить чтение

12
Rambler's Top100