датасет.

Датасет VK-LSVD помогает тестировать алгоритмы рекомендаций: сейчас на его базе проходит VK RecSys Challenge

продолжить чтение

Собираем качественные датасеты для LLM с помощью Telegram-бота

«Дайте мне качественный датасет, и я переверну Землю!» — возможно, так перефразировал бы свою крылатую фразу Архимед, доведись ему тренировать современные LLM. Хороших наборов данных в открытом доступе не так много, а собрать свой — задача не из простых. О популярных способах сбора данных для датасетов, связанных с этим рисках и о решении, которое мы используем в YADRO, сегодня и поговорим. Меня зовут Антон Шадрин, я работаю в DevOps-команде дивизиона искусственного интеллекта YADRO. В работе с моделями искусственного интеллекта, как и в CI/CD-пайплайне, есть похожий набор шагов.

продолжить чтение

Опубликован новый универсальный кросс-доменный датасет T-ECD

продолжить чтение

Силиконовая долина готовит ИИ к жизни в реальном мире

продолжить чтение

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Привет. Меня зовут Нафиса Валиева. Я младший разработчик в MWS AI и Пситехлабе, студентка 3го курса ПМ-ПУ СПбГУ. Этот пост — текстовый вариант моего выступления на Дата Фесте. Я расскажу вам, как мы в команде Пситехлаб переводили интересный датасет с английского на русский с помощью больших языковых моделей (далее - БЯМ). Сам подход основан на ранней работе нашего руководителя. Отличие в том, что здесь мы детально анализируем поведение различных БЯМ. Зачем это вообще и что за датасет такой

продолжить чтение

Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только

Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты.

продолжить чтение

Когда YOLO не спасает: как один параметр может испортить всё

История о том, почему в ML побеждают не те, у кого самая большая модель, а те, кто понимает, что они делают.ВведениеСовременные object detection-модели достаточно мощные, чтобы «из коробки» выдавать приемлемую точность. Особенно если задача выглядит простой — например, определить, где на покерном столе лежат карты.Но «приемлемо» и «надёжно» — не одно и то же.В одном из проектов заказчик обучил модель, которая показывала 93% точности на валидной выборке, но на практике её приходилось постоянно подчищать вручную. Модель теряла карты в нужных моментах, срабатывала на графику трансляции и мешала, а не помогала аналитике.

продолжить чтение

VK выложила в открытый доступ датасет для инженеров, развивающих рекомендательные системы

Специалисты AI VK выложили в открытый доступ датасет VK-LSVD (Large Short-Video Dataset). По словам компании VK, с помощью этого датасета инженеры и учёные смогут развивать и совершенствовать рекомендательные алгоритмы для большей персонализации разрабатываемых решений.Выложенный датасет включает 40 млрд обезличенных уникальных взаимодействий 10 млн пользователей с 20 млн коротких видео за январь-июнь 2025, включая агрегированные лайки, дизлайки, пересылку знакомым, продолжительность просмотра и контекст воспроизведения.

продолжить чтение

Если нужно сгенерировать синтетические данные — подборка открытых решений

Про снижение расходов на работу с данными расскажем

продолжить чтение

Как мы построили embedding-модель уха на Vision Transformers: от идеи до 88% точности

Пока весь мир гонится за распознаванием лиц и отпечатков пальцев, мы в решили взглянуть на человека чуть сбоку — буквально. 

продолжить чтение

123
Rambler's Top100