датасеты.

Как протестировать машинный переводчик

Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества.В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль.

продолжить чтение

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

продолжить чтение

Goldman Sachs: у ИИ уже закончились данные для обучения

Искусственный интеллект исчерпал доступные для обучения данные, рассказал директор по данным и руководитель отдела разработки данных Goldman Sachs Нима Рафаэль. По его словам, этот дефицит уже может оказывать влияние на то, как создаются новые системы ИИ.

продолжить чтение

T-ECD — синтетический кросс-доменный датасет для исследований в области рекомендательных систем

продолжить чтение

Как данные влияют на качество ML-фичи. Виртуальный фон для Контур.Толк

Привет, Хабр! Меня зовут Павел Кузнецов, и я ML-разработчик в лаборатории компьютерного зрения Центра ИИ Контура. Мы занимаемся созданием AI-фич для продуктов компании. Один из наших ключевых заказчиков — сервис видео-конференц-связи Контур.Толк. Для него мы разрабатываем такие фичи, как бьютификация, улучшение освещённости, детекция дипфейков и, конечно же, сегментация фона.

продолжить чтение

Лингвисты НИУ ВШЭ — Санкт-Петербург создали уникальный «эмоциональный словарь» для обучения ИИ

Исследователи НИУ ВШЭ — Санкт-Петербург Анастасия Колмогорова и Елизавета Куликова разработали

продолжить чтение

Исследователи Яндекса выложили Yambda — один из крупнейших в мире датасетов для развития рекомендательных систем

продолжить чтение

Как использовать датасеты при разработке ИИ, не нарушая законодательство

С развитием технологий искусственного интеллекта (ИИ) датасеты стали одним из ключевых элементов для создания и обучения ИИ и сервисов на их основе. Их использование связано не только с техническими вопросами, но и с целым ворохом юридических аспектов.Всем привет, меня зовут Алексей Насанбаев. В статье я расскажу, что такое датасет с точки зрения права, какие риски обычно возникают при работе с ними, а также поделюсь опытом использования open source датасетов.

продолжить чтение

GAN и диффузионные модели: как научить нейросеть рисовать

Привет! Сегодня хочу поговорить о двух очень горячих темах в области искусственного интеллекта — генеративно‑состязательные сети (GAN) и диффузионные модели (типа Stable Diffusion). Я сама как‑то подсела на все эти AI‑картинки и поняла, что нужно срочно поделиться тем что накопала. Поехали!:‑)GAN: Генератор vs. Дискриминатор

продолжить чтение

Rambler's Top100