датасет.

Журналисты обнаружили датасеты с 22 млн охраняемых музыкальных записей, которыми обучали Suno, Udio и ИИ‑модели Google

Редакция The Atlantic в рамках проекта AI Watchdog

Оставлено в

Ваш KYC не работает: почему цифровые подделки документов стали опаснее бумажных

Когда говорят о подделке документов, обычно подразумевают попытку обмануть человека. Но сегодня документы все чаще проверяют не сотрудники банков и служб безопасности, а алгоритмы цифрового онбординга, KYC и удаленной идентификации.Поэтому появились подделки нового типа — рассчитанные не на людей, а на компьютеры. Их задача не выглядеть идеально, а заставить систему распознавания извлечь нужные реквизиты и пропустить заявку дальше.Как выглядят такие атаки, почему существующие решения часто оказываются к ним не готовы и зачем мы создали открытый датасет цифровых подделок документов MIDV-DM — расскажем под катом.

продолжить чтение

Оставлено в

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

Статья о наболевшем.Есть удобная, почти благородная формулировка: «рынок плохо воспринимает новые технологии». Она красивая, интеллигентная и вежливая, поэтому почти наверняка неправильная. Но проблема, конечно, вовсе не в рынке, а в том, что до рынка ещё надо добраться. А до него, как правило, сидит цепочка людей, которые либо не понимают, что им показывают, либо понимают слишком мало, но с очень большим апломбомРынок тут не при чем. просто сначала ты разговариваешь не с компанией, а с прослойкой людей, которые отлично умеют мешать, но плохо понимают – или не хотят понимать – что им показывают.

продолжить чтение

Оставлено в

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

продолжить чтение

Оставлено в

Основы парсинга сайтов: от HTML до готового датасета для NLP

Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам нужны посты из конкретного Telegram‑канала, отзывы с узкопрофильного форума или корпус текстов по редкой теме?Парсинг сайтов — это навык, который превращает интернет в вашу персональную фабрику данных. Без него даже самая умная модель останется без «топлива». В этой статье мы рассмотрим весь путь: от первого запроса к сайту до готового датасета, пригодного для обучения.

продолжить чтение

Оставлено в

Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

продолжить чтение

Оставлено в

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus

продолжить чтение

Оставлено в

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Введение. Контекст как катализаторВ начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.Так родился проект AI-Vet-Scanner

продолжить чтение

Оставлено в

Бизнес попросил упростить доступ к данным для ускорения разработки ИИ

«Ъ» ознакомился

продолжить чтение

Оставлено в

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Удалённая идентификация по видеосвязи – привычный для бизнеса сценарий: клиент подключается к оператору, подтверждает личность и получает доступ к операциям. Но современные дипфейки уже достаточно убедительны и «проверка на глаз» перестаёт работать: оператору становится сложнее принять решение. А пользователю – пройти проверку, например, его попросят помахать рукой перед лицом, чтобы ошибки в real-time подмене стали заметны.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

датасет.

Журналисты обнаружили датасеты с 22 млн охраняемых музыкальных записей, которыми обучали Suno, Udio и ИИ‑модели Google

Ваш KYC не работает: почему цифровые подделки документов стали опаснее бумажных

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

Основы парсинга сайтов: от HTML до готового датасета для NLP

Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Бизнес попросил упростить доступ к данным для ускорения разработки ИИ

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

датасет.