датасет.

Журналисты обнаружили датасеты с 22 млн охраняемых музыкальных записей, которыми обучали Suno, Udio и ИИ‑модели Google

Редакция The Atlantic в рамках проекта AI Watchdog

продолжить чтение

Ваш KYC не работает: почему цифровые подделки документов стали опаснее бумажных

Когда говорят о подделке документов, обычно подразумевают попытку обмануть человека. Но сегодня документы все чаще проверяют не сотрудники банков и служб безопасности, а алгоритмы цифрового онбординга, KYC и удаленной идентификации.Поэтому появились подделки нового типа — рассчитанные не на людей, а на компьютеры. Их задача не выглядеть идеально, а заставить систему распознавания извлечь нужные реквизиты и пропустить заявку дальше.Как выглядят такие атаки, почему существующие решения часто оказываются к ним не готовы и зачем мы создали открытый датасет цифровых подделок документов MIDV-DM — расскажем под катом.

продолжить чтение

Почему вы тратите время не на переговоры, а на чужую внутреннюю драму. Как проходят переговоры с крупными компаниями

Статья о наболевшем.Есть удобная, почти благородная формулировка: «рынок плохо воспринимает новые технологии». Она красивая, интеллигентная и вежливая, поэтому почти наверняка неправильная. Но проблема, конечно, вовсе не в рынке, а в том, что до рынка ещё надо добраться. А до него, как правило, сидит цепочка людей, которые либо не понимают, что им показывают, либо понимают слишком мало, но с очень большим апломбомРынок тут не при чем. просто сначала ты разговариваешь не с компанией, а с прослойкой людей, которые отлично умеют мешать, но плохо понимают – или не хотят понимать – что им показывают.

продолжить чтение

Трудности перевода: почему LLM не умеют писать нормальные докстринги на русском и как это исправить

продолжить чтение

Основы парсинга сайтов: от HTML до готового датасета для NLP

Вы освоили машинное обучение, знаете, чем transformer отличается от LSTM, но где брать данные для своих проектов? Готовые датасеты — это хорошо, но они общие. А если вам нужны посты из конкретного Telegram‑канала, отзывы с узкопрофильного форума или корпус текстов по редкой теме?Парсинг сайтов — это навык, который превращает интернет в вашу персональную фабрику данных. Без него даже самая умная модель останется без «топлива». В этой статье мы рассмотрим весь путь: от первого запроса к сайту до готового датасета, пригодного для обучения.

продолжить чтение

Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты

продолжить чтение

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus

продолжить чтение

От вет-ИИ для коров до имперского глянца: хардкорный MLOps на бесплатных GPU

Введение. Контекст как катализаторВ начале 2026 года ленты новостей принесли тревожные сообщения из Сибири: массовые вспышки опасных заболеваний у КРС (крупного рогатого скота) привели к необходимости вынужденного забоя тысяч голов. Для многих фермеров это означало потерю бизнеса и средств к существованию.Мы задались вопросом: может ли доступный Computer Vision стать первой линией обороны? Инструментом, который позволит фермеру в отдаленном районе провести первичный скрининг (триаж) животного с помощью обычного смартфона и вовремя вызвать ветеринара, не дожидаясь начала эпидемии.Так родился проект AI-Vet-Scanner

продолжить чтение

Бизнес попросил упростить доступ к данным для ускорения разработки ИИ

«Ъ» ознакомился

продолжить чтение

RealTime FaceSwap-10k — датасет для задачи детекции real-time дипфейков

Удалённая идентификация по видеосвязи – привычный для бизнеса сценарий: клиент подключается к оператору, подтверждает личность и получает доступ к операциям. Но современные дипфейки уже достаточно убедительны и «проверка на глаз» перестаёт работать: оператору становится сложнее принять решение. А пользователю – пройти проверку, например, его попросят помахать рукой перед лицом, чтобы ошибки в real-time подмене стали заметны.

продолжить чтение