200 000+ снимков мусора: что мы узнали о датасетах
В нашей работе хватает безумных задач. Мы создали первого в России цифрового PR-менеджера, разрабатывали виртуальную примерочную и делали много чего еще, о чем не всегда можно рассказать. Но когда мы взялись за создание ИИ-сортировщика мусора MARQUS, поняли — будет совсем жестко.Не так давно мы создали систему сортировки ТКО (Твердых коммунальных отходов) MARQUS, которая делит отходы на бумагу, металл, пластик, стекло и т.д. Система использует искусственный интеллект и специальные сенсоры, чтобы распознавать различные типы отходов прямо на конвейере и направлять их в соответствующие секции для переработки.
ICLR-2025: что нового в мультимодальном ранжировании
Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров @KIIN из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.
Шесть моделей ИИ дали один и тот же ответ при угадывании числа
Специалист по работе с данными из консалтинговой компании Capco Мохд Фарааз провёл эксперимент, предложив популярным ИИ-моделям угадать число от 1 до 50. Все они выбрали один и тот же вариант ответа.
Кросс-валидация на временных рядах: как не перемешать время
Привет, Хабр!Сегодня рассмотрим то, что чаще всего ломает даже круто выглядящие модели при работе с временными рядами — неправильная кросс-валидация. Разберем, почему KFold тут не работает, как легко словить утечку будущего, какие сплиттеры реально честны по отношению ко времени, как валидировать фичи с лагами и агрегатами.Почему KFold — плохая идея для time-seriesKFold — штука классная… но только если твои данные не зависят от времени. Он был создан для мира, где каждый объект независим. Для задач классификации изображений или анализа табличных данных KFold
ML Q & AI. Глава 1. Эмбеддинги, латентные пространства и представления
Известный эксперт в области машинного обучения и ИИ Себастьян Рашка был добр бесплатно поделиться с миром своей уникальной книгой о фундаментальных вопросах в области современного машинного обучения. В ней он рассматривает вопросы создания эффективных архитектур для глубинного обучения. Книга охватывает 30 важных аспектов этой сферы в максимально доступной и понятной форме: каждый вопрос рассмотрен как небольшая, но интересная статья, подобно тем, что мы читаем здесь, на Хабре. Отсутствие такой книги в русскоязычном сегменте - большое упущение, поэтому верю, что серия переводов этой книги будет полезна сообществу Хабра.
Cloudflare позволит веб-сайтам взимать плату с ИИ-ботов за сбор данных (скраппинг) из веб-ресурсов
Cloudflare объявила
Apple рассматривает возможность отказа от собственного ИИ для Siri и тестирует модели от OpenAI и Anthropic
По информации от Bloomberg, Apple рассматривает возможность интеграции Siri на базе моделей искусственного интеллекта от Anthropic или OpenAI. Такой шаг стал бы значительным изменением для компании — пришлось бы признать, что собственные разработки Apple в области искусственного интеллекта не поспевают за прогрессом.
Нейросетевыми агентами Cursor теперь можно управлять в браузере
В блоге редактора кода Cursor рассказали, что нейросетевыми агентами теперь можно управлять в браузере. Для мобильных устройств разработчики подготовили PWA, чтобы веб-приложение можно было запускать с главного экрана смартфона, как нативное.
NVIDIA запускает платформу DGX Cloud Lepton с доступом к мощностям мировых провайдеров
NVIDIA представила DGX Cloud Lepton — платформу, объединяющую вычислительные мощности GPU от различных облачных провайдеров по всему миру. Цель проекта — упростить доступ разработчиков и предприятий к GPU для обучения и развертывания ИИ-моделей.

