ds.
Линейная регрессия, встряска рейтинга и первое место. Часть 1: Ёлочка, живи
CatBoost строит модель "выживаемости" ёлки (в представлении GigaChat)ВведениеВ то время как космические корабли бороздят.
Как мы в Авито сделали свою LLM — A-vibe
Всем привет! Меня зовут Анастасия Рысьмятова, я руковожу юнитом LLM в Авито.В этой статье я расскажу, как мы с командой создали и адаптировали нашу большую языковую модель A-vibe: зачем решили развивать собственную LLM, как построили токенизатор, собрали датасеты, провели SFT и RL и что получили в итоге. Поделюсь основными экспериментами и покажу наши результаты.Сегодня мы выпустили в опенсорс свое семейство генеративных моделей – A-Vibe и A-Vision, статья приурочена к этому событию.
Топ вопросов с Data Science собеседований: Деревья и ансамбли, кластеризация, метрические модели
Знание классики - база любых собеседований на все грейды в DS!Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.Это вторая часть вопросов по classic ML, если вы не видели первую, то обязательно читайте (там разобрал основы мл, линейные модели, метрики классификации и регресии).А в этой части разберем:деревьяансамблиметрические моделикластеризацию
Собрали для вас 10 докладов про ML и LLM с Data Fest Day 2025
Всем привет! Собрали для вас лучшие доклады со дня Авито на Data Fest в этом году: там мы рассказали обо всём, что касается ML и не только. Кликайте на интересующие темы в оглавлении и читайте описания к видео. Ссылки на все выступления можно найти внутри разделов:Линейка LLM-моделей Авито«A-vibe: как мы сделали LLM для Авито» «A-vision — мультимодальная модель Авито» Продукты на основе LLM«Как LLM автоматизирует работу в Авито»«Генерация описания год спустя. Что нам удалось понять за год»
Как DS-инженеры совершенствуют автогенерацию описаний и пополняют индекс объявлений Авито
Привет! Я Сергей Кляхандлер, техлид в команде LLM Авито. В 2024 году мы разработали и выпустили ML-модель, которая автоматически генерирует описания для объявлений из категории «Одежда, обувь, аксессуары». В этом году автогенерацию усовершенствовали, а подход переиспользовали. Теперь мы можем создавать дополнительные ключевые слова для поиска.Статья будет полезна DS-инженерам, которые работают с мультимодальными LLM-моделями.
AI-ассистент в мире кода: как стать пилотом, а не пассажиром
Сегодня невозможно игнорировать тот факт, что AI-ассистенты, такие как ChatGPT, GitHub Copilot или Gemini, стали частью рабочего процесса. Но использовать их бездумно — значит обесценить собственное обучение и будущие карьерные перспективы. Меня зовут Дмитрий Махортов, я специалист по машинному обучению и ревьюер на курсе «Специалист по Data Science»
Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :)Доклад «Трансформеры в персональных рекомендациях: от гипотез до AB-тестирования» — Иван Ващенко, DS Team Lead в команде персональных рекомендаций Wildberries & Russ
Литературный обзор на статью: StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
StyleGAN-NADA (No Annotation Domain Adaptation) - метод, разработанный специалистами из Tel Aviv University и NVIDIA Research, позволяющий адаптировать генеративную модель (StyleGAN2) к новому домену без единого изображения, использующий только семантическую силу больших моделей, предварительно обученных контрастивным методом на тексте и изображениях (СLIP). На рисунке 1 представлены возможности метода StyleGAN-NADA.
Главное по ML-DL, часть 2: Вопрос → Краткий ответ → Разбор → Пример кода. SVD-PCA. Bias-variance. Деревья. Бустинг
У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение.Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять, но так же не лишая полноты!💻 Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу! Это самое важное, оно происходит в секции с кодом. Поэтому попробуйте сами решить предложенную задачку и придумать свою!

