data science.

Топ вопросов по LLM: стратегии генерации текста и метрики оценки LLM

На NLP/LLM-собеседованиях часто проверяют не то, знаешь ли ты слова top-k, top-p и BLEU, а понимаешь ли ты, что происходит с распределением вероятностей, почему greedy decoding зацикливается, зачем нужна temperature и почему BLEU плохо оценивает ответы современных LLM.В этой статье - чеклист по языковому моделированию, стратегиям генерации и метрикам качества. Это не полноценная лекция с нуля, а тренажёр, по которому стоит пройтись перед техническим интервью по NLP, чтобы закрыть пробелы и вспомнить необходимую базу.Содержание:Языковое моделированиеСтратегии генерации текста

продолжить чтение

Разбираемся в ML без воды: от базы до Attention. Часть 12: Понижение размерности и PCA

В предыдущей части мы разобрали градиентный бустинг — финального босса в классическом обучении с учителем. Мы научились строить мощные ансамбли, которые выжимают максимум из табличных данных. Кажется, что на этом можно ставить точку и прыгать в современный мир нейросетей и Deep Learning.

продолжить чтение

Аналитика данных и Data Science: разбор 6 программ из каталога Хабр Курсов

Аналитика данных и Data Science адаптированы под разные сценарии: от быстрого старта в junior-позиции с SQL и BI до глубокого погружения в машинное обучение, Data Engineering и командную разработку на Git. В рамках исследования каталога Хабр Курсов мы проанализировали 6 форматов, оценили баланс теории и практики, и подготовили чек-лист под ваш график.Сравнительная таблица курсовКурсШколаДл-ть

продолжить чтение

Разбираемся в ML без воды: от базы до Attention. Часть 11: Градиентный бустинг

В десятой части при изучении случайного леса мы наткнулись на проблему: переход от одиночного дерева к лесу частично снизил дисперсию, но вопрос со смещением остался открытым. Сегодня мы перейдем к концепции градиентного бустинга, которая позволяет последовательно сводить смещение к нулю, и заодно разберем, как заставить деревья эффективно учиться на ошибках своих "предшественников".Градиентный бустинг

продолжить чтение

Ключевые основы автоматического выбора алгоритмов кластеризации мультимодальных данных на основе мета-обучения

продолжить чтение

Месть дата-сайентиста: почему LLM не отменили нашу профессию

Закончилась ли золотая эпоха дата-сайентистов? Когда-то Harvard Business Review назвал эту профессию «самой сексуальной работой XXI века». В технологической индустрии позиции data scientist часто входили в число самых высокооплачиваемых. При этом работа требовала необычного сочетания навыков:Data Scientist (сущ.): человек, который знает статистику лучше любого разработчика и разбирается в разработке лучше любого статистика.— JosH100 (@josh_wills), 3 мая 2012 года

продолжить чтение

Разбираемся в ML без воды: от базы до Attention. Часть 10: Бэггинг и случайный лес

В предыдущей части мы изучали дерево решений и, несмотря на его замечательные свойства, наткнулись на один огромный недостаток — нестабильность. Казалось бы, это лечится достаточно просто: зафиксировать все, что отвечает за рандом и не модифицировать датасет. Такой подход избавит нас от проблемы, но это даже не костыль, а полноценная инвалидная коляска, ведь данное решение буквально закрывает для нас все двери для развития данных. Например, мы в 2026 создадим идеальную модель, предсказывающую цены на квартиры, а в 2027 из-за изменение рынка наша идеальная модель полетит в мусорное ведро.

продолжить чтение

Чуть не отчислили за программирование, а сейчас Senior Data Scientist

Спойлер: я не выпускник МФТИ, не олимпиадник и ненавидел программирование. У меня было 45 баллов ЕГЭ по математике, диплом инженера ПГУПС и стойкое ощущение, что в IT мне не светит ничего. Сейчас я Senior Data Scientist в крупном банке, а в 26/27 буду преподавать в ИТМО. В этой статье - как именно так получилось, и что нужно понять, чтобы не сидеть годами на одной работе за 100к, когда соседняя сфера платит втрое больше. 2014. Парень без плана

продолжить чтение

Как и зачем мы сделали собственный OCR-бенчмарк

Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать.

продолжить чтение

Пока все смотрят на LLM: почему классический ML годами зарабатывает сотни миллионов?

В ленте сплошные языковые модели и агенты, а инвесторы спорят про окупаемость GenAI. Тем временем «скучный» классический ML: градиентный бустинг, аплифт модели, recsys, поведенческая биометрика, до сих пор тихо приносит реальную выручку. Я Senior Data Scientist, работаю в финтехе, а также являюсь спикером по карьере и аналитике/ML в ИТМО и ВШЭ. В статье решил разобрать на реальных примерах зрелых компаний, которые уже доказали окупаемость, и одной из новой волны, что классика все еще жива и нужно знать истоки ML.Почему стоит об этом говорить

продолжить чтение

123456...10...16