Неочевидные подробности обучения двухбашенных моделей
Введение Привет, Habr! Меня зовут Андрей Атаманюк, я Data Scientist в R&D команде рекомендательных систем Wildberries & Russ. В этой статье я разберу тонкости обучения двухбашенных моделей (без специфики к домену рекомендаций), которые могут существенно влиять на качество рекомендаций, но часто остаются за кадром. Речь пойдёт о систематическом росте норм эмбеддингов популярных товаров — эффекте, который противоречит интуитивным ожиданиям от косинусных лоссов.
Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF
Одним из сложнейших этапов дообучения LLM является процесс выравнивания (alignment), который зачастую играет решающую роль в качестве модели. Традиционным подходом к решению данной задачи является RLHF, но для него нужны дополнительные обучаемые модели, а это дополнительные вычислительные затраты и трудности в настройке. В цикле своих исследований об обучении LLM я наткнулся на интересную статью, в которой авторы предлагают метод Hindsight Instruction Relabeling (HIR).Ссылка на источник находится тут. Очень проработанная статья, советую почитать.Предыдущие материалы цикла:
Похороны стартапа на Патриарших: как мы завайбкодили сервис и остались без аудитории
Инцидент на Патриарших Прудах«Человек всегда велик в намерениях. Но не в их выполнении. В этом и состоит его очарование» — что-то на глубоком из Ремарка «Три товарища»
Эти пугающие производные, градиенты, матрицы Якоби и Гессе
В этой статье я поясню, как все эти принципы увязываются друг с другом, и покажу, для чего они могут применяться. Производные
Как работает машина Enigma M3 (для флота)
Привет всем!Я решил написать эту статью, потому что сам разобрался со всеми деталями работы этой версии шифровальной машины, и убедился, что написанная мною программа работает идентично эмуляторам этой машины. Это было сделать непросто, так как все описания в интернете, что мне удавалось найти, в лучшем случае упускали часть важных деталей работы этого механизма, а в худшем - содержали смесь из описаний работы разных машин.
Страх и ненависть в …теоретической физике. Немецкий математик: «Как поиски красоты заводят физиков в тупик»
Столетие кризиса в физике (1930-2030)ОглавлениеЧасть I: ВступлениеО книге «Уродливая вселенная. Как поиски красоты заводят физиков в тупик»Отзывы читателейЧасть II: Заблудившиеся в математике. Как поиски красоты заводят физиков в тупик (извлечение)Серьезная проблема хорошего ученогоНеудачаОтличная работа, если суметь ее получитьСила в количествеЗаконы как сосискиПрыжок в темнотуИнфляционная космология, как мы ее сегодня понимаем, не может быть оценена с помощью научного метода
Три варианта решения задачи распределения бюджета в категорийном кэшбэке
Уровень «Хард».Часто нам нужно распределить бюджет какой-то акции/программы так, чтобы… Это «чтобы» может отличаться от задачи к задаче, но неизменным остаётся знание, что чем больше денег мы потратим, тем более выраженные результаты мы получим. В этой статье мы рассмотрим возможные варианты распределения бюджета на конкретном кейсе: категорийном кэшбэке.Постановка задачиВ общем случае, нам часто нужно распределить некоторую величину (бюджет) между множеством объектов (клиентов) так, чтобы какой-то показатель (средний чек, доход) вырос. Отсюда вытекает как минимум две подзадачи:

