- BrainTools - https://www.braintools.ru -
Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.
Это вторая часть книжной подборки — в первой книги для джунов. [1]
Когда я начинал в Data Science, мне казалось, что для того, чтобы стать сеньором, нужно знать все библиотеки и языки. Всё изменила фраза из книги Клеппмана: «Важно не то, сколько вы знаете, а то, как вы применяете свои знания».
Именно тогда я осознал:
▸ Код — инструмент, который устаревает.
▸ Принципы — мастерство, которое остаётся.
Пример из практики:
В 2020 году мы внедряли рекомендательную систему на графах. Код для Neo4j за 3 года устарел, но принципы из книги «Графовые алгоритмы» (спасибо, Марк Нитхем!) до сих пор помогают оптимизировать запросы.
В Data Science данные — это основа всего. Поэтому, чтобы строить серьезные решения вокруг данных, нужно понимать, как эффективно их получать и как эффективно их хранить. Поэтому подборка книг для middle-уровня начинается с SQL и баз данных.
«SQL: Сборник рецептов» — Энтони Молинаро
Много лет назад я два дня бился над запросом для аналитики заказов. JOIN 5 таблиц, подзапросы — всё висло. Потом открыл главу про оконные функции, переписал — и время выполнения упало с 2 минут до 8 секунд.
Почему это важно: учит видеть за синтаксисом математику [2] (да, даже в SQL).
«Графовые базы данных» — Робинсон, Веббер
В 2022 мы строили систему рекомендаций навыков для вакансий. Большинство настаивало на реляционной СУБД. Я принёс эту книгу на стендап — через неделю мы реализовали систему на Neo4j.
Почему это работает: объясняет, как Cypher-запросы заменяют гору JOIN’ов (наш кейс: 15 JOIN’ов → 3 строки на Cypher).
А ещё предсказание из моего подкаста [3]: «Через 2 года LLM будут генерировать не текст, а запросы к графам знаний».
Чем отличаются мидл и сеньор-специалисты? Можно назвать не меньше десятка критериев. Вот вам еще один: мидл мыслит реализациями, а сеньор концепциями.
Мой лайфхак: когда сталкиваешься с новой технологией, найди главу, посвященную концепции, которая лежит в основе. В 90% случаев эта идея была придумана 10-15 лет назад, и нужные тебе решения уже найдены.
«Основы статистического обучения» — Хасти, Тибширани
Когда джуниор спрашивает: «Что лучше использовать Lasso или Ridge?» — даю почитать главу про регуляризацию. После этого вопросы отпадают.
«Распознавание образов и машинное обучение» — Кристофер Бишоп
Если хотите понять, почему нейросети работают, а не просто импортировать from keras import…, читайте главу про байесовский подход. После неё даже GPT перестаёт казаться магией.
Расширение кругозора помогает находить крутые подходы, которые могут быть в разы эффективнее общепринятых.
«Анализ данных в науке [4] и технике» — Стивен Брантон, Дж. Натан Кудс
Эта книга научила, что иногда выгоднее вместо нейросетей использовать простые методы. Например, для бизнес-ранжирования вакансий мы использовали PID-регулятор из главы про динамические системы. Результат: в 30 раз дешевле и быстрее, чем нейросети.
«Глубокое обучение [5] в биологии и медицине» — Бхарат Рамсундар и др.
Даже если вы не работаете в медицине, глава про анализ белковых структур покажет, как применять CNN для данных с высокой размерностью. Да и в целом интересно посмотреть, как знакомые нам архитектуры справляются с нестандартными задачами.
Оптимизация через принципы:
Прежде чем писать код, спрашиваю: «Какая фундаментальная проблема здесь?»
Например, вместо того чтобы городить нейросеть, использовал классический подход из книги Брантона — работает в 30 раз быстрее.
Обучение команды:
Всем ребятам из команды даю почитать книги из своей библиотеки,
когда нужно найти решение новой задаче, ищем похожие задачи в книгах и делимся найденным с коллегами. Это помогает обобщить подходы и нащупать решение.
В 2025 году технологии меняются быстрее, чем мы успеваем их изучать, но:
SQL останется — даже если ChatGPT будет генерировать 90% кода,
принципы распределенных систем не устареют — даже если Kafka сменится новым протоколом,
графы станут только актуальнее — особенно с ростом LLM.
Как я говорю в подкасте: «Выучите PyTorch за неделю и потратьте месяц на Клеппмана. Первое сделает вас разработчиком, второе — инженером».
P.S. Эта подборка — не исчерпывающий список. Есть десятки достойных книг, но я выбрал эти книги, чтобы показать мой подход к обучению, а не просто перечислить источники знаний.
P.P.S. Книг по написанию кода здесь нет — на эту тему будет отдельный материал.
Какие принципы вы считаете вечными? Какие книги добавили бы в список? Давайте обсудим в комментариях
Автор: mark-rtb
Источник [6]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/12386
URLs in this post:
[1] в первой книги для джунов.: https://habr.com/ru/companies/ozonbank/articles/879798/
[2] математику: http://www.braintools.ru/article/7620
[3] подкаста: https://music.yandex.ru/album/27545130
[4] науке: http://www.braintools.ru/article/7634
[5] обучение: http://www.braintools.ru/article/5125
[6] Источник: https://habr.com/ru/companies/ozonbank/articles/884310/?utm_campaign=884310&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.