Код устареет, принципы — останутся: подборка книг для мидлов и сеньоров в Data Science. books.. books. data.. books. data. data science.. books. data. data science. ml.. books. data. data science. ml. книги.. books. data. data science. ml. книги. машинное+обучение.. books. data. data science. ml. книги. машинное+обучение. подкасты.

Привет! Меня зовут Марк Паненко, и я Chief Data Science в Ozon Банке. Сегодня я хочу поговорить не о моделях или фреймворках, а о том, что останется с вами — даже когда Python 3 сменится на Python 4, а PyTorch уступит место новым инструментам. О принципах — ну и о книгах, которые научат видеть их за строками кода.

Это вторая часть книжной подборки — в первой книги для джунов.

Почему я перестал гнаться за хайпом

Когда я начинал в Data Science, мне казалось, что для того, чтобы стать сеньором, нужно знать все библиотеки и языки. Всё изменила фраза из книги Клеппмана: «Важно не то, сколько вы знаете, а то, как вы применяете свои знания».

Именно тогда я осознал:

▸ Код — инструмент, который устаревает.
▸ Принципы — мастерство, которое остаётся.

Пример из практики:
В 2020 году мы внедряли рекомендательную систему на графах. Код для Neo4j за 3 года устарел, но принципы из книги «Графовые алгоритмы» (спасибо, Марк Нитхем!) до сих пор помогают оптимизировать запросы.

Книги, которые я перечитываю даже в 2025

В Data Science данные — это основа всего. Поэтому, чтобы строить серьезные решения вокруг данных, нужно понимать, как эффективно их получать и как эффективно их хранить. Поэтому подборка книг для middle-уровня начинается с SQL и баз данных.

Для мидлов: когда хочется рвать волосы от медленных запросов

«SQL: Сборник рецептов» — Энтони Молинаро
Много лет назад я два дня бился над запросом для аналитики заказов. JOIN 5 таблиц, подзапросы — всё висло. Потом открыл главу про оконные функции, переписал — и время выполнения упало с 2 минут до 8 секунд.

Почему это важно: учит видеть за синтаксисом математику (да, даже в SQL).

«Графовые базы данных» — Робинсон, Веббер
В 2022 мы строили систему рекомендаций навыков для вакансий. Большинство настаивало на реляционной СУБД. Я принёс эту книгу на стендап — через неделю мы реализовали систему на Neo4j.

Почему это работает: объясняет, как Cypher-запросы заменяют гору JOIN’ов (наш кейс: 15 JOIN’ов → 3 строки на Cypher).

А ещё предсказание из моего подкаста: «Через 2 года LLM будут генерировать не текст, а запросы к графам знаний».

Для сеньоров: когда нужно объяснить почему

Чем отличаются мидл и сеньор-специалисты? Можно назвать не меньше десятка критериев. Вот вам еще один: мидл мыслит реализациями, а сеньор концепциями.

 «Высоконагруженные приложения» — Мартин КлеппманЭту книгу я цитирую на каждом архитектурном митапе. И перечитываю её каждые полгода. Сам подход к повествованию в книге настраивает на работу с концепциями.

Мой лайфхак: когда сталкиваешься с новой технологией, найди главу, посвященную концепции, которая лежит в основе. В 90% случаев эта идея была придумана 10-15 лет назад, и нужные тебе решения уже найдены.

«Основы статистического обучения» — Хасти, Тибширани
Когда джуниор спрашивает: «Что лучше использовать Lasso или Ridge?» — даю почитать главу про регуляризацию. После этого вопросы отпадают.

«Распознавание образов и машинное обучение» — Кристофер Бишоп
Если хотите понять, почему нейросети работают, а не просто импортировать from keras import…, читайте главу про байесовский подход. После неё даже GPT перестаёт казаться магией.

Для тех, кто ищет неочевидные решения

Расширение кругозора помогает находить крутые подходы, которые могут быть в разы эффективнее общепринятых.

«Анализ данных в науке и технике» — Стивен Брантон, Дж. Натан Кудс
Эта книга научила, что иногда выгоднее вместо нейросетей использовать простые методы. Например, для бизнес-ранжирования вакансий мы использовали PID-регулятор из главы про динамические системы. Результат: в 30 раз дешевле и быстрее, чем нейросети.

«Глубокое обучение в биологии и медицине» — Бхарат Рамсундар и др.
Даже если вы не работаете в медицине, глава про анализ белковых структур покажет, как применять CNN для данных с высокой размерностью. Да и в целом интересно посмотреть, как знакомые нам архитектуры справляются с нестандартными задачами.

Как я применяю эти книги

Оптимизация через принципы:

Прежде чем писать код, спрашиваю: «Какая фундаментальная проблема здесь?»

Например, вместо того чтобы городить нейросеть, использовал классический подход из книги Брантона — работает в 30 раз быстрее.

Обучение команды:

  • Всем ребятам из команды даю почитать книги из своей библиотеки,

  • когда нужно найти решение новой задаче, ищем похожие задачи в книгах и делимся найденным с коллегами. Это помогает обобщить подходы и нащупать решение.

Почему это важно именно сейчас

В 2025 году технологии меняются быстрее, чем мы успеваем их изучать, но:

  • SQL останется — даже если ChatGPT будет генерировать 90% кода,

  • принципы распределенных систем не устареют — даже если Kafka сменится новым протоколом,

  • графы станут только актуальнее — особенно с ростом LLM.

Как я говорю в подкасте: «Выучите PyTorch за неделю и потратьте месяц на Клеппмана. Первое сделает вас разработчиком, второе — инженером».

P.S. Эта подборка — не исчерпывающий список. Есть десятки достойных книг, но я выбрал эти книги, чтобы показать мой подход к обучению, а не просто перечислить источники знаний.

P.P.S. Книг по написанию кода здесь нет — на эту тему будет отдельный материал.

А вам что кажется важным?

Какие принципы вы считаете вечными? Какие книги добавили бы в список? Давайте обсудим в комментариях

Автор: mark-rtb

Источник

Rambler's Top100