Прокачаться в data science: блоги и каналы

Делимся блогами, посвященными машинному обучению ^[1] и data science. Материалы от практикующих дата-сайентистов, программистов, физиков и биоинформатиков будут интересны как начинающим, так и «прожженным» специалистам.

Лонгриды о машинном обучении

Автор блога ^[2] — Лиор Синай ^[3], инженер из Южной Африки, который пишет о математике ^[4], алгоритмах, языках программирования и ML-моделях. В статьях много примеров, что делает их полезными для студентов и начинающих разработчиков. Один из циклов статей ^[5] в блоге посвящен разработке генеративных трансформеров на языке Julia. Синай шаг за шагом объясняет, как обучить модель воспроизводить текст в стиле Шекспира, следуя методологии из научной работы ^[6] OpenAI о GPT-1. Он описывает подготовку датасета — очистку текстов от предисловий, аннотаций и лишних символов — и приводит код для обработки эмбеддингов. Часто автор сопровождает текст наглядными иллюстрациями.

Еще есть канал Игоря Котенкова — Сиолошная ^[7], где автор делится как обзорами на последние разработки в области (LLM), так и личным взглядом на область ИИ в целом. Также в блоге можно почитать о последних достижениях в космосе

— Роман Ленц,@RLents ^[8], руководитель направления анализа данных и ML в ПГК

Еще один интересный цикл — пять публикаций о разработке пакета для автоматического дифференцирования MicroGrad.jl [его исходный код ^[9] есть на GitHub]. В первой части ^[10] разбираются основы: градиентный спуск и теория оптимизации. Во второй ^[11] — реализация автоматического дифференцирования с использованием метапрограммирования. Цикл завершается тем, что Синай демонстрирует ^[12], как применять разработанный движок для построения многослойного перцептрона ^[13] и обучить его на наборе данных Moons ^[14]. С 2020 года вышло несколько десятков объемных статей — от тысячи слов и больше. Обычно за год инженер публикует три-четыре материала, но в целом — это один из тех блогов, которые можно положить в фид и проверять время от времени.

Заметки программиста-математика

Эмилио Доригатти ^[15] — исследователь в области вычислительной иммунологии, работающий в крупной немецкой фармацевтической компании. В блоге ^[16] он пишет на более широкие темы, поэтому материалы будут интересны не только дата-сайентистам от мира медицины. Специалист ведет свой блог с 2019 года — начинал со своеобразных «обзоров ^[17]» комиксов xkcd с математическими выкладками.

В одном из свежих постов Доригатти объясняет, как реализовать ^[18] тензорную библиотеку с нуля: спроектировать набор функций для работы с многомерными массивами, включая базовые математические операции. В будущем он планирует развить эту тему, рассказав о реализации графовых нейросетей и операций транспонирования. Еще одна статья ^[19] посвящена обработке данных в PyTorch Lightning — техникам работы с датасетами, которые не помещаются в оперативную память ^[20].

Но иногда Доригатти пишет о математических задачах. Однажды инженер застрял в пробке на извилистой дороге — и в блоге появилась статья ^[21] о том, как оценить общее количество автомобилей и среднюю длину затора на бесконечной дороге. Сначала он привел аналитическое решение, а затем дополнил его симуляциями. Правда, материалы в блоге выходят нерегулярно: в 2024 году вышел всего один, а в 2023-м — одиннадцать.

Физик и дата-сайентист делится опытом

Алекс Молас — испанский специалист по данным, разрабатывающий ML-системы для локальной платформы объявлений. В своем блоге ^[22] он делится знаниями о Data Science и ML, следуя принципу ^[23]: «Лучший способ что-то понять — попытаться объяснить это другим». Блог может быть интересен как начинающим, так и практикующим дата-сайентистам, ML-инженерам и даже ученым-физикам, ведь у Моласа есть бэкграунд ^[24] в этой области. Писать он начал в конце 2020 года, и с тех пор публикует около десятка материалов в год. Тексты получаются компактными (500–1500 слов), но емкими, с живым и понятным языком.

Темы варьируются от прикладных до неожиданных:

Практика: обучение моделей ^[25] TensorFlow, оптимизация ^[26] Jupyter-ноутбуков (с помощью bash-скрипта можно сократить их объем на 94%);
Аналитика: анализ ^[27] гендерного разрыва в шахматах с математической точки зрения ^[28], критика ^[29] многофакторной аутентификации;
Нестандартные задачи: расчет ^[30] максимально возможной длины прыжка с качелей — с применением физики и численных методов. Исходный код этого небольшого проекта можно посмотреть в репозитории ^[31].

Кому-то может быть интересно мнение ^[32] Моласа о Leetcode-интервью на технических собеседованиях. В частности, автор приводит несколько доводов в защиту подхода. Он считает, что такого рода задачи помогают оценить способность кандидатов находить решение нестандартных проблем и проверяют аналитическое мышление ^[33].

Есть в блоге и лаконичные эссе — например, о том, что делает код хорошим ^[34] (ключевой критерий — читаемость). А еще автор курирует подборку полезных, по его мнению, ресурсов ^[35] по ML, большинство из которых бесплатны и открыты для всех.

Актуальные статьи про нейросети

Каждую неделю на сайте научно-исследовательской платформы Learn and Burn ^[36] выходит одна-две статьи на самые разные темы в области систем ИИ и анализа данных. Например, недавно вышел обзор ^[37] вайтпейпера о том, насколько LLM могут быть подвержены загрязнению данных ^[38] при работе с GSM-Symbolic ^[39], GSM8K ^[40] и прочими датасетами. А в другой ^[37] публикации рассматривают эффективность статистического способа для выявления галлюцинаций в ответах систем ИИ. И еще пример — статья ^[41] о том, как дифференциальный трансформер ^[42] может оптимизировать поиск релевантной информации.

Кстати, куратор этой рассылки — инженер Тайлер Нейлон — ведет и собственный блог ^[43]. В нем можно почитать ^[44] о визуализации необученных, «сырых» нейронных сетей. Другая статья посвящена LSH ^[45]: как этот метод позволяет ускорить поиск информации, для каких типов данных он подходит и за что отвечают хеш-функции.

Разбор алгоритмов от преподавателя

Почитать про data science и смежных областях на русском языке можно в профессиональном блоге ^[46] Александра Дьяконова ^[47]. Он руководитель направления наук о данных в Центральном университете и в 2012 году возглавлял топ Kaggle ^[48]. В блоге можно найти статьи ^[49] о разработке графовых нейронных сетей: какие есть проблемы, как эти трудности обходят, зачем нужно обобщение агрегации и так далее. А в материале ^[50], посвященном ML и библиотеке sklearn ^[51], Дьяконов демонстрирует, почему алгоритмы могут выдавать неверные вероятности, а результаты перекрестной проверки — различаться.

По материалам собственных лекций автор подготовил объемный сборник ^[52] о глубоком обучении. Для написания этой веб-книги он обращался ^[53] к записям, эссе и конспектам его аудитории. В ней можно изучить устройство нейронных сетей, а также способы борьбы с переобучением (мини-батчи, продвинутая оптимизация и другие).

Новые записи в блоге появляются нечасто, примерно раз в год. Поэтому советуем обратить внимание ^[54] на Telegram-канал ^[55] автора, где он рекомендует материалы и исследования примерно раз в две недели. Что интересно, сейчас Александр работает над открытой книгой ^[56] о машинном обучении и анализе данных. Уже доступны материалы о метрических алгоритмах ^[57] и их подтипах, о критериях ^[58] контроля качества и выбора моделей, также можно узнать про поиск аномалий ^[59]. Позже должны появиться подразделы, посвященные обработке данных, генерации и отбору признаков, а также визуализации и градиентному бустингу.

Telegram-канал Open Data Science

Новостной Telegram-канал ^[60], который курирует русскоязычное Data Science сообщество Open Data Science ^[61]. Ресурс по большей части является агрегатором статей. Публикации разнообразны не только по темам, но и по уровню сложности — подойдет как совсем начинающим без какого-либо опыта ^[62] в программировании, так и практикующим дата-сайентистам. Скажем, в ленте можно найти пост про тензерирование ^[63] с примерами конфигураций, кода и ссылками на репозитории. В другой публикации ^[64] рассказывают, как FP8-вычисления ^[65] могут ускорить обучение больших моделей на 27%. В рамках одного поста кратко описывают историю применения типов FP16 и BF16, какие преимущества и нюансы есть в FP8 и зачем нужен torch.compile ^[66].

Кроме конкретных примеров разработок, в канале можно встретить и подборки полезных ресурсов. Например, в этом посте ^[67] рекомендуют различные открытые руководства по дистилляции моделей. А здесь ^[68] можно найти интересные для себя проекты научных центров и лабораторий ИИ под крылом Университета ИТМО.

Могу порекомендовать еще один канал с подборками — ai_newz ^[69]. Для тех, кто не хочет тратить время на поиск новостей из мира ИИ. Автор каждую неделю готовит нейродайджест с ключевыми событиями за период. Они разбиты на темы — со ссылками и краткими обзорами

— Роман Ленц,@RLents ^[8], руководитель направления анализа данных и ML в ПГК

Приведем еще несколько Telegram-каналов, которые помогут подтянуть знания в сфере дата-сайенс и на которые есть смысл подписаться.

Прокачать хард-скиллы

Для этих целей подойдет канал Время Валеры ^[70]. Его ведет Валерий Бабушкин, автор книги «Machine Learning System Design ^[71]». Он рассказывает о системах искусственного интеллекта ^[72], делает выжимки ^[73] по курсам и лекциям, делится полезными ссылками — например, на датасеты ^[74], — а также собственными мыслями про state of the industry.

Еще один полезный ресурс — Нескучный Data Science ^[75], где публикуют образовательные материалы: статьи и видео. Отдельное внимание уделяется NLP — решениям задач по теме. Также на канале есть раздел, посвященный карьере и развитию в Data Science.

Если вас интересуют продукты на базе больших языковых моделей, обратите внимание на канал LLM под капотом ^[76]. Там разбирают важные новости и кейсы, автор также делится личным опытом и мнением: как OpenAI сэкономил ^[77] ему 8 часов работы и стоит ли раскрывать ^[78] секреты разработки LLM-систем.

Наконец, нельзя не отметить канал Анализ данных (Data analysis) ^[79] с полезными ресурсами и новостями — например, было про ризонинг-модель Magistral ^[80] и синтетический датасет ^[81] для беспилотных автомобилей от Nvidia.

Про генеративные системы

Data Secrets ^[82] — канал с обзорами и новостями из мира GenAI. Автор не только делится материалами, но и готовит свои разборы. Например, недавно он публиковал подробный конспект по большим языковым моделям с иллюстрациями и примерами.

Другой известный канал — Machinelearning ^[83], один из популярных по машинному обучению (почти 200 тыс. подписчиков). Его также рекомендует наш коллега Роман Ленц. Здесь публикуют новости из мира ИИ, анонсы мероприятий, хакатонов и обучающих курсов. Хотя сейчас основное внимание уделяется GenAI, в более ранних постах можно найти материалы по ML, компьютерному зрению и не только.

О системах ИИ и МО простыми словами

В канале AI для всех ^[84] — обзоры и пересказы научных статей, в том числе опубликованных на arxiv.org ^[85]. Например, один из последних материалов ^[86] был посвящен исследованию ученых из Национального университета Сингапура, которые попытались ответить на вопрос: «Могут ли LLM научиться думать?» (они разработали фреймворк Thinkless, позволяющий языковым моделям выбирать между кратким и развернутым рассуждением в зависимости от сложности задачи).

Игорь Акимов — автор канала AI Product | Igor Akimov ^[87] — публикует новости о главных событиях из мира LLM, «выжимки» с технологических конференций, а также собственные размышления о развитии ИИ-технологий и открытого ПО.

Автор: FreightOne

Источник ^[88]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/16630

URLs in this post:

[1] обучению: http://www.braintools.ru/article/5125

[2] блога: https://liorsinai.github.io/

[3] Лиор Синай: https://liorsinai.github.io/about/

[4] математике: http://www.braintools.ru/article/7620

[5] циклов статей: https://liorsinai.github.io/machine-learning/2024/03/23/transformers-gpt.html

[6] научной работы: https://web.archive.org/web/20210126024542/https:/cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

[7] Сиолошная: https://t.me/seeallochnaya

[8] @RLents: https://www.braintools.ru/users/rlents

[9] исходный код: https://github.com/LiorSinai/MicroGrad.jl

[10] первой части: https://liorsinai.github.io/machine-learning/2024/07/27/micrograd-1-chainrules.html

[11] второй: https://liorsinai.github.io/machine-learning/2024/08/03/micrograd-2-expr

[12] демонстрирует: https://liorsinai.github.io/machine-learning/2024/08/19/micrograd-5-mlp.html

[13] многослойного перцептрона: https://en.wikipedia.org/wiki/Multilayer_perceptron

[14] Moons: https://linux-blog.anracom.com/2019/06/30/the-moons-dataset-and-decision-surface-graphics-in-an-jupyter-environment-i/

[15] Эмилио Доригатти: https://e-dorigatti.github.io/about/

[16] блоге: https://e-dorigatti.github.io/

[17] обзоров: https://e-dorigatti.github.io/math/2019/08/20/xkcd_commentary_frequentists_vs_bayesians.html

[18] реализовать: https://e-dorigatti.github.io/deep%2520learning/python/math/development/2025/01/16/tenxor-computing-part-1.html

[19] статья: https://e-dorigatti.github.io/deep%2520learning/development/2024/03/20/lightning-large-dataset.html

[20] память: http://www.braintools.ru/article/4140

[21] статья: https://e-dorigatti.github.io/math/2023/11/01/queue-length.html

[22] блоге: https://www.alexmolas.com/blog.html

[23] принципу: https://www.alexmolas.com/2023/07/15/nobody-cares-about-your-blog.html

[24] есть бэкграунд: https://www.alexmolas.com/about.html

[25] обучение моделей: https://www.alexmolas.com/2022/04/15/tensorflow-with-big-tabular-datasets.html

[26] оптимизация: https://www.alexmolas.com/2025/01/15/ipynb-for-llm.html

[27] анализ: https://www.alexmolas.com/2023/08/12/chess-gender-gap.html

[28] зрения: http://www.braintools.ru/article/6238

[29] критика: https://www.alexmolas.com/2023/12/10/hate-mfa.html

[30] расчет: https://www.alexmolas.com/2023/08/18/how-far-can-you-jump.html

[31] репозитории: https://github.com/alexmolas/alexmolas.github.io/blob/master/notebooks/swing/swing.ipynb

[32] мнение: https://www.alexmolas.com/2024/06/21/leetcode-interviews.html

[33] мышление: http://www.braintools.ru/thinking

[34] что делает код хорошим: https://www.alexmolas.com/2024/06/06/good-code.html

[35] ресурсов: https://github.com/alexmolas/ml-blogs

[36] Learn and Burn: https://learnandburn.ai/archive

[37] обзор: https://learnandburn.ai/p/do-llms-rely-on-data-contamination

[38] загрязнению данных: https://blog.premai.io/llm-datasets-and-contamination/

[39] GSM-Symbolic: https://huggingface.co/datasets/apple/GSM-Symbolic

[40] GSM8K: https://huggingface.co/datasets/openai/gsm8k

[41] статья: https://learnandburn.ai/p/better-language-models-with-negative

[42] дифференциальный трансформер: https://ai.gonewsly.com/blog/language/en/microsoft-introduces-differential-transformer-for-enhanced-llms/

[43] собственный блог: https://tylerneylon.com/

[44] почитать: https://tylerneylon.com/a/randnn/

[45] LSH: https://ru.wikipedia.org/wiki/Locality-sensitive_hashing

[46] блоге: https://alexanderdyakonov.wordpress.com/

[47] Александра Дьяконова: https://alexanderdyakonov.wordpress.com/ag/

[48] Kaggle: https://ru.wikipedia.org/wiki/Kaggle

[49] статьи: https://alexanderdyakonov.wordpress.com/2021/12/30/gnn/

[50] материале: https://alexanderdyakonov.wordpress.com/2021/03/04/ml-scikit-learn/

[51] sklearn: https://en.wikipedia.org/wiki/Scikit-learn

[52] объемный сборник: https://github.com/Dyakonov/DL

[53] обращался: https://alexanderdyakonov.wordpress.com/2021/09/23/dl-esse/

[54] внимание: http://www.braintools.ru/article/7595

[55] Telegram-канал: https://t.me/smalldatascience

[56] книгой: https://github.com/Dyakonov/MLDM_BOOK?tab=readme-ov-file

[57] метрических алгоритмах: https://github.com/Dyakonov/MLDM_BOOK/blob/main/book_021_kNN_202413.pdf

[58] критериях: https://github.com/Dyakonov/MLDM_BOOK/blob/main/book_053_control_202309.pdf

[59] поиск аномалий: https://github.com/Dyakonov/MLDM_BOOK/blob/main/book_047_anomaly_06.pdf

[60] Telegram-канал: https://t.me/opendatascience

[61] Open Data Science: https://ods.ai/

[62] опыта: http://www.braintools.ru/article/6952

[63] тензерирование: https://t.me/opendatascience/2339?single

[64] публикации: https://t.me/opendatascience/2222

[65] FP8-вычисления: https://developer.nvidia.com/blog/floating-point-8-an-introduction-to-efficient-lower-precision-ai-training/

[66] torch.compile: https://docs.pytorch.org/docs/stable/generated/torch.compile.html

[67] посте: https://t.me/opendatascience/2195?single

[68] здесь: https://t.me/opendatascience/2149

[69] ai_newz: https://t.me/ai_newz

[70] Время Валеры: https://t.me/cryptovalerii

[71] Machine Learning System Design: https://www.manning.com/books/machine-learning-system-design

[72] интеллекта: http://www.braintools.ru/article/7605

[73] выжимки: https://t.me/cryptovalerii/774

[74] датасеты: https://t.me/cryptovalerii/781

[75] Нескучный Data Science: https://t.me/not_boring_ds

[76] LLM под капотом: https://t.me/llm_under_hood

[77] сэкономил: https://t.me/llm_under_hood/589

[78] раскрывать: https://t.me/llm_under_hood/570

[79] Анализ данных (Data analysis): https://t.me/data_analysis_ml

[80] ризонинг-модель Magistral: https://t.me/data_analysis_ml/3657

[81] синтетический датасет: https://t.me/data_analysis_ml/3661

[82] Data Secrets: https://t.me/data_secrets

[83] Machinelearning: https://t.me/ai_machinelearning_big_data

[84] AI для всех: https://t.me/nn_for_science

[85] arxiv.org: http://arxiv.org

[86] последних материалов: https://t.me/nn_for_science/2455

[87] AI Product | Igor Akimov: https://t.me/ai_product%2525D0%25259A

[88] Источник: https://habr.com/ru/companies/pgk/articles/921596/?utm_campaign=921596&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.