- BrainTools - https://www.braintools.ru -
Делимся блогами, посвященными машинному обучению [1] и data science. Материалы от практикующих дата-сайентистов, программистов, физиков и биоинформатиков будут интересны как начинающим, так и «прожженным» специалистам.
Автор блога [2] — Лиор Синай [3], инженер из Южной Африки, который пишет о математике [4], алгоритмах, языках программирования и ML-моделях. В статьях много примеров, что делает их полезными для студентов и начинающих разработчиков. Один из циклов статей [5] в блоге посвящен разработке генеративных трансформеров на языке Julia. Синай шаг за шагом объясняет, как обучить модель воспроизводить текст в стиле Шекспира, следуя методологии из научной работы [6] OpenAI о GPT-1. Он описывает подготовку датасета — очистку текстов от предисловий, аннотаций и лишних символов — и приводит код для обработки эмбеддингов. Часто автор сопровождает текст наглядными иллюстрациями.
Еще есть канал Игоря Котенкова — Сиолошная [7], где автор делится как обзорами на последние разработки в области (LLM), так и личным взглядом на область ИИ в целом. Также в блоге можно почитать о последних достижениях в космосе
— Роман Ленц,@RLents [8], руководитель направления анализа данных и ML в ПГК
Еще один интересный цикл — пять публикаций о разработке пакета для автоматического дифференцирования MicroGrad.jl [его исходный код [9] есть на GitHub]. В первой части [10] разбираются основы: градиентный спуск и теория оптимизации. Во второй [11] — реализация автоматического дифференцирования с использованием метапрограммирования. Цикл завершается тем, что Синай демонстрирует [12], как применять разработанный движок для построения многослойного перцептрона [13] и обучить его на наборе данных Moons [14]. С 2020 года вышло несколько десятков объемных статей — от тысячи слов и больше. Обычно за год инженер публикует три-четыре материала, но в целом — это один из тех блогов, которые можно положить в фид и проверять время от времени.
Эмилио Доригатти [15] — исследователь в области вычислительной иммунологии, работающий в крупной немецкой фармацевтической компании. В блоге [16] он пишет на более широкие темы, поэтому материалы будут интересны не только дата-сайентистам от мира медицины. Специалист ведет свой блог с 2019 года — начинал со своеобразных «обзоров [17]» комиксов xkcd с математическими выкладками.
В одном из свежих постов Доригатти объясняет, как реализовать [18] тензорную библиотеку с нуля: спроектировать набор функций для работы с многомерными массивами, включая базовые математические операции. В будущем он планирует развить эту тему, рассказав о реализации графовых нейросетей и операций транспонирования. Еще одна статья [19] посвящена обработке данных в PyTorch Lightning — техникам работы с датасетами, которые не помещаются в оперативную память [20].
Но иногда Доригатти пишет о математических задачах. Однажды инженер застрял в пробке на извилистой дороге — и в блоге появилась статья [21] о том, как оценить общее количество автомобилей и среднюю длину затора на бесконечной дороге. Сначала он привел аналитическое решение, а затем дополнил его симуляциями. Правда, материалы в блоге выходят нерегулярно: в 2024 году вышел всего один, а в 2023-м — одиннадцать.
Алекс Молас — испанский специалист по данным, разрабатывающий ML-системы для локальной платформы объявлений. В своем блоге [22] он делится знаниями о Data Science и ML, следуя принципу [23]: «Лучший способ что-то понять — попытаться объяснить это другим». Блог может быть интересен как начинающим, так и практикующим дата-сайентистам, ML-инженерам и даже ученым-физикам, ведь у Моласа есть бэкграунд [24] в этой области. Писать он начал в конце 2020 года, и с тех пор публикует около десятка материалов в год. Тексты получаются компактными (500–1500 слов), но емкими, с живым и понятным языком.
Темы варьируются от прикладных до неожиданных:
Практика: обучение моделей [25] TensorFlow, оптимизация [26] Jupyter-ноутбуков (с помощью bash-скрипта можно сократить их объем на 94%);
Аналитика: анализ [27] гендерного разрыва в шахматах с математической точки зрения [28], критика [29] многофакторной аутентификации;
Нестандартные задачи: расчет [30] максимально возможной длины прыжка с качелей — с применением физики и численных методов. Исходный код этого небольшого проекта можно посмотреть в репозитории [31].
Кому-то может быть интересно мнение [32] Моласа о Leetcode-интервью на технических собеседованиях. В частности, автор приводит несколько доводов в защиту подхода. Он считает, что такого рода задачи помогают оценить способность кандидатов находить решение нестандартных проблем и проверяют аналитическое мышление [33].
Есть в блоге и лаконичные эссе — например, о том, что делает код хорошим [34] (ключевой критерий — читаемость). А еще автор курирует подборку полезных, по его мнению, ресурсов [35] по ML, большинство из которых бесплатны и открыты для всех.
Каждую неделю на сайте научно-исследовательской платформы Learn and Burn [36] выходит одна-две статьи на самые разные темы в области систем ИИ и анализа данных. Например, недавно вышел обзор [37] вайтпейпера о том, насколько LLM могут быть подвержены загрязнению данных [38] при работе с GSM-Symbolic [39], GSM8K [40] и прочими датасетами. А в другой [37] публикации рассматривают эффективность статистического способа для выявления галлюцинаций в ответах систем ИИ. И еще пример — статья [41] о том, как дифференциальный трансформер [42] может оптимизировать поиск релевантной информации.
Кстати, куратор этой рассылки — инженер Тайлер Нейлон — ведет и собственный блог [43]. В нем можно почитать [44] о визуализации необученных, «сырых» нейронных сетей. Другая статья посвящена LSH [45]: как этот метод позволяет ускорить поиск информации, для каких типов данных он подходит и за что отвечают хеш-функции.
Почитать про data science и смежных областях на русском языке можно в профессиональном блоге [46] Александра Дьяконова [47]. Он руководитель направления наук о данных в Центральном университете и в 2012 году возглавлял топ Kaggle [48]. В блоге можно найти статьи [49] о разработке графовых нейронных сетей: какие есть проблемы, как эти трудности обходят, зачем нужно обобщение агрегации и так далее. А в материале [50], посвященном ML и библиотеке sklearn [51], Дьяконов демонстрирует, почему алгоритмы могут выдавать неверные вероятности, а результаты перекрестной проверки — различаться.
По материалам собственных лекций автор подготовил объемный сборник [52] о глубоком обучении. Для написания этой веб-книги он обращался [53] к записям, эссе и конспектам его аудитории. В ней можно изучить устройство нейронных сетей, а также способы борьбы с переобучением (мини-батчи, продвинутая оптимизация и другие).
Новые записи в блоге появляются нечасто, примерно раз в год. Поэтому советуем обратить внимание [54] на Telegram-канал [55] автора, где он рекомендует материалы и исследования примерно раз в две недели. Что интересно, сейчас Александр работает над открытой книгой [56] о машинном обучении и анализе данных. Уже доступны материалы о метрических алгоритмах [57] и их подтипах, о критериях [58] контроля качества и выбора моделей, также можно узнать про поиск аномалий [59]. Позже должны появиться подразделы, посвященные обработке данных, генерации и отбору признаков, а также визуализации и градиентному бустингу.
Новостной Telegram-канал [60], который курирует русскоязычное Data Science сообщество Open Data Science [61]. Ресурс по большей части является агрегатором статей. Публикации разнообразны не только по темам, но и по уровню сложности — подойдет как совсем начинающим без какого-либо опыта [62] в программировании, так и практикующим дата-сайентистам. Скажем, в ленте можно найти пост про тензерирование [63] с примерами конфигураций, кода и ссылками на репозитории. В другой публикации [64] рассказывают, как FP8-вычисления [65] могут ускорить обучение больших моделей на 27%. В рамках одного поста кратко описывают историю применения типов FP16 и BF16, какие преимущества и нюансы есть в FP8 и зачем нужен torch.compile [66].
Кроме конкретных примеров разработок, в канале можно встретить и подборки полезных ресурсов. Например, в этом посте [67] рекомендуют различные открытые руководства по дистилляции моделей. А здесь [68] можно найти интересные для себя проекты научных центров и лабораторий ИИ под крылом Университета ИТМО.
Могу порекомендовать еще один канал с подборками — ai_newz [69]. Для тех, кто не хочет тратить время на поиск новостей из мира ИИ. Автор каждую неделю готовит нейродайджест с ключевыми событиями за период. Они разбиты на темы — со ссылками и краткими обзорами
— Роман Ленц,@RLents [8], руководитель направления анализа данных и ML в ПГК
Приведем еще несколько Telegram-каналов, которые помогут подтянуть знания в сфере дата-сайенс и на которые есть смысл подписаться.
Для этих целей подойдет канал Время Валеры [70]. Его ведет Валерий Бабушкин, автор книги «Machine Learning System Design [71]». Он рассказывает о системах искусственного интеллекта [72], делает выжимки [73] по курсам и лекциям, делится полезными ссылками — например, на датасеты [74], — а также собственными мыслями про state of the industry.
Еще один полезный ресурс — Нескучный Data Science [75], где публикуют образовательные материалы: статьи и видео. Отдельное внимание уделяется NLP — решениям задач по теме. Также на канале есть раздел, посвященный карьере и развитию в Data Science.
Если вас интересуют продукты на базе больших языковых моделей, обратите внимание на канал LLM под капотом [76]. Там разбирают важные новости и кейсы, автор также делится личным опытом и мнением: как OpenAI сэкономил [77] ему 8 часов работы и стоит ли раскрывать [78] секреты разработки LLM-систем.
Наконец, нельзя не отметить канал Анализ данных (Data analysis) [79] с полезными ресурсами и новостями — например, было про ризонинг-модель Magistral [80] и синтетический датасет [81] для беспилотных автомобилей от Nvidia.
Data Secrets [82] — канал с обзорами и новостями из мира GenAI. Автор не только делится материалами, но и готовит свои разборы. Например, недавно он публиковал подробный конспект по большим языковым моделям с иллюстрациями и примерами.
Другой известный канал — Machinelearning [83], один из популярных по машинному обучению (почти 200 тыс. подписчиков). Его также рекомендует наш коллега Роман Ленц. Здесь публикуют новости из мира ИИ, анонсы мероприятий, хакатонов и обучающих курсов. Хотя сейчас основное внимание уделяется GenAI, в более ранних постах можно найти материалы по ML, компьютерному зрению и не только.
В канале AI для всех [84] — обзоры и пересказы научных статей, в том числе опубликованных на arxiv.org [85]. Например, один из последних материалов [86] был посвящен исследованию ученых из Национального университета Сингапура, которые попытались ответить на вопрос: «Могут ли LLM научиться думать?» (они разработали фреймворк Thinkless, позволяющий языковым моделям выбирать между кратким и развернутым рассуждением в зависимости от сложности задачи).
Игорь Акимов — автор канала AI Product | Igor Akimov [87] — публикует новости о главных событиях из мира LLM, «выжимки» с технологических конференций, а также собственные размышления о развитии ИИ-технологий и открытого ПО.
Автор: FreightOne
Источник [88]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/16630
URLs in this post:
[1] обучению: http://www.braintools.ru/article/5125
[2] блога: https://liorsinai.github.io/
[3] Лиор Синай: https://liorsinai.github.io/about/
[4] математике: http://www.braintools.ru/article/7620
[5] циклов статей: https://liorsinai.github.io/machine-learning/2024/03/23/transformers-gpt.html
[6] научной работы: https://web.archive.org/web/20210126024542/https:/cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
[7] Сиолошная: https://t.me/seeallochnaya
[8] @RLents: https://www.braintools.ru/users/rlents
[9] исходный код: https://github.com/LiorSinai/MicroGrad.jl
[10] первой части: https://liorsinai.github.io/machine-learning/2024/07/27/micrograd-1-chainrules.html
[11] второй: https://liorsinai.github.io/machine-learning/2024/08/03/micrograd-2-expr
[12] демонстрирует: https://liorsinai.github.io/machine-learning/2024/08/19/micrograd-5-mlp.html
[13] многослойного перцептрона: https://en.wikipedia.org/wiki/Multilayer_perceptron
[14] Moons: https://linux-blog.anracom.com/2019/06/30/the-moons-dataset-and-decision-surface-graphics-in-an-jupyter-environment-i/
[15] Эмилио Доригатти: https://e-dorigatti.github.io/about/
[16] блоге: https://e-dorigatti.github.io/
[17] обзоров: https://e-dorigatti.github.io/math/2019/08/20/xkcd_commentary_frequentists_vs_bayesians.html
[18] реализовать: https://e-dorigatti.github.io/deep%2520learning/python/math/development/2025/01/16/tenxor-computing-part-1.html
[19] статья: https://e-dorigatti.github.io/deep%2520learning/development/2024/03/20/lightning-large-dataset.html
[20] память: http://www.braintools.ru/article/4140
[21] статья: https://e-dorigatti.github.io/math/2023/11/01/queue-length.html
[22] блоге: https://www.alexmolas.com/blog.html
[23] принципу: https://www.alexmolas.com/2023/07/15/nobody-cares-about-your-blog.html
[24] есть бэкграунд: https://www.alexmolas.com/about.html
[25] обучение моделей: https://www.alexmolas.com/2022/04/15/tensorflow-with-big-tabular-datasets.html
[26] оптимизация: https://www.alexmolas.com/2025/01/15/ipynb-for-llm.html
[27] анализ: https://www.alexmolas.com/2023/08/12/chess-gender-gap.html
[28] зрения: http://www.braintools.ru/article/6238
[29] критика: https://www.alexmolas.com/2023/12/10/hate-mfa.html
[30] расчет: https://www.alexmolas.com/2023/08/18/how-far-can-you-jump.html
[31] репозитории: https://github.com/alexmolas/alexmolas.github.io/blob/master/notebooks/swing/swing.ipynb
[32] мнение: https://www.alexmolas.com/2024/06/21/leetcode-interviews.html
[33] мышление: http://www.braintools.ru/thinking
[34] что делает код хорошим: https://www.alexmolas.com/2024/06/06/good-code.html
[35] ресурсов: https://github.com/alexmolas/ml-blogs
[36] Learn and Burn: https://learnandburn.ai/archive
[37] обзор: https://learnandburn.ai/p/do-llms-rely-on-data-contamination
[38] загрязнению данных: https://blog.premai.io/llm-datasets-and-contamination/
[39] GSM-Symbolic: https://huggingface.co/datasets/apple/GSM-Symbolic
[40] GSM8K: https://huggingface.co/datasets/openai/gsm8k
[41] статья: https://learnandburn.ai/p/better-language-models-with-negative
[42] дифференциальный трансформер: https://ai.gonewsly.com/blog/language/en/microsoft-introduces-differential-transformer-for-enhanced-llms/
[43] собственный блог: https://tylerneylon.com/
[44] почитать: https://tylerneylon.com/a/randnn/
[45] LSH: https://ru.wikipedia.org/wiki/Locality-sensitive_hashing
[46] блоге: https://alexanderdyakonov.wordpress.com/
[47] Александра Дьяконова: https://alexanderdyakonov.wordpress.com/ag/
[48] Kaggle: https://ru.wikipedia.org/wiki/Kaggle
[49] статьи: https://alexanderdyakonov.wordpress.com/2021/12/30/gnn/
[50] материале: https://alexanderdyakonov.wordpress.com/2021/03/04/ml-scikit-learn/
[51] sklearn: https://en.wikipedia.org/wiki/Scikit-learn
[52] объемный сборник: https://github.com/Dyakonov/DL
[53] обращался: https://alexanderdyakonov.wordpress.com/2021/09/23/dl-esse/
[54] внимание: http://www.braintools.ru/article/7595
[55] Telegram-канал: https://t.me/smalldatascience
[56] книгой: https://github.com/Dyakonov/MLDM_BOOK?tab=readme-ov-file
[57] метрических алгоритмах: https://github.com/Dyakonov/MLDM_BOOK/blob/main/book_021_kNN_202413.pdf
[58] критериях: https://github.com/Dyakonov/MLDM_BOOK/blob/main/book_053_control_202309.pdf
[59] поиск аномалий: https://github.com/Dyakonov/MLDM_BOOK/blob/main/book_047_anomaly_06.pdf
[60] Telegram-канал: https://t.me/opendatascience
[61] Open Data Science: https://ods.ai/
[62] опыта: http://www.braintools.ru/article/6952
[63] тензерирование: https://t.me/opendatascience/2339?single
[64] публикации: https://t.me/opendatascience/2222
[65] FP8-вычисления: https://developer.nvidia.com/blog/floating-point-8-an-introduction-to-efficient-lower-precision-ai-training/
[66] torch.compile: https://docs.pytorch.org/docs/stable/generated/torch.compile.html
[67] посте: https://t.me/opendatascience/2195?single
[68] здесь: https://t.me/opendatascience/2149
[69] ai_newz: https://t.me/ai_newz
[70] Время Валеры: https://t.me/cryptovalerii
[71] Machine Learning System Design: https://www.manning.com/books/machine-learning-system-design
[72] интеллекта: http://www.braintools.ru/article/7605
[73] выжимки: https://t.me/cryptovalerii/774
[74] датасеты: https://t.me/cryptovalerii/781
[75] Нескучный Data Science: https://t.me/not_boring_ds
[76] LLM под капотом: https://t.me/llm_under_hood
[77] сэкономил: https://t.me/llm_under_hood/589
[78] раскрывать: https://t.me/llm_under_hood/570
[79] Анализ данных (Data analysis): https://t.me/data_analysis_ml
[80] ризонинг-модель Magistral: https://t.me/data_analysis_ml/3657
[81] синтетический датасет: https://t.me/data_analysis_ml/3661
[82] Data Secrets: https://t.me/data_secrets
[83] Machinelearning: https://t.me/ai_machinelearning_big_data
[84] AI для всех: https://t.me/nn_for_science
[85] arxiv.org: http://arxiv.org
[86] последних материалов: https://t.me/nn_for_science/2455
[87] AI Product | Igor Akimov: https://t.me/ai_product%2525D0%25259A
[88] Источник: https://habr.com/ru/companies/pgk/articles/921596/?utm_campaign=921596&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.