Прокачаться в data science: блоги и каналы. data science.. data science. анализ данных.. data science. анализ данных. пгк.. data science. анализ данных. пгк. первая грузовая компания.. data science. анализ данных. пгк. первая грузовая компания. полезные ресурсы.

Делимся блогами, посвященными машинному обучению и data science. Материалы от практикующих дата-сайентистов, программистов, физиков и биоинформатиков будут интересны как начинающим, так и «прожженным» специалистам.

Фотография Claudio Schwarz / Unsplash
Фотография Claudio Schwarz / Unsplash

Лонгриды о машинном обучении

Автор блогаЛиор Синай, инженер из Южной Африки, который пишет о математике, алгоритмах, языках программирования и ML-моделях. В статьях много примеров, что делает их полезными для студентов и начинающих разработчиков. Один из циклов статей в блоге посвящен разработке генеративных трансформеров на языке Julia. Синай шаг за шагом объясняет, как обучить модель воспроизводить текст в стиле Шекспира, следуя методологии из научной работы OpenAI о GPT-1. Он описывает подготовку датасета — очистку текстов от предисловий, аннотаций и лишних символов — и приводит код для обработки эмбеддингов. Часто автор сопровождает текст наглядными иллюстрациями.

Еще есть канал Игоря Котенкова — Сиолошная, где автор делится как обзорами на последние разработки в области (LLM), так и личным взглядом на область ИИ в целом. Также в блоге можно почитать о последних достижениях в космосе

— Роман Ленц,@RLents, руководитель направления анализа данных и ML в ПГК

Еще один интересный цикл — пять публикаций о разработке пакета для автоматического дифференцирования MicroGrad.jl [его исходный код есть на GitHub]. В первой части разбираются основы: градиентный спуск и теория оптимизации. Во второй — реализация автоматического дифференцирования с использованием метапрограммирования. Цикл завершается тем, что Синай демонстрирует, как применять разработанный движок для построения многослойного перцептрона и обучить его на наборе данных Moons. С 2020 года вышло несколько десятков объемных статей — от тысячи слов и больше. Обычно за год инженер публикует три-четыре материала, но в целом — это один из тех блогов, которые можно положить в фид и проверять время от времени.

Заметки программиста-математика

Эмилио Доригатти — исследователь в области вычислительной иммунологии, работающий в крупной немецкой фармацевтической компании. В блоге он пишет на более широкие темы, поэтому материалы будут интересны не только дата-сайентистам от мира медицины. Специалист ведет свой блог с 2019 года — начинал со своеобразных «обзоров» комиксов xkcd с математическими выкладками.

В одном из свежих постов Доригатти объясняет, как реализовать тензорную библиотеку с нуля: спроектировать набор функций для работы с многомерными массивами, включая базовые математические операции. В будущем он планирует развить эту тему, рассказав о реализации графовых нейросетей и операций транспонирования. Еще одна статья посвящена обработке данных в PyTorch Lightning — техникам работы с датасетами, которые не помещаются в оперативную память

Но иногда Доригатти пишет о математических задачах. Однажды инженер застрял в пробке на извилистой дороге — и в блоге появилась статья о том, как оценить общее количество автомобилей и среднюю длину затора на бесконечной дороге. Сначала он привел аналитическое решение, а затем дополнил его симуляциями. Правда, материалы в блоге выходят нерегулярно: в 2024 году вышел всего один, а в 2023-м — одиннадцать.

Физик и дата-сайентист делится опытом

Алекс Молас — испанский специалист по данным, разрабатывающий ML-системы для локальной платформы объявлений. В своем блоге он делится знаниями о Data Science и ML, следуя принципу: «Лучший способ что-то понять — попытаться объяснить это другим». Блог может быть интересен как начинающим, так и практикующим дата-сайентистам, ML-инженерам и даже ученым-физикам, ведь у Моласа есть бэкграунд в этой области. Писать он начал в конце 2020 года, и с тех пор публикует около десятка материалов в год. Тексты получаются компактными (500–1500 слов), но емкими, с живым и понятным языком.

Темы варьируются от прикладных до неожиданных:

  • Практика: обучение моделей TensorFlow, оптимизация Jupyter-ноутбуков (с помощью bash-скрипта можно сократить их объем на 94%);

  • Аналитика: анализ гендерного разрыва в шахматах с математической точки зрения, критика многофакторной аутентификации;

  • Нестандартные задачи: расчет максимально возможной длины прыжка с качелей — с применением физики и численных методов. Исходный код этого небольшого проекта можно посмотреть в репозитории.

Кому-то может быть интересно мнение Моласа о Leetcode-интервью на технических собеседованиях. В частности, автор приводит несколько доводов в защиту подхода. Он считает, что такого рода задачи помогают оценить способность кандидатов находить решение нестандартных проблем и проверяют аналитическое мышление.

Есть в блоге и лаконичные эссе — например, о том, что делает код хорошим (ключевой критерий — читаемость). А еще автор курирует подборку полезных, по его мнению, ресурсов по ML, большинство из которых бесплатны и открыты для всех.

Актуальные статьи про нейросети

Каждую неделю на сайте научно-исследовательской платформы Learn and Burn выходит одна-две статьи на самые разные темы в области систем ИИ и анализа данных. Например, недавно вышел обзор вайтпейпера о том, насколько LLM могут быть подвержены загрязнению данных при работе с GSM-Symbolic, GSM8K и прочими датасетами. А в другой публикации рассматривают эффективность статистического способа для выявления галлюцинаций в ответах систем ИИ. И еще пример — статья о том, как дифференциальный трансформер может оптимизировать поиск релевантной информации.

Кстати, куратор этой рассылки — инженер Тайлер Нейлон — ведет и собственный блог. В нем можно почитать о визуализации необученных, «сырых» нейронных сетей. Другая статья посвящена LSH: как этот метод позволяет ускорить поиск информации, для каких типов данных он подходит и за что отвечают хеш-функции.

Разбор алгоритмов от преподавателя

Почитать про data science и смежных областях на русском языке можно в профессиональном блоге Александра Дьяконова. Он руководитель направления наук о данных в Центральном университете и в 2012 году возглавлял топ Kaggle. В блоге можно найти статьи о разработке графовых нейронных сетей: какие есть проблемы, как эти трудности обходят, зачем нужно обобщение агрегации и так далее. А в материале, посвященном ML и библиотеке sklearn, Дьяконов демонстрирует, почему алгоритмы могут выдавать неверные вероятности, а результаты перекрестной проверки — различаться.

По материалам собственных лекций автор подготовил объемный сборник о глубоком обучении. Для написания этой веб-книги он обращался к записям, эссе и конспектам его аудитории. В ней можно изучить устройство нейронных сетей, а также способы борьбы с переобучением (мини-батчи, продвинутая оптимизация и другие).

Новые записи в блоге появляются нечасто, примерно раз в год. Поэтому советуем обратить внимание на Telegram-канал автора, где он рекомендует материалы и исследования примерно раз в две недели. Что интересно, сейчас Александр работает над открытой книгой о машинном обучении и анализе данных. Уже доступны материалы о метрических алгоритмах и их подтипах, о критериях контроля качества и выбора моделей, также можно узнать про поиск аномалий. Позже должны появиться подразделы, посвященные обработке данных, генерации и отбору признаков, а также визуализации и градиентному бустингу.

Telegram-канал Open Data Science

Новостной Telegram-канал, который курирует русскоязычное Data Science сообщество Open Data Science. Ресурс по большей части является агрегатором статей. Публикации разнообразны не только по темам, но и по уровню сложности — подойдет как совсем начинающим без какого-либо опыта в программировании, так и практикующим дата-сайентистам. Скажем, в ленте можно найти пост про тензерирование с примерами конфигураций, кода и ссылками на репозитории. В другой публикации рассказывают, как FP8-вычисления могут ускорить обучение больших моделей на 27%. В рамках одного поста кратко описывают историю применения типов FP16 и BF16, какие преимущества и нюансы есть в FP8 и зачем нужен torch.compile.

Кроме конкретных примеров разработок, в канале можно встретить и подборки полезных ресурсов. Например, в этом посте рекомендуют различные открытые руководства по дистилляции моделей. А здесь можно найти интересные для себя проекты научных центров и лабораторий ИИ под крылом Университета ИТМО.

Могу порекомендовать еще один канал с подборками — ai_newz. Для тех, кто не хочет тратить время на поиск новостей из мира ИИ. Автор каждую неделю готовит нейродайджест с ключевыми событиями за период. Они разбиты на темы — со ссылками и краткими обзорами

— Роман Ленц,@RLents, руководитель направления анализа данных и ML в ПГК

Приведем еще несколько Telegram-каналов, которые помогут подтянуть знания в сфере дата-сайенс и на которые есть смысл подписаться.

Прокачать хард-скиллы

Для этих целей подойдет канал Время Валеры. Его ведет Валерий Бабушкин, автор книги «Machine Learning System Design». Он рассказывает о системах искусственного интеллекта, делает выжимки по курсам и лекциям, делится полезными ссылками — например, на датасеты, — а также собственными мыслями про state of the industry.

Еще один полезный ресурс — Нескучный Data Science, где публикуют образовательные материалы: статьи и видео. Отдельное внимание уделяется NLP — решениям задач по теме. Также на канале есть раздел, посвященный карьере и развитию в Data Science.

Если вас интересуют продукты на базе больших языковых моделей, обратите внимание на канал LLM под капотом. Там разбирают важные новости и кейсы, автор также делится личным опытом и мнением: как OpenAI сэкономил ему 8 часов работы и стоит ли раскрывать секреты разработки LLM-систем.

Наконец, нельзя не отметить канал Анализ данных (Data analysis) с полезными ресурсами и новостями — например, было про ризонинг-модель Magistral и синтетический датасет для беспилотных автомобилей от Nvidia.

Про генеративные системы

Data Secrets — канал с обзорами и новостями из мира GenAI. Автор не только делится материалами, но и готовит свои разборы. Например, недавно он публиковал подробный конспект по большим языковым моделям с иллюстрациями и примерами.

Другой известный канал — Machinelearning, один из популярных по машинному обучению (почти 200 тыс. подписчиков). Его также рекомендует наш коллега Роман Ленц. Здесь публикуют новости из мира ИИ, анонсы мероприятий, хакатонов и обучающих курсов. Хотя сейчас основное внимание уделяется GenAI, в более ранних постах можно найти материалы по ML, компьютерному зрению и не только.

О системах ИИ и МО простыми словами

В канале AI для всех — обзоры и пересказы научных статей, в том числе опубликованных на arxiv.org. Например, один из последних материалов был посвящен исследованию ученых из Национального университета Сингапура, которые попытались ответить на вопрос: «Могут ли LLM научиться думать?» (они разработали фреймворк Thinkless, позволяющий языковым моделям выбирать между кратким и развернутым рассуждением в зависимости от сложности задачи).

Игорь Акимов — автор канала AI Product | Igor Akimov — публикует новости о главных событиях из мира LLM, «выжимки» с технологических конференций, а также собственные размышления о развитии ИИ-технологий и открытого ПО.

Автор: FreightOne

Источник

Rambler's Top100