- BrainTools - https://www.braintools.ru -

Как кажется, основные читатели книги “Low-Code AI” — студенты ИТ-курсов или специалисты, желающие сменить область деятельности и освоить профессию дата-сайентиста или аналитика данных. На фоне большого разнообразия книг по машинному обучению [1] (ML), авторам Гвендолину Стриплингу (Gwendolyn Stripling) и Майклу Абелю (Michael Abel удалось написать компактное практическое руководство по освоению ML в стиле “Для новичков – лентяев”. Или вернее сказать, для тех, кому нравится Low-code программирование. Короче говоря, если вас интересует, с чего начать путь в ML — попробуйте начать его с этой книги.
***
Начну рецензию со ссылки на страницу книги “Машинное обучение с малым объемом кодирования: практическое введение в искусственный интеллект на основе проектов [2]” на сайте издательства БХВ. Перевод названия книги, на мой взгляд, не очень удачный и слишком длинный, т.к. термин Low-code знают все, кто хоть немного связан с ИТ. Напомню, на все книги по компьютерным технологиям от издательств «БХВ Петербург», «Alist» и «Фолиант» доступен промокод SSPSOFT на скидку 25% как подарок читателям Хабра от нашего блога.
В качестве предисловия следует сказать про портрет читателя, на которого рассчитана книга. Это в первую очередь будущий (слушатель курсов) или настоящий бизнес-пользователь ИИ-моделей, которого еще называют гражданским дата-сайентистом (citizen data scientist). Иногда термин citizen data scientist переводят как бизнес-разработчик моделей. Т.е. книга не пытается научить чему-то профессиональных дата-сайентистов (мидлов и сеньоров), которые обычно уже обладают серьезными знаниями в области статистики, программирования, машинного обучения и математического моделирования, а также часто имеют соответствующее образование и опыт [3] работы в этой сфере.
Гражданский дата-сайентист, в свою очередь, не обязательно имеет профильное ИТ-образование или специализацию в науке [4] о данных, но (в теории) способен использовать доступные инструменты и платформы (упомянутые в книге инструменты класса AutoML) для анализа данных и решения практических бизнес-задач. Короче говоря, для гражданских дата-сайентистов вендоры ПО в сфере ИИ делают акцент на применение упрощенных инструментов, которые позволяют быстро получить полезные инсайты даже без глубоких технических знаний.
Далеко не все разоаботчики и аналиики в ИТ-отрасли в восторге от Low-code/no-code инструментариев. Созданные на их основе решения для анализа данных позволяют бизнес-пользователям и гражданским исследователям относительно быстро создавать модели и получать результаты. Однако, это только для случая, когда такой гражданский исследователь данных в совершенстве владеет инструментом Low-code.
Иначе, если без навыков владения конкретным инструментом вот сесть и с нуля начать создавать ML-модель, то чаще всего получается не модель, а недоразумение. Т.к. автоматическая генерация кода часто приводит к запутанной и негибкой структуре, по которой профессиональные дата-сайентисты неохотно берутся в чем либо помогать и совсем не любят исправлять. Созданные Low-code модели могут работать непредсказуемо, а их доработка требует глубокого понимания внутренних механизмов их инструментария и рабочей логики, что зачастую оказывается невозможным из-за запутанности автоматически созданного кода.
Антагонизм между профессионалами в области машинного обучения и поставщиками low-code решений возник с тех пор, как последние стали предлагать компаниям избавляться от дорогостоящих разработчиков и дата-сайентистов, передавая выполнение задач бизнес-пользователям. Практика показала, что low-code решения имеют свою нишу и могут быть эффективны в определенных сценариях моделей с повторяющимися паттернами данных, однако качество этого продукта не может заменить совершенство анализа и точность, которые обеспечивают профессиональные специалисты data scientist.
Сразу надо сказать, что книга сосредоточена на экосистеме Google. Для того чтобы усвоить знания и попрактиковаться по материалам книги, читателю потребуется доступ к следующим инструментам:
Google Colab – бесплатный сервис Jupyter Notebook для выполнения кода на Python в облаке. Используется для обработки данных, анализа и обучения моделей.
Vertex AI AutoML – инструмент Google Cloud для обучения моделей машинного обучения без написания кода. Позволяет автоматизировать процесс построения ML-моделей.
BigQuery – облачная платформа Google для анализа данных и создания ML-моделей с использованием SQL. Подходит для работы с большими объемами данных.
Хотя книга сосредоточена на экосистеме Google, авторы рекомендуют читателям изучить другие платформы, а ссылки на дополнительную документацию приведены в тексте. В частности авторы называют облачные сервисы Microsoft Azure и AWS как альтернативы Google Cloud, предлагающие аналогичные инструменты: Jupyter Notebooks, AutoML и SQL-анализ данных.
Оглавление англоязычного издания [5] можно посмотреть на сайте O’Reilly. там же есть возможность посмотреть пробные фрагменты глав и купить книгу в электронном виде (к сожалению, только по картам иностранных банков). Русская версия книги на сайте БХВ, на ОЗОН и на других торговых площадках на момент выхода этой рецензии продается только в бумажном виде. Но дешевле всего брать книгу на сайте БХВ [2], там действует промокод SSPSOFT от нашего блога.
Далее давайте посмотрим на аннотации к каждой главе книги. Это не займет много вашего времени, т.к. книга довольно небольшого объема:
Эта глава вводит читателя в процесс создания ML-моделей и показывает, как данные становятся основой для принятия решений. Рассматриваются этапы работы с ML: от постановки бизнес-задачи и сбора данных до выбора модели и ее развертывания. Особое внимание [6] уделяется сравнению традиционного подхода с автоматизированными ML-решениями, включая low-code/no-code инструменты. Читатели узнают, какие факторы влияют на качество моделей и почему поддержка актуальности моделей критически важна в бизнесе.
В этой главе приводятся реальные примеры использования ML в различных отраслях — розничной торговле, здравоохранении, финансах, страховании, энергетике и телекоммуникациях. Рассматриваются основные типы данных, включая структурированные и неструктурированные, а также методы их обработки. Читатели познакомятся с популярными инструментами, такими как GitHub и Google Colab, и научатся использовать Pandas для импорта, анализа и валидации данных.
Глава посвящена обзору популярных ML-инструментов с упором на AutoML и low-code/no-code решения. Рассматриваются сервисы Google BigQuery ML, а также фреймворки, использующие SQL для машинного обучения. Подробно описаны библиотеки с открытым кодом, такие как AutoKeras, Auto-sklearn и Auto-PyTorch. Читатели узнают, какие инструменты лучше всего подходят для быстрого внедрения ML в бизнес-процессы.
Эта глава демонстрирует практическое применение AutoML для прогнозирования продаж на основе рекламных затрат. Описывается процесс работы с данными: их загрузка, анализ и визуализация с помощью Pandas, Matplotlib и Seaborn. Затем рассматривается обучение модели линейной регрессии без кодирования с помощью Vertex AI. Читатели научатся оценивать качество модели, анализировать важность признаков и использовать прогнозы для принятия бизнес-решений.
Пример из финансовой сферы: обнаружение мошенничества с помощью AutoML. В этой главе описывается процесс подготовки данных, включая анализ аномалий и использование методов разведочного анализа. Рассматриваются ключевые метрики для оценки моделей классификации, такие как точность, полнота и F1-мера. Читатели научатся настраивать AutoML для работы с задачами бинарной классификации.
Глава показывает, как использовать BigQuery ML для построения модели линейной регрессии на примере прогнозирования выработки [7] электроэнергии. Читатели познакомятся с типовыми SQL-запросами для загрузки, очистки и анализа данных. Рассматриваются методы оценки моделей, включая объяснимый искусственный интеллект [8] (Explainable AI), а также работа с нейронными сетями в BigQuery ML.
В этой главе рассматривается построение ML-моделей с пользовательским кодом. Пример бизнес-кейса — прогнозирование оттока клиентов. Описаны методы предобработки данных в Pandas, кодирование признаков и работа с библиотеками scikit-learn и Keras. Читатели узнают, как строить модели логистической регрессии и нейронные сети, а также познакомятся с ML-пайплайнами.
Глава посвящена методам оптимизации ML-моделей. Рассматриваются стратегии инжиниринга признаков, настройка гиперпараметров и регуляризация. Примеры приводятся для scikit-learn, Keras и BigQuery ML. Читатели узнают, как улучшить модели линейной регрессии и нейронных сетей, а также познакомятся с автоматической настройкой моделей в облачных сервисах.
Заключительная глава посвящена дальнейшему изучению AI и ML. Описаны работа с неструктурированными данными, обработка изображений и текста, генеративные модели и объяснимый AI. Также рассматриваются темы непрерывного обучения и оценки моделей, что важно для долгосрочного использования ML в бизнесе.
Хотя книга “Машинное обучение с малым объемом кодирования: практическое введение в искусственный интеллект на основе проектов [2]“ посвящена инструментам, позволяющим создавать модели машинного обучения с минимальным количеством кода, это вовсе не делает ее содержание простым. Авторы подробно рассматривают процессы работы с данными, использования AutoML и BigQuery ML, но для их практического освоения потребуется освоить облачные инструменты Low-code, проявить внимательность, терпение и иметь хотя бы базовое понимание анализа данных.
Особое внимание в книге уделено экосистеме Google Cloud, в которой разворачиваются все примеры и упражнения. Чтобы избежать сложностей при прохождении материала, рекомендуется предварительно ознакомиться с сервисами Google Colab, Vertex AI и BigQuery. Без этого освоение книги может оказаться затруднительным. Однако для тех, кто готов углубиться в тему, книги “Low-Code AI” (согласитесь, удобнее использовать англоязычное название) станет полезным практическим гидом по современным технологиям автоматизированного машинного обучения.
Немного HR-рекламы от нашего блога: мы занимаемся заказной разработкой ПО и будем рады резюме специалистов, готовых работать оффлайн в Москве и Томске, а также удаленно из любой точки России. Текущие вакансии на нашей странице на hh.ru [9]. Если вашей специальности нет в списке вакансий, не стесняйтесь прислать нам резюме — в SSP SOFT новые позиции открываются регулярно. Резюме можно направить в Telegram [10] или на почту job@ssp-soft.com [11].
Успехов в изучении и практическом освоении ML-моделей!
Автор: sergbe
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11855
URLs in this post:
[1] обучению: http://www.braintools.ru/article/5125
[2] Машинное обучение с малым объемом кодирования: практическое введение в искусственный интеллект на основе проектов: https://bhv.ru/product/mashinnoe-obuchenie-s-malym-obemom-kodirovaniya-prakticheskoe-vvedenie-v-iskusstvennyj-intellekt-na-osnove-proektov/
[3] опыт: http://www.braintools.ru/article/6952
[4] науке: http://www.braintools.ru/article/7634
[5] Оглавление англоязычного издания: https://www.oreilly.com/library/view/low-code-ai/9781098146818/
[6] внимание: http://www.braintools.ru/article/7595
[7] выработки: http://www.braintools.ru/article/5568
[8] интеллект: http://www.braintools.ru/article/7605
[9] нашей странице на hh.ru: https://hh.ru/employer/5648224
[10] Telegram: https://t.me/sspsoft
[11] job@ssp-soft.com: mailto:job@ssp-soft.com
[12] Источник: https://habr.com/ru/companies/ssp-soft/articles/879382/?utm_source=habrahabr&utm_medium=rss&utm_campaign=879382
Нажмите здесь для печати.