обработка данных. - страница 2

Эти пугающие производные, градиенты, матрицы Якоби и Гессе

В этой статье я поясню, как все эти принципы увязываются друг с другом, и покажу, для чего они могут применяться. Производные

продолжить чтение

Малые числа, большие возможности: Роль плавающей запятой в ИИ

Числа с плавающей запятой лежат в основе подавляющего большинства компьютерных вычислений, особенно в сферах искусственного интеллекта (ИИ) и машинного обучения. Они позволяют моделям эффективно обрабатывать данные, обеспечивая баланс между точностью и скоростью вычислений. Развитие вычислительных технологий требует новых форматов, которые оптимизируют использование памяти и ускоряют вычислительные процессы без значительных потерь точности. Одним из перспективных форматов стал FP8 — 8-битный формат чисел с плавающей запятой, который может улучшить производительность вычислений и сократить энергопотребление.

продолжить чтение

Решил перейти на Python и не пожалел

С полгода назад я начал чаще использовать для программирования Python. Почему? Конечно, из-за ИИ. Лично для меня очевидно, что сегодня эта сфера связана с очень большими деньгами

продолжить чтение

«Эра Flink 2.0»: что реально меняется в архитектуре real‑time вычислений

АннотацияApache Flink 2.0 — первый мажорный релиз после 1.0 (2016), закрывающий многолетний цикл эволюции архитектуры и устраняющий накопленные болевые точки масштабирования потоковых платформ: усложняющуюся конфигурацию, ограниченность локального состояния, разрыв между batch и streaming, устаревшие API и операционную стоимость при росте AI/real‑time сценариев. В команде BitDive мы уже используем Flink 2.0 для низколатентной обработки потоковых метрик и трассировок (агрегация, выделение аномалий) — это позволило ускорить recovery и снизить стоимость вычислений по сравнению с линией 1.20.x. 1. Контекст индустрии и мотивация

продолжить чтение

Как мы построили свой инструмент для работы с LLM

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ?Data Studio

продолжить чтение

Apache Flink для начинающих: архитектура, библиотеки и применение

Apache Flink — это фреймворк и распределенный движок обработки данных, поддерживающий какпакетную (ограниченную), так и потоковую (неограниченную)обработку данных. Это значит, что с его помощью можно обрабатывать как статичные (неизменяемые) данные, так и данные, поступающие в реальном времени.Он работает как в одной, так и в различных кластерных средах, когда задачи распределены между несколькими машинами. Подобным образом работает и MapReduce, который в отличие от Flink ограничен пакетной обработкой данных. Архитектура и основные компоненты Apache FlinkКак мы уже знаем, Apache Flink

продолжить чтение

Переходим от legacy к построению Feature Store

Невероятная история о том, как внедрить систему Feature Store в проект с огромным legacy и получить профит.Привет, Хабр! Меня зовут Евгений Дащенко, я из компании Домклик, которая решает все вопросы, связанные с недвижимостью, включая оценку стоимости недвижимости любого типа. Это статья по мотивам моего доклада на конференции Highload++ про интерфейс между данными и ML-моделями Feature Store: как мы сделали его с нашей командой, каких результатов добились и с какими подводными камнями столкнулись на пути.

продолжить чтение

Проектируем собственную inhouse Feature Platform

Всем хорошего дня! На связи с вами Домклик #MLOps, и эта статья будет полезна тем, кто интересуется построением внутренней платформы. Меня зовут Алина Баймашева, я руководитель разработки ML-команд, недавно выступила с докладом на конференции HighLoad++ 2024, а теперь подготовила статью по мотивам доклада. Поэтому если вы пропустили доклад, то можно почитать статью. В ней отражены как общие концепции построения подобных платформ, так и возможности практического применения.

продолжить чтение

Бьем автоматизацией по ручной работе с данными: как мы избавились от рутины с ML-моделями

продолжить чтение

Учёные Калифорнийского технологического института измерили скорость человеческого мышления

Исследователи Калифорнийского технологического института определили скорость человеческого мышления: 10 бит в секунду. Однако сенсорные системы нашего организма собирают данные об окружающей среде со скоростью миллиард бит в секунду, что в 100 миллионов раз быстрее, чем наши мыслительные процессы. Новое исследование открывает перед нейробиологами новые широкие возможности для изучения, в частности: почему мы можем думать только об одной вещи за раз, в то время как наши сенсорные системы обрабатывают тысячи бит входных данных одновременно?

продолжить чтение