Машинное обучение. - страница 413

Всё как в жизни. Адаптация систем распознавания жестовых языков к реальным условиям

Всем привет! Ранее мы уже писали о том, как собрали самый большой и разнородный открытый датасет

продолжить чтение

ЦОДы, GPU, NVIDIA A16, охлаждение: о серьезных вещах простым языком

Добрый день, дорогой читатель. Меня зовут Селезнев Павел, я инженер второй линии поддержки в облачном провайдере Nubes. С каждой новой статьёй я расту в должности, поэтому пишу ещё одну :)Несколько месяцев назад нам с коллегой поставили задачу: провести сравнительные тесты, чтобы проверить, насколько сильно разогреется видеокарта под нагрузкой при использовании воздуха и диэлектрической жидкости.Об этих тестах я и расскажу в статье, которая должна пролить свет на жизнь GPU в ЦОДе.Предисловие

продолжить чтение

Apple будет анализировать данные на устройствах для улучшения обучения ИИ

Apple опубликовала статью, посвящённую новому подходу в обучении Apple Intelligence. Если ранее компания использовала синтетические данные для обучения ИИ, то теперь она начнёт применять аналитику от пользователей.

продолжить чтение

Apple улучшает модели ИИ без доступа к личным данным пользователей

Apple заявляет, что нашла способ улучшить свои модели искусственного интеллекта, не обучая их на данных пользователей и даже не копируя их с их iPhone и Mac. В сообщении в блоге, впервые опубликованном агентством Bloomberg, компания рассказала о своих планах по сравнению синтетического набора данных с образцами недавних электронных писем или сообщений пользователей, которые присоединились к программе Device Analytics.

продолжить чтение

Вайб-кодинг: практика, о которой почему-то не говорят

В феврале мир разработки перевернулся с выходом Sonnet 3.7. Потому что вдруг внезапно оказалось, что джуны уже не очень-то и нужны. И нейросетка нормально заменяет мидлов тоже. Я откидываюсь в кресле, беру наушники и смотрю, как работает LLM. Можно сразу несколько, работающих над разными частями проекта: Пример проекта с прикручиванием аналитики к инфраструктуре: Сначала в GPT 4.5 провёл продуктовые исследования и сформулировал требования. Попросил превратить это в архитектурный план. Отревьюил, поправил тупые ошибки. Затем этот план (как метапромпт) скормил Sonnet в VS Code через плагин Cline. Попросил сначала создать общую структуру, шаблонные имплементации, документацию, спецификации API (protobuf для gRPC, REST API). Архитектурно сразу заложил микросервисы. Sonnet для каждого сервиса подобрал и обосновал оптимальную базу данных (где-то Postgres, где-то ClickHouse и т.д.). Сгенерировал SDK для взаимодействия, примеры использования. Сразу заложил observability: централизованные логи, метрики Prometheus, трейсинг Jaeger/Tempo, дашборды для Grafana. Потом итерационно генерировал код: сначала тесты (End-to-end, BDD), потом имплементацию под эти тесты. Написал манифесты для Kubernetes и Docker Compose для локального запуска. Сгенерировал даже скрипты для тестов REST API через curl и gRPC через gRPCurl. И всё. А теперь практика — что делать с тем, что современные нейросети учились преимущественно на говнокоде и как быть с джунами.

продолжить чтение

ChatGPT-4.1: Революционный скачок в программировании и обработке длинного контекста

Компания OpenAI представила новое семейство моделей GPT-4.1 с впечатляющими улучшениями в области программирования, следования инструкциям и работы с длинным контекстом. Рассмотрим ключевые особенности новинок и их преимущества для разработчиков.P.S кратко написал об этом в Телеграм канале, cсылка на постТри модели для разных задачOpenAI выпустила сразу три модели: флагманскую GPT-4.1, более компактную GPT-4.1 mini и сверхлегкую GPT-4.1 nano

продолжить чтение

Организация ML-проекта с примерами

На Github существует множество ML-проектов. Большинство из них предоставляют скрипты для обучения, тестирования, вывода моделей. Но почти все они организованы по-разному. Иногда неясно, как запустить этап конвейера, как подготовить данные или какие модели используются для предсказаний. Более того, когда разработчик заглядывает в чужой проект, он тратит много времени на то, чтобы разобраться в структуре.В этом посте я расскажу о шаблоне ML-проекта на основе CookieCutter на примере задачи классификации. Но вообще такой шаблон может быть использован для решения множества других ML-задач.

продолжить чтение

HIGGS: Новый алгоритм квантования нейросетей

С развитием LLM, более актуальной становится проблема сокращения вычислительных затрат. Одним из самых эффективных решений является квантование - представление параметров модели в низкой точности (например, 4 бита вместо 32). Однако существующие методы квантования страдают от отсутствия строгого теоретического обоснования и оптимальности. HIGGS - новый подход, который решает эти проблемы, основываясь на доказанной авторами теореме линейности.Статья на arXivHuggingFaceЧто такое квантование и почему оно важно?

продолжить чтение

Llama 4 плоха во всём

Выпущенные в прошлую субботу Llama Scout (17 миллиардов активных параметров, 16 экспертов, 109 миллиардов параметров суммарно) и Llama Maverick (17 миллиардов активных параметров, 128 экспертов, 400 миллиардов параметров суммарно) выглядят крайне разочаровывающе. Они разочаровывают настолько, что пользователи даже предполагают причиной неправильную конфигурацию; они задаются вопросами и спорят о том, насколько сильно манипулировали бенчмарками.

продолжить чтение

BrowseComp: новый тест для ИИ-агентов по поиску информации в интернете от OpenAI

BrowseComp

продолжить чтение