machine learning. - страница 5

Cryfish: Как научить большую языковую модель слышать и понимать звуки?

В мире искусственного интеллекта господствуют большие языковые модели (LLM, large language models). GPT и ее аналоги прекрасно справляются с написанием текстов, кода и генерацией картинок. Но что насчёт звука? Умение слушать и понимать аудио — это следующий логический шаг на пути к многомодальным системам.Сегодня мы расскажем вам о Cryfish — модели на основе LLM, которая не только читает, но и слышит. Мы разберём, как заставить LLM понимать речь, музыку, эмоции и бытовые шумы, и расскажем о сложностях, с которыми столкнулись при обучении.

продолжить чтение

Нужно ли аналитику данных машинное обучение — и как его освоить

Нужно ли аналитику машинное обучение? Ответ неоднозначный: всё зависит от места работы и планов в профессии.Меня зовут Раф, я аналитик ценообразования в Авито (а раньше в Яндекс Лавке), преподаватель машинного обучения в Центральном университете, выпускник факультета компьютерных наук в НИУ ВШЭ и курса «Специалист по Data Science» в Яндекс Практикуме. В этой заметке я расскажу, зачем аналитику машинное обучение, когда без него можно обойтись и как его освоить, если этого потребуют задачи.

продолжить чтение

AI Routing Lab: машинное обучение для оптимизации сетевых маршрутов

Статья подготовлена в рамках исследовательского проекта CloudBridge Research, посвященного применению ML для оптимизации сетевых протоколов.Проект: github.com/twogc/ai-routing-labВы, возможно, помните наши предыдущие статьи, где мы рассказывали, как выжимали максимум из сетевых протоколов (BBRv3, FEC и QUIC) и строили инструменты для их тестирования (quic-test).Мы долго бились над тем, чтобы ускорить передачу данных на одном

продолжить чтение

Как я собрал и подготовил датасет дефектов печатных плат для обучения моделей YOLO

Когда пришло время выбирать тему диплома, я, как и многие студенты, понятия не имел, о чём писать. После мозгового штурма с одногруппниками родилась идея, которая из простого «варианта для защиты» превратилась в полноценный инженерный проект: «исследование и разработка системы автоматического распознавания дефектов печатных плат». Со временем я понял, что выбрал тему не случайно - это реально актуальная задача для производства, где качество пайки напрямую влияет на работоспособность устройств, а ещё отличный шанс пройти весь цикл Computer Vision проекта от сбора данных до обучения моделей.

продолжить чтение

AI-инструменты 2025: Полный технический анализ Perplexity, ChatGPT, Gemini и DeepSeek

🎯 Резюме: Кто лучше?ИнструментОценкаСильная сторонаPerplexity AI4.20/5Точность + RAG архитектураChatGPT3.85/5MoE + GPT-4o мультимодальностьDeepSeek3.75/5MoE эффективность + бесплатноGemini3.35/5Контекст 1M + видео обработка

продолжить чтение

Профессия ML-инженер: как кошка съела акулу и почему ИИ должен дружить с БД

В любой крупной компании данных всегда больше, чем понимания, что с ними делать. Они лежат в базах, логах, документах — огромный слабоструктурированный ресурс. Идея о том, что можно научить машину находить в этом хаосе полезные паттерны, когда-то казалась фантастикой, а сегодня это работа руководителя отдела машинного обучения Postgres Professional Савелия Батурина. Вместе с коллегами он на практике связывает мощь языковых моделей с СУБД, чтобы извлекать из данных реальную пользу, рассказывать, по каким граблям для этого пришлось пройти. 

продолжить чтение

Momentum Attention: когда внимание получает инерцию

В классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.Внимание распределяется мгновенно:Именно этот механизм сделал трансформеры тем, чем они стали.Но вот в чём проблема - внимание не имеет памяти.

продолжить чтение

Умный Learning Rate Scheduler: Управляем скоростью обучения, анализируя ускорение

Мы привыкли использовать ReduceLROnPlateau если val_loss не улучшается N эпох подряд - режем learning_rate. Это работает. Мы ждем, пока обучение врежется в стену, и только потом реагируем.А что, если мы могли бы увидеть эту стену заранее? Что, если бы мы могли сбросить скорость плавно, еще на подходе к плато, и снова нажать на газ, если впереди откроется новый спуск?Я хочу поделиться концепцией умного LR шедулера, который управляет скоростью обучения, анализируя не сам loss, а скорость его изменения.Проблема ReduceLROnPlateau: Мы реагируем на симптом, а не на причину

продолжить чтение

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

продолжить чтение

Что «под капотом» у DeepSeek-V3.2-Exp? Китайцы нашли способ удешевить нейросети

У китайцев вышла новинка — DeepSeek-V3.2-Exp, экспериментальная версия последней модели DeepSeek-V3.1-Terminus. Цели и задачи у них вполне определенные: сделать архитектуру трансформеров еще более эффективной. Причем на сайте Hugging Face говорится, что особый акцент стартап делает на повышение вычислительной эффективности при обработке длинных текстовых последовательностей. Привет, Хабр! Китай снова выпустил кое-что интересное, так что давайте разбираться. Что там интересного 

продолжить чтение

1...345678...15
Rambler's Top100