Big Data.

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

На прошлой неделе NVIDIA выложила отчёт про QAD и я его проигнорировал. Потому что каждый месяц кто-то "решает квантизацию" и каждый раз на практике всё не так радужно.Но потом коллега скинул табличку с AIME и я залип.Контекст такой. У нас на проде крутится модель на FP8, всё более-менее ок, но менеджмент хочет запихнуть 49B модель туда, где сейчас живёт 20B. Потому что "ну там же Blackwell, там же FP4, давайте". Я месяц назад попробовал наивно квантизовать в 4 бита — модель начала нести пургу на математике. Не сильно, но заметно. Закрыл тему, сказал что FP4 не готов.И тут этот отчёт.Что вообще происходит

продолжить чтение

Оставлено в

Как устроена архитектура факторов ранжирования в runtime поиска Ozon

Привет, Хабр! Меня зовут Лев. Я работаю в поиске Ozon. Сегодня я буду рассказывать про одну из составляющих поиска, а именно про ранжирование.В этой статье расскажу:

продолжить чтение

Оставлено в

Query Prediction, или как мы отказались от ANN и полюбили обратный индекс

продолжить чтение

Оставлено в

Доматчинг товаров с использованием LLM: от промптов до квантизации

Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Наша команда решает задачи поиска, группировки и сопоставления товаров с помощью алгоритмов машинного обучения. Все это необходимо для развития и улучшения бизнес-процессов в компании, а именно быстрого заведения карточек товаров, мониторинга цен на товары и развития ML. В этой статье мы расскажем про доматчинг – сравнение сложных пар товаров, которые отобрали на предыдущем этапе пайплайна, с помощью LLM. Поехали!

продолжить чтение

Оставлено в

Роль хранилищ и платформ данных в развитии ИИ

продолжить чтение

Оставлено в

Как создать чат-бота с LLM?

Это уже четвертая часть статей по разработке AGI, и в предыдущих частях мы обсуждали теоретические и философские аспекты тех или иных вопросов, с ними всегда можно ознакомиться здесь. Сегодня же речь пойдёт о практике.Что получилось в иогеА зачем?

продолжить чтение

Оставлено в

Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

Привет! Меня зовут Владимир Суворов, я Senior Data Scientist в Страховом Доме ВСК и core-разработчик нашей библиотеки машинного обучения OutBoxML. Ссылки на наш проект на

продолжить чтение

Оставлено в

Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

продолжить чтение

Оставлено в

Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива

Привет, Хабр! Мой путь в мире IT официально начался относительно недавно: в октябре 2025 года. До этого программирование вообще не выходило за рамки увлечений. Но однажды я решил испытать удачу и выйти на тропу приключений, после которой я уже не вернулся прежним...

продолжить чтение

Оставлено в

Ускорение разработки с ИИ на примере DAX и Power BI

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Big Data.

QAD от NVIDIA: разбираюсь, почему 4-битная квантизация перестала всё ломать

Как устроена архитектура факторов ранжирования в runtime поиска Ozon

Query Prediction, или как мы отказались от ANN и полюбили обратный индекс

Доматчинг товаров с использованием LLM: от промптов до квантизации

Роль хранилищ и платформ данных в развитии ИИ

Как создать чат-бота с LLM?

Автоматизированные системы мониторинга моделей машинного обучения с помощью нашего open source фреймворка

Как мы сделали гибридный AI-поиск по смыслу книг: двухконтурная архитектура и семантическое ранжирование

Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива

Ускорение разработки с ИИ на примере DAX и Power BI

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Big Data.