Развертывание нейросетевых моделей в production-среде — критически важный этап ML-пайплайна. Когда речь заходит о встраивании в C++ приложения (будь то высоконагруженные сервисы, desktop-софт или встраиваемые системы), выбор инструментария сужается. Прямое использование фреймворков вроде PyTorch или TensorFlow часто избыточно и приводит к зависимостям, сложностям сборки и излишнему потреблению памяти.ONNX Runtime (ORT)

Оставлено в

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

продолжить чтение

Оставлено в

Self-RAG: LLM сама выбирает, когда ей нужен контекст

Привет, чемпионы! Сегодня как никогда актуальны методы улучшения LLM-ассистентов, особенно для бизнес-интеграции. Поделюсь опытом внедрения технологии Self-RAG, её плюсами, минусами и реализацией кастомного модуля на локальной инфраструктуре.

продолжить чтение

Оставлено в
- DL
- llm
- ml
- rag
- self-rag

Объяснимый ИИ в ML и DL

Объяснимый ИИ — очень важный аспект в ML и DL. Он заключается в том, чтобы интерпретировать модель так, чтобы можно было около прозрачно объяснить ее решения. Потому что это довольно частая необходимость как у конечного заказчика, ведь для них это просто «черный ящик», так и у разработчиков непосредственно (например, для отладки модели). На русском языке таких статей не так много (для тех, кто знает английский проблем с этим нет, на нем таких статей много, например, Kaggle), поэтому я решил, что статья покажется актуальной, и сегодня я попробую рассказать про это и показать на конкретном примере, как его можно реализовать.

продолжить чтение

Оставлено в

Есть ли у AMD перспективы в AI-ML-DL. Часть 1

Привет, Хабр! Я Ефим Головин, старший MLOps-инженер в Selectel. Некоторое время назад мы в отделе Data/ML начали задаваться вопросом: а как там поживает AMD? Понятно, что у них масса дел, но нас интересовало, скорее, что у них в плане AI/DL/ML. С NVIDIA все плюс-минус ясно, это стандарт. А вот AMD — что-то неизвестное. Я вообще предполагал, что у «красных» хотя бы в плане терминологии и документации все должно быть плюс-минус аналогично тому, как оно есть у NVIDIA. Но решил убедиться в этом, поэтому отправился изучать документацию обеих компаний и попал в дивный мир хаоса, бардака и разброса в терминах. Не могу держать в себе, давайте разбираться вместе. Начнем, как ни странно, с поиска истины в документации NVIDIA.

продолжить чтение

Оставлено в

Обзор техник RAG: Retrieval Augmented Generation

Рассмотрим техники построения и улучшения RAG систем: от нарезания текстов на куски, до продвинутых способов улучшения качества ответа.Этим блогом можно пользоваться как шпаргалкой для проектирования своего RAG-а и/или для подготовки к собеседованиям.Все полезные ссылки и материалы, на которые я опирался будут в конце.Что такое RAG и зачем нуженRAG - это фреймворк взаимодействия предобученной LLM с базой знаний. То есть при ответе LLM на запрос пользователя модель отвечает используя актуальный контекст из базы и свои pre-trained знания.

продолжить чтение

Оставлено в

Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2

Привет! Некоторое время назад я начал искать истоки термина «Deep Learning». Тогда я изучал только зарубежные источники и обещал вернуться позже с обзором советской и российской литературы. Что ж, откладывать это больше нельзя. Посмотрим, на кого будут ссылаться отечественные авторы в том, что касается истории развития глубокого обучения. Без долгого вступления — берем в руку пальцы Ctrl/Cmd+F и начинаем раскопки!

продолжить чтение

Оставлено в

Алгоритмы спекулятивного инференса LLM

ВведениеЗа последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности. Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим “на автомате”. В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

DL.

NEWAVE. Делаем интеллектуальный ретривал музыки

Инференс нейросетевых моделей для табличных данных с помощью ONNX Runtime на C++

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

Self-RAG: LLM сама выбирает, когда ей нужен контекст

Объяснимый ИИ в ML и DL

Есть ли у AMD перспективы в AI-ML-DL. Часть 1

Обзор техник RAG: Retrieval Augmented Generation

Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning». Часть 2

Алгоритмы спекулятивного инференса LLM

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

DL.