inference.

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Кому лень читать полностью

Оставлено в

Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

TL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».Звучит умно. Проблема? Это полная ерунда.Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.Ось упёрлась? Значит, AI упёрся.Нет. Не значит.Давайте честно: одномерное мышление — это ловушка2012 год.

продолжить чтение

Оставлено в

Куда и почему уходят бабки на нейросети

Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус.Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения.

продолжить чтение

Оставлено в

Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Команда AI for Devs подготовила перевод и разбор статьи о Prompt Caching — технологии, которая делает входные токены LLM в разы дешевле и заметно снижает задержки. Внутри — подробное объяснение, что именно кэшируют OpenAI и Anthropic, как KV-кэш связан с attention в трансформерах и почему это не имеет ничего общего с повторным использованием ответов.На момент, когда я пишу эту статью, закэшированные входные токены стоят в долларах за токен примерно в 10 раз дешевле обычных входных токенов — как в API OpenAI, так и Anthropic.

продолжить чтение

Оставлено в

Выбор GPU-карты для Inference: честное сравнение H100, A100 и V100

Привет! Меня зовут Андрей Пелешок, я инженер L3 команды PaaS в Cloud.ru. Я отвечаю за работу платформенных сервисов и за поддержку инфраструктуры.

продолжить чтение

Оставлено в

AI-торрент: децентрализованная сеть, где твои GPU станут валютой для супер-AI

ИИ и автоматизация — это цунами, которое обрушится завтра, смывая отрасли и экономики. Его можно либо интегрировать в свои ресурсы, либо погрузиться в зависимость от облачных гигантов.Я столкнулся с этой болью: ИИ-inference стоит дорого. А почему мои неиспользуемые GPU от майнинга не могут стать платой за него?Концепция: P2P-инфраструктура на базе MoE"ИИ-торрент" — это децентрализованная P2P-сеть для inference ИИ-моделей. В её основе три ключевых принципа:BitTorrent-экономика.

продолжить чтение

Оставлено в

Как мы перестали использовать Python в production LLM-системах — и почему это было необходимо

Введение: от демо IDP-системы к production-р��ализацииВ 2023 году мы начали перерабатывать enterprise-продукт для интеллектуальной обработки документов (IDP). В его основе был зрелый, но устаревающий NLP-движок на Java — точный, надёжный, но не способный извлекать сложные сущности или рассуждать над контекстом. Решение казалось очевидным: добавить LLM.

продолжить чтение

Оставлено в

Как автоматизировать тестирование батч-моделей? Гайд

Всем привет, меня зовут Дмитрий, я — MLE в Альфа-Банке, занимаюсь автоматизацией процессов и оптимизацией моделей, ищу в моделях проблемы и решаю их.

продолжить чтение

Оставлено в

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз

продолжить чтение

Оставлено в

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

inference.

Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры

Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение

Куда и почему уходят бабки на нейросети

Prompt Caching: токены LLM в 10 раз дешевле — но за счёт чего?

Выбор GPU-карты для Inference: честное сравнение H100, A100 и V100

AI-торрент: децентрализованная сеть, где твои GPU станут валютой для супер-AI

Как мы перестали использовать Python в production LLM-системах — и почему это было необходимо

Как автоматизировать тестирование батч-моделей? Гайд

Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум

Эффективный инференс множества LoRA адаптеров

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

inference.