Как я написал ASR-движок на Rust: от разочарования в одной модели до мульти-модельной архитектуры
Кому лень читать полностью
Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение
TL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».Звучит умно. Проблема? Это полная ерунда.Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.Ось упёрлась? Значит, AI упёрся.Нет. Не значит.Давайте честно: одномерное мышление — это ловушка2012 год.
Куда и почему уходят бабки на нейросети
Малоизвестный среди обычных людей факт: у нейросетей нет никаких "разговоров". Ты смотришь в веб-интерфейсе на "диалог" - но это обман, красивый фокус.Каждый раз, когда ты пишешь новое сообщение, все старые сообщения обрабатываются заново. У нейросетей по-настоящему многоразовых задач не существует. Если результат немного поменялся — тебе просто не покажут в веб-интерфейсе изменившиеся сообщения.
Выбор GPU-карты для Inference: честное сравнение H100, A100 и V100
Привет! Меня зовут Андрей Пелешок, я инженер L3 команды PaaS в Cloud.ru. Я отвечаю за работу платформенных сервисов и за поддержку инфраструктуры.
AI-торрент: децентрализованная сеть, где твои GPU станут валютой для супер-AI
ИИ и автоматизация — это цунами, которое обрушится завтра, смывая отрасли и экономики. Его можно либо интегрировать в свои ресурсы, либо погрузиться в зависимость от облачных гигантов.Я столкнулся с этой болью: ИИ-inference стоит дорого. А почему мои неиспользуемые GPU от майнинга не могут стать платой за него?Концепция: P2P-инфраструктура на базе MoE"ИИ-торрент" — это децентрализованная P2P-сеть для inference ИИ-моделей. В её основе три ключевых принципа:BitTorrent-экономика.
Как мы перестали использовать Python в production LLM-системах — и почему это было необходимо
Введение: от демо IDP-системы к production-р��ализацииВ 2023 году мы начали перерабатывать enterprise-продукт для интеллектуальной обработки документов (IDP). В его основе был зрелый, но устаревающий NLP-движок на Java — точный, надёжный, но не способный извлекать сложные сущности или рассуждать над контекстом. Решение казалось очевидным: добавить LLM.
Как автоматизировать тестирование батч-моделей? Гайд
Всем привет, меня зовут Дмитрий, я — MLE в Альфа-Банке, занимаюсь автоматизацией процессов и оптимизацией моделей, ищу в моделях проблемы и решаю их.
Новый метод поиска от Sakana: расширение inference-time scaling и коллективный разум
Аналитический центр red_mad_robot продолжает разбирать исследования японской лаборатории Sakana AI — в прошлый раз
Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM

