ai.
Gemini-3.5-flash догнал GPT-5.5 на 97-S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству
Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению цена/качество (которое учитывает оба фактора) лидируют китайские модели. Это сдвиг рынка, а не «ещё один релиз».Gemini-3.5-flash догнал OpenAI — 97/S, тот же балл, что у GPT-5.5, при этом в 2.5 раза дешевле ($0.09 против $0.23 за вызов). Google впервые на нашем тесте берёт ту же вершину, что OpenAI на длинном русском контенте.DeepSeek V4 Flash
Закрытый контур + локальная LLM: как мы запустили AI-агента без интернета
Полтора года назад мы запустили AI-ассистента внутри «Первой Формы», чтобы он помогал сотрудникам компании выполнять рабочие процессы. Сегодня он отвечает на вопросы по регламентам, ищет документы, подсказывает по задачам, даже запускает проверку контрагентов и формирует КП. Всё это работает через большую языковую модель, а точнее — через набор моделей, потому что разные задачи требуют разного подхода: для быстрой классификации входящего запроса нужна одна, для развёрнутой генерации ответа — другая, для работы с длинным контекстом — третья.
Поднимаем Llama 3 в облаке: Ollama и Open WebUI
Локально запустить LLM сегодня можно за десять минут — например, с помощью LM Studio. Но как только модели нужно дать доступ команде, подключить RAG или встроить ее в сервис — такого подхода зачастую недостаточно.
RAG-Anything: Как собрать по-настоящему мультимодальный RAG
Существует множество достойных RAG-фреймворков, проверенных на многочисленных бенчмарках, так что точность работы системы в современных реалиях - не такая большая проблема. Однако, для любого, кто сталкивался с прикладной интеграцией RAG в рабочие пайплайны, не секрет, что рано или поздно сталкиваешься с постобработкой многочисленных форматов. Комбинируешь OCR, парсеры, ридеры…RAG-Anything устраняет ненужные телодвижения.
Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?
Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.
Загадочная поэма древнего Китая, работающая как компьютер
Этой поэме 1700 лет. И она фактически непереводима ни на один существующий язык мира. А все потому что она может генерировать стихотворения сама на древнекитайском, будучи прочитанной в особом порядке.

