ai.

Gemini-3.5-flash догнал GPT-5.5 на 97-S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению цена/качество (которое учитывает оба фактора) лидируют китайские модели. Это сдвиг рынка, а не «ещё один релиз».Gemini-3.5-flash догнал OpenAI — 97/S, тот же балл, что у GPT-5.5, при этом в 2.5 раза дешевле ($0.09 против $0.23 за вызов). Google впервые на нашем тесте берёт ту же вершину, что OpenAI на длинном русском контенте.DeepSeek V4 Flash

продолжить чтение

Оставлено в

Почему ИИ не заменит аналитика при подготовке технического задания

продолжить чтение

Оставлено в

Закрытый контур + локальная LLM: как мы запустили AI-агента без интернета

Полтора года назад мы запустили AI-ассистента внутри «Первой Формы», чтобы он помогал сотрудникам компании выполнять рабочие процессы. Сегодня он отвечает на вопросы по регламентам, ищет документы, подсказывает по задачам, даже запускает проверку контрагентов и формирует КП. Всё это работает через большую языковую модель, а точнее — через набор моделей, потому что разные задачи требуют разного подхода: для быстрой классификации входящего запроса нужна одна, для развёрнутой генерации ответа — другая, для работы с длинным контекстом — третья.

продолжить чтение

Оставлено в

Мышление техно-бро: почему умные технари ведут себя глупо, а общество это НЕ кусок кода

продолжить чтение

Оставлено в

Поднимаем Llama 3 в облаке: Ollama и Open WebUI

Локально запустить LLM сегодня можно за десять минут — например, с помощью LM Studio. Но как только модели нужно дать доступ команде, подключить RAG или встроить ее в сервис — такого подхода зачастую недостаточно.

продолжить чтение

Оставлено в

RAG-Anything: Как собрать по-настоящему мультимодальный RAG

Существует множество достойных RAG-фреймворков, проверенных на многочисленных бенчмарках, так что точность работы системы в современных реалиях - не такая большая проблема. Однако, для любого, кто сталкивался с прикладной интеграцией RAG в рабочие пайплайны, не секрет, что рано или поздно сталкиваешься с постобработкой многочисленных форматов. Комбинируешь OCR, парсеры, ридеры…RAG-Anything устраняет ненужные телодвижения.

продолжить чтение

Оставлено в

Экономия GPU-часов в 2,5 раза, уход ИИ в бэкенд и новые стандарты агентских систем: ML-дайджест

продолжить чтение

Оставлено в

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

продолжить чтение

Оставлено в

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

продолжить чтение

Оставлено в

Загадочная поэма древнего Китая, работающая как компьютер

Этой поэме 1700 лет. И она фактически непереводима ни на один существующий язык мира. А все потому что она может генерировать стихотворения сама на древнекитайском, будучи прочитанной в особом порядке.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

ai.

Gemini-3.5-flash догнал GPT-5.5 на 97-S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Почему ИИ не заменит аналитика при подготовке технического задания

Закрытый контур + локальная LLM: как мы запустили AI-агента без интернета

Мышление техно-бро: почему умные технари ведут себя глупо, а общество это НЕ кусок кода

Поднимаем Llama 3 в облаке: Ollama и Open WebUI

RAG-Anything: Как собрать по-настоящему мультимодальный RAG

Экономия GPU-часов в 2,5 раза, уход ИИ в бэкенд и новые стандарты агентских систем: ML-дайджест

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

Загадочная поэма древнего Китая, работающая как компьютер

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

ai.