ai. - страница 18

ai.

Gemini-3.5-flash догнал GPT-5.5 на 97-S и в 2.5× дешевле. Но главное — китайцы выигрывают по цене и качеству

Главная новость месяца — китайцы перестали быть «дешёвой альтернативой» и стали реальным конкурентом США по соотношению цена/качество. По чистому качеству американцы пока впереди, но по соотношению цена/качество (которое учитывает оба фактора) лидируют китайские модели. Это сдвиг рынка, а не «ещё один релиз».Gemini-3.5-flash догнал OpenAI — 97/S, тот же балл, что у GPT-5.5, при этом в 2.5 раза дешевле ($0.09 против $0.23 за вызов). Google впервые на нашем тесте берёт ту же вершину, что OpenAI на длинном русском контенте.DeepSeek V4 Flash

продолжить чтение

Почему ИИ не заменит аналитика при подготовке технического задания

продолжить чтение

Закрытый контур + локальная LLM: как мы запустили AI-агента без интернета

Полтора года назад мы запустили AI-ассистента внутри «Первой Формы», чтобы он помогал сотрудникам компании выполнять рабочие процессы. Сегодня он отвечает на вопросы по регламентам, ищет документы, подсказывает по задачам, даже запускает проверку контрагентов и формирует КП. Всё это работает через большую языковую модель, а точнее — через набор моделей, потому что разные задачи требуют разного подхода: для быстрой классификации входящего запроса нужна одна, для развёрнутой генерации ответа — другая, для работы с длинным контекстом — третья. 

продолжить чтение

Мышление техно-бро: почему умные технари ведут себя глупо, а общество это НЕ кусок кода

продолжить чтение

Поднимаем Llama 3 в облаке: Ollama и Open WebUI

Локально запустить LLM сегодня можно за десять минут — например, с помощью LM Studio. Но как только модели нужно дать доступ команде, подключить RAG или встроить ее в сервис — такого подхода зачастую недостаточно.

продолжить чтение

RAG-Anything: Как собрать по-настоящему мультимодальный RAG

Существует множество достойных RAG-фреймворков, проверенных на многочисленных бенчмарках, так что точность работы системы в современных реалиях - не такая большая проблема. Однако, для любого, кто сталкивался с прикладной интеграцией RAG в рабочие пайплайны, не секрет, что рано или поздно сталкиваешься с постобработкой многочисленных форматов. Комбинируешь OCR, парсеры, ридеры…RAG-Anything устраняет ненужные телодвижения.

продолжить чтение

Экономия GPU-часов в 2,5 раза, уход ИИ в бэкенд и новые стандарты агентских систем: ML-дайджест

продолжить чтение

Масштабирование LLM: от одного чипа до ЦОДа. Глава 3. Сколько ресурсов нужно для LLM?

Это продолжение цикла статей о масштабировании тренировки и инференса LLM. Предыдущая главаСчитаем количество операцийА теперь перейдем к чему-то более практическому, а именно к тому, сколько нужно FLOPs и байт для работы трансформера, той самой архитектуры, которая лежит в основе практически всех современных LLM. Подразумевается, что у вас уже есть представление о том, что такое архитектура трансформера, как работает механизм внимания и т.д.Давайте начнем с векторов x, y и матриц A, B, имеющих вот такие размеры, допустим один элемент занимает при этом один байт.

продолжить чтение

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

продолжить чтение

Загадочная поэма древнего Китая, работающая как компьютер

Этой поэме 1700 лет. И она фактически непереводима ни на один существующий язык мира. А все потому что она может генерировать стихотворения сама на древнекитайском, будучи прочитанной в особом порядке.

продолжить чтение

1...10...161718192021...3040...366