Главное: RAG — это не просто «поиск + LLM». В локальном эксперименте основная дополнительная нагрузка появилась не в vector DB, а в embedding запроса, росте размера prompt и его обработке моделью. Top-k, chunk size и retrieval mode оказались параметрами проектирования и контроля, а не техническими настройками «по умолчанию». Главный вывод: стратегию retrieval нужно выбирать под тип вопроса, структуру данных, latency budget и требований к качеству.Введение

Оставлено в

Вам продают ИИ. Покупать нужно не его

Звонил мне на днях один знакомый CIO. Питерский, ритейл, средний бизнес, ничего особенного. Слушай, говорит, надо нам с ИИ что‑то делать: все вокруг внедряют, конкуренты вон что‑то запустили, на отраслевом Data Summit уши прожужжали, а у меня даже плана нет. И денег, кстати, особо на это не выделили, но не суть.Это был, кажется, пятый такой звонок за месяц.

продолжить чтение

Оставлено в

США хотят финансировать экспорт своих AI-инструментов за рубеж

продолжить чтение

Оставлено в

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Всем привет, меня зовут Сергей Прощаев, и в этой статье я расскажу про реальную архитектуру ИИ-сервисов, которые выдерживают high-load и отвечают за десятки миллисекунд. Я Tech Lead и руководитель направления Java | Kotlin разработки в FinTech & E-commerce, а ещё преподаю на курсах разработки и архитектуры в OTUS. За моими плечами — несколько проектов, где мы встраивали генеративные модели в прод, и каждый раз одно и то же: на нагрузочном тестировании всё летает, а в проде — латенси скачет, GPU греются, бюджет тает. На недавнем открытом уроке курса «ИИ-архитектор»

продолжить чтение

Оставлено в

Сингапур хочет ввести “этикетки” для AI-продуктов

продолжить чтение

Оставлено в

Автопром меняет IT-кадры на AI-специалистов

продолжить чтение

Оставлено в

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

Посмотрела Туториал NeurIPS «The Art of Benchmarking» — панель с авторами SWE-bench, GPQA и ведущими исследователями из Google DeepMind, NYU и Berkeley. Вот мой конспект. Делюсь с вами, так как бенчмарки теперь не только про науку, но и про безопасность, регуляторику и миллиардные решения о деплое.* Тирания метрикОказывается, любая метрика имеет honey spots, которые модель может хакнуть. Проблема в том, что текущая мета-оценка (корреляция Пирсона) эти точки не показывает. А если метрика становится еще и reward'ом при обучении — могут быть проблемы* Про долговечность

продолжить чтение

Оставлено в
- Data Engineering
- Data Mining

Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Data Engineering.

Как оценивать ИИ‑агентов в проде: нижняя планка, трассы и кодовые проверки

OpenAI дала японским банкам доступ к GPT-5.5 для защиты от кибератак

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Вам продают ИИ. Покупать нужно не его

США хотят финансировать экспорт своих AI-инструментов за рубеж

Архитектура AI-сервисов: почему монолит убивает latency и GPU

Сингапур хочет ввести “этикетки” для AI-продуктов

Автопром меняет IT-кадры на AI-специалистов

Как создать свой бенчмарк: 6 уроков с туториала NeurIPS

Агенты, которые играют в игры: как MMORPG обучают ИИ кооперации, предательству и дипломатии

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Data Engineering.