highload.

Архитектура высоконагруженных RAG-систем: 10 стратегий оптимизации чанкинга и интеграция с Weaviate, Qwen – Llama -Gemma

Привет, Хабр! Это Андрей Носов, AI-архитектор в компании Raft, проектирую и внедряю высоконагруженные RAG-системы на предприятиях. Сегодня я расскажу о вызовах, которые мы преодолеваем каждый день, создавая такие системы, и сделаю акцент на чанкинге.

продолжить чтение

Практическое исследование: вайбкодим HFT движок с Gemini 2.5 Pro

Нейронное КДПВ. Как хотелось бы видеть процесс, но не срослось

продолжить чтение

Осваиваем ML WAF: от текстовых правил к машинному обучению

Всем привет, меня зовут Семён. Я пишу на С++ и работаю в группе Антиробота. Антиробот — это сервис, который на уровне L7 защищает нас от парсеров и DDoS-атак. Разрабатывать его начали более 10 лет назад — сначала он предназначался только для защиты Поиска, затем был внутренним инструментом, который в онлайн‑режиме анализирует запросы к сервисам Яндекса. Постепенно Антиробот вырос в настоящий highload. Сейчас это часть облачного сервиса Smart Web Security (SWS).

продолжить чтение

HighLoad++: чего ждать от главной конференции IT-индустрии этой осени?

Когда мы начинаем работать с нагруженными системами, на передний план выходят задачи, как эту систему отмасштабировать — систем в стазисе не бывают. Они либо растут, либо умирают. Мы исходим из того, что системы растут по объёму задач, количеству запросов и другим критериям, по которым мы работаем с highload.В «Сколково» в Москве 6-7 ноября пройдёт крупнейшая IT-конференция HighLoad++

продолжить чтение

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели

продолжить чтение

Оркестрация чатов LLM моделей через Redis

Исходный код, разобранный в данной статье, опубликован в этом репозитории При работе с языковыми моделями частым явлением являются галлюцинации - когда модель даёт неверных вывод. Это связано с издержками математической модели, которая пораждает важные нюансы, разобранные в данной статье

продолжить чтение

Rambler's Top100