Контролируемость цепочек рассуждений в больших языковых моделях
Команда AI for Devs подготовила перевод исследования OpenAI о контролируемости цепочек рассуждений в современных моделях. Авторы разбирают, почему наблюдение за CoT может быть ключевым инструментом безопасности, как масштабирование моделей и обучение с подкреплением влияют на контролируемость и какой «налог» приходится платить за более надёжный мониторинг.Мы вводим оценки контролируемости цепочки рассуждений и изучаем, как она масштабируется при увеличении вычислений на этапе тестирования, обучении с подкреплением и росте масштаба предобучения.
Как мы учили ИИ тушить инциденты вместо нас (что из этого вышло)
Привет, меня зовут Артем, я тимлид DevOps в одной аутстафф-компании. Столкнулись с классической ситуацией: десятки микросервисов, Kubernetes, куча observability-стека (Prometheus, Loki, Tempo, Grafana) и... постоянные ночные инциденты. «High CPU», «Pod CrashLoopBackOff», «5xx errors rising». У нас есть runbooks, документация, скрипты для быстрого доступа к логам. Но в 3 ночи, когда срабатывает критический алерт, тратишь время на то, чтобы проснуться, сообразить, куда залогиниться и какую команду выполнить… Мы задались вопросом: а если первым на инцидент будет реагировать не человек, а ИИ-агент?⠀⠀Боль, которую мы хотели решить:1.
LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений
В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая и тяжелая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим пару самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.
Почему управление ИТ-инфраструктурой становится только сложнее и что с этим делать?
Проблему усложнения инфраструктуры отмечают все, кто ей занимается в разных ролях, от проектирования архитектуры до имплементации и ежедневной эксплуатации. Инженеры, архитекторы и разработчики признают, что управление инфраструктурой сегодня уже не тривиальная задача. Создавая open-source проект Foliage, мы исходили именно из тезиса о том, что «современная инфра – это сложно». Но обо всём по порядку.
Observability vs Monitoring: за что вы платите?
Помню, как на собеседовании в одну крупную компанию мне задали вопрос: "Чем отличается observability от monitoring?" Я уверенно ответил что-то про "три столпа" и "unknown unknowns". Интервьюер кивнул, но потом спросил: "А зачем платить $100k в год за Datadog, если можно поставить бесплатный Prometheus?"
Исследование: сигналы Wi-Fi можно использовать для определения частоты сердечных сокращений
Команда Калифорнийского университета в Санта-Крузе разработала подход Pulse-Fi, который позволит использовать сигналы Wi-Fi для мониторинга частоты сердечных сокращений человека.
Собираем систему мониторинга ответов LLM на коленке
Наверняка вы сталкивались с ситуациями, когда модель начинает вести себя в проде не так, как задумывалось: например, ведётся на провокации пользователя или даёт некорректные ответы. Зачастую такие ошибки безобидны, но случаются и не очень приятные ситуации. А если речь идёт о чат-боте, который отвечает на вопросы в юридической или медицинской сфере — практически любая ошибка может быть критичной. Итак, мы плавно подошли к тому, что нужно каким-то образом валидировать ответы LLM. Давайте разберёмся, как это делать.
Системы мониторинга сотрудников (не) работают: научный подход
Многие конторы ставят трекеры, чтобы наблюдать за работой сотрудников – кто-то скриншотит экраны каждые 3 секунды, кто-то следит за простоем курсора мыши. Многие верят, что именно так можно повысить эффективность. Откуда они вообще это взяли? И так ли это? Рассматриваю вопрос мониторинга с точки зрения науки о поведении людей на работе – организационной психологии. Делаю обзор исследований, шучу сомнительные шутки, обсуждаю альтернативы.

