Тестирование LLM-приложений с DeepEval
Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. В этой статье я расскажу о том, как тестировать приложения с использованием Large Language Model (LLM), на примере инструмента DeepEval. Тестирование приложений, в которых используются LLM, отличается от тестирования других приложений. В частности, можно выделить 2 основные проблемы: Недетерминированность. В связи со своей спецификой LLM могут давать разные ответы на одни и те же запросы, что создаёт сложности во время тестирования;Работа с естественным языком.
Почему я выбрал Suno AI для создания мемного альбома «Вася Тестировщик»?
Сразу вкратце отвечу на заголовок: выбрал Suno, поскольку ему уступают Tad, Yolly и Udio.Ещё сразу предупрежу, что для доступа к некоторым материалам статьи, вложенным из сторонних источников, может пригодится включенный VPN.В этой статье поделюсь опытом сравнения разных ИИ-генераторов, а также интересными находками про них, которые открыл в процессе написания альбома с помощью ИИ. Подспудно упомяну как можно больше интересных с моей точки зрения технических подробностей о процессе создания песен с искусственным интеллектом (ИИ). Примеры песен будут не только из моего альбома.
Бесплатная нейросеть-астролог с разбором натальных карт — как и зачем мы его запилили
Нейросети идут по пути интернета
$1,4 триллиона долга или как OpenAI планирует захватить мир в 2026 году: главные инсайды из интервью Сэма Альтмана
В штаб-квартире OpenAI Сэм Альтман рассказал о будущем компании, конкуренции с Google и DeepSeek, а также о планах на 2026 год.
Вышел дистрибутив Parrot OS 7.0 для этического хакинга с ядром Linux 6.12 LTS и новыми инструментами для пентестов
24 декабря 2025 года компания Parrot Security выпустила
Думает как хакер, действует как пентестер: что такое автоматическое тестирование на проникновение
Всем привет!
Ваша работа — выпускать код, который доказанно работает
Во всех обсуждениях ценности ИИ-помощников в разработке ПО мне встречается одна печальная история: разработчик-джун, вооружившийся каким-нибудь LLM-инструментом, создаёт для своих коллег или мейнтейнеров опенсорс-проекта огромный нетестированный PR, ожидая, что всё остальное решится благодаря процессу код-ревью.Такое поведение грубо, оно заставляет других людей впустую тратить время и идёт вразрез с долгом разработчика ПО.Ваша задача — выпускать код, который доказанно работает.Мы, разработчики ПО, не просто производим код; сегодня даже можно сказать, что для этого предназначены LLM. Мы должны выпускать
Анатомия Prompt Injection: Как я вошел в топ-10 глобального рейтинга Lakera Agent Breaker
Привет, Хабр. На связи Артем Бакрадзе, Head of Research в лаборатории RedVector. В декабре 2025 я принял участие в челлендже Agent Breaker от Lakera. На данный момент я занимаю 7-ю строчку в мировом рейтинге, состоящем из около 7500 участников, и 1-е место в своей лиге (куда участники распределяются случайным образом в зависимости от назначенной LLM)
Больше никаких «черных ящиков»: мониторим и оцениваем качество LLM-приложений с Langfuse
Представьте: вы ведете автомобиль, а на приборной панели нет ни спидометра, ни датчика топлива, ни каких-либо показателей вообще. Ни-че-го. В принципе ехать можно, но вы не знаете, какая у вас скорость, сколько бензина и есть ли с авто какие-то проблемы. Примерно так выглядит работа с LLM-приложением без инструментов мониторинга: система вроде бы и функционирует, но о ее внутреннем состоянии можно только догадываться.
Эффективность QA-лида и способы ее достижения
Всем привет. Сегодня мы обсудим понятие эффективности QA‑лида и как его достичь. Для этого мы возьмем несколько ключевых тезисов. Кто это такой, с чего начинается работа в этой роли, какие у нее основные функции и как с ней жить?Как вообще можно стать QA-лидом?Первый путь можно считать эволюционным и он встречается достаточно часто. Собственно, это рост внутри профессии. В какой‑то момент перед сеньором встает выбор, либо углубляться в техническую экспертизу и становиться техлидом, либо идти в управленческую сторону и становиться тимлидом или QA‑лидом.

