Explyt 5.0 на Joker: поддержка Rider и новый тестовый агент
Всем привет! Рады представить новую версию Explyt 5.0 с поддержкой Rider 🚀 новым тестовым агентом, Web search & Web fetch и другими приятными улучшениями. Поддежка RiderРазработка и тестирование приложений на C# стали легче и эффективней.Агентский режим генерации и исправления тестов для Java/Kotlin
Основные метрики DeepEval для тестирования AI. Возможности и способы применения
Всем привет!DeepEval - фреймворк для оценки работы AI с открытым исходным кодом.Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.Помимо указанных ранее в DeepEval присутствуют следующие метрики:Agentic- Task Completion- Tool Correctness- Argument Correctness
AI-генерация тестов: как превратить 3 месяца работы в 1 неделю
Главное за 30 секундПривет! В этой статье я расскажу о новом подходе к генерации автотестов для сложных финансовых протоколов. Мы максимально декомпозировали задачу создания тестового покрытия, разбив её на независимые шаги, каждый из которых решает конкретную проблему.Что вы узнаете:Как разбить сложную задачу автоматизации тестирования на управляемые этапыКакие проблемы возникают на каждом шаге и как их решатьПочему важно не пытаться сделать всё идеально с первого разаКак использовать AI для ускорения, но не полагаться на него полностью
Slack превращает Slackbot в ИИ-помощника
Slack тестирует обновление для Slackbot, которое превращает его в ИИ-помощника, который может помочь составлять планы, назначать встречи, находить файлы и делать многое другое, сообщает The Verge. «Slackbot сегодня довольно примитивен, —
Как протестировать машинный переводчик
Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества.В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль.
Как я автоматизировал анализ логов из Kibana с помощью LLM и AI-агентов
OpenSearch, Elastic или Kibana и подобные им инструменты — уже давно стандарт для поиска и визуализации логов, ведь они удобны, у них мощная поисковая система. Но сложный анализ — агрегации, парсинг, выявление сложных закономерностей — заставляет их встроенные средства работать на пределе возможностей. Особенно если структура логов далека от идеала.
Playwright Agents — тесты, которые “живут своей жизнью”
Недавно вышло видео “Playwright v1.56: From MCP to Playwright Agents” и на первый взгляд оно выглядит как революция:ИИ-агент, который сам понимает, что тестировать, сам пишет тесты, сам их чинит. Никаких локаторов, никаких апдейтов при каждом изменении DOM - просто запускаешь и смотришь, как тесты выполняются.Но если вы хоть раз поддерживали живой тестовый проект в крупной компании, то вы уже чувствуете, где тут подвох.💡 Что обещаютСоздатели Playwright Agents говорят о новом уровне автоматизации:
Тестирование качества работы RAG. Описание и сравнение метрик
В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами.Одним из способов решения для таких случаев является применение AI с использованием RAG.В этой статье мы постарались привести метрики для оценки качества работы подобных решений.RAG (Retrieval Augmented Generation) - генерация ответов с использованием внешнего источника данных.
Едем в поле с железным ящиком: как тестируют телеком
Модульные тесты, conformance по 3GPP и нюансы российского законодательства. Добавьте к этому автомобиль-лабораторию и разъезды по лесу — и получите обычный день QA-инженера в телекоме. Об этом и о многом другом поговорим на митапе по тестированию в телекоме 9 октября (воскресенье) в 18:00. Для участия в онлайн-трансляции достаточно зарегистрироваться на сайте.

