Что такое Computer Use от Google, и в чем различие от Operator OpenAI и Comet Perplexity
Google выпустил Computer Use на Gemini 2.5 Pro для автоматизации действий в браузере. Его стали сравнивать с Operator от OpenAI и Comet от Perplexity.
Как оценить качество машинного перевода
Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.
Автор curl Даниэль Стенберг сообщил, что ИИ-инструменты для проверки кода позволили обнаружить 50 ошибок в утилите
Автор curl Даниэль Стенберг сообщил
Playwright Agents — тесты, которые “живут своей жизнью”
Недавно вышло видео “Playwright v1.56: From MCP to Playwright Agents” и на первый взгляд оно выглядит как революция:ИИ-агент, который сам понимает, что тестировать, сам пишет тесты, сам их чинит. Никаких локаторов, никаких апдейтов при каждом изменении DOM - просто запускаешь и смотришь, как тесты выполняются.Но если вы хоть раз поддерживали живой тестовый проект в крупной компании, то вы уже чувствуете, где тут подвох.💡 Что обещаютСоздатели Playwright Agents говорят о новом уровне автоматизации:
QA-инженер в 2025 году: скилсет джуниора и ожидания рынка
Привет! На связи команда Яндекс Практикума. В первой половине года мы провели традиционное исследование рынка ручного тестирования — выяснили актуальные требования к джуниорам, провели интервью с работодателями и трудоустроенными выпускниками и подробно изучили, как проходят собеседования. Делимся самым важным.Что мы делалиЦелью нашего исследования было уточнить портрет «идеального» джуниора в QA, выяснить актуальные требования работодателей и проанализировать рынок вакансий.Для этого мы:
Не LLM едиными: генерируем юнит-тесты из реального исполнения на лету
Представьте себе: вы отлаживаете новый баг в сложном многослойном приложении (например, на Spring). Чтобы воспроизвести проблему, приходится взаимодействовать со всей системой end-to-end: отправлять запрос на эндпоинт или что-то кликать в UI. Юнит-теста, который бы изолировал нежелательное поведение до уровня злополучного сервиса или утилиты, нет. А хотелось бы, чтобы он был: во-первых, воспроизводить баг было бы проще (особенно если UI кликает QA, а не вы), а во-вторых, его потом можно было бы легко превратить в регрессионный и улучшить стабильность системы.
Ускорение крупномасштабной миграции тестов с помощью LLM
TL;DRЗадача: перевести тесты React с Enzyme на RTL без потери замысла и покрытия.Подход: LLM-управляемый пофайловый конвейер в виде машины состояний: Enzyme→RTL → Jest → ESLint --fix → фиксы линтера → TSC.Ретраи: повтор шагов до успеха; на каждом повторе модель получает актуальный файл и логи валидации (динамические промпты).Контекст: для сложных кейсов промпты 40–100k токенов (до ~50 связанных файлов, хорошие примеры RTL, исходники компонента и импортов).
OpenAI приобрела стартап по тестированию продуктов Statsig
Компания OpenAI объявила о приобретении стартапа Statsig, занимающегося тестированием продуктов. Его основателя и генерального директора Виджая Раджи назначили на должность технического директора по приложениям.
Автоматизированная отладка Playwright-тестов с AI
Отладка E2E-тестов может быть трудоёмкой задачей. При падении тестов Playwright нередко приходится вручную анализировать сообщения об ошибках и стек-трейсы, искать причины неудач (например, неправильно подобранный селектор, увеличенные задержки или неожиданные изменения в DOM) и пробовать разные варианты исправлений. Традиционно QA-инженерам приходится копировать текст ошибок и обращаться к документации или чат-ботам вроде ChatGPT с вопросами вроде «почему селектор не нашёлся» или «как увеличить таймаут». Это занимает время и отнимает ресурсы команды.
ИИ для QA: реальный опыт автоматизации анализа результатов автотестов
Анализ результатов автоматизированного тестирования — это очень важная и в то же время непростая часть тестирования. В любой момент у нас должна быть возможность оценить состояние продукта по результатам автотестов, сказал Марош Кутши на конференции QA Challenge Accepted. Он рассказал, как искусственный интеллект помогает экономить время на анализе, снижать количество человеческих ошибок и сосредотачиваться на новых сбоях.Кутши рассказал, что его QA-команда сталкивалась с трудностями при анализе результатов автотестов и искала способ избавиться от человеческих ошибок:

