«Агенты Хаоса»: ИИ стирает сервера, или почему нельзя давать языковым моделям права root
В последнее время ИТ-сообщество активно обсуждает интеграцию автономных ИИ-агентов в реальные рабочие процессы. Свежий препринт под интригующим названием «Агенты Хаоса» подливает масла в огонь: исследователи устроили масштабный red teaming, подключив LLM-агентов к электронной почте, Discord и файловой системе, чтобы посмотреть, насколько легко их взломать.
Пользователь проверил способность Claude назвать 37 500 случайных имён
Разработчик Бенджи Смит провёл эксперимент, в ходе которого пытался выяснить, как языковые модели обрабатывают случайности. Он попросил модели Claude назвать 37 500 случайных имён, и ИИ не переставал повторять Marcus («Маркус»).
Архитектурная бомба замедленного действия
Искусственный интеллект прочно закрепился в арсенале разработчиков, и мы уже давно миновали стадию, когда нейросети использовались исключительно как продвинутый автокомплит. Сегодня соблазн поручить ИИ написание целого MVP велик как никогда. Зачем тратить недели на закладку фундамента, если LLM может выдать работающий прототип с базовой архитектурой за пару часов? Однако когда ИИ берет на себя проектирование основы системы, сама суть работы системного архитектора меняется до неузнаваемости.
Как тестировать AI-приложения — LLM метрики
Меня зовут Лилия Урмазова, более 20 лет назад я начала работать классическим QA-инженером.А последние пару лет специализируюсь на тестировании AI-приложений. В настоящее время — Senior Staff AI-QA Engineer/ML Evaluation Engineer в крупной международной IT-компании.Для тех тестировщиков, кто хочет как минимум быть “в курсе” тестирования AI, я с коллегами подготовила небольшой бесплатный практический курс.Хорошая новостьКое-что из того, что касается тестирования AI-приложений, можно мерить классическими, легко рассчитываемыми метриками.
«Важно доставлять, а не понимать» — идеальный способ работы с нейросетями
«Важно доставлять, а не понимать» — звучит модно, а ломает всё по классике.Последние месяцы я вижу одну и ту же сцену.Кто-то начинает активно применять нейросети в разработке — и первые недели ощущение кайфовое: код появляется быстрее, задач закрывается больше, “как будто полетели”.А потом начинаются знакомые фразы:“стало больше багов, хотя писали быстрее”“вроде всё правильно, но не работает”“оно компилируется, значит норм”“главное — доставлять, а не понимать”Вот с последним тезисом я не согласен.
Может ли ИИ заменить QA?
Уже несколько лет подряд у всех на слуху ИИ и тезисы о том, что он заменит человечество, а если и не заменит, то ускорит до немыслимых высот. Сегодня я хотела бы подискутировать на эту тему в области обеспечения качества, хотя рискую, кажется, оказаться в ряду динозавров.Всем привет, меня зовут Настя, я QA Lead, преподаватель курса «JavaScript QA Engineer»
15 промптов ChatGPT для QA
СодержаниеЗачем QA-инженеру промпты? Блок 1. Анализ требований Промпт #1: GAP-анализ требований Промпт #2: Матрица тест-покрытия Блок 2. Тест-дизайн Промпт #3: Boundary Value Analysis + бизнес-логика Промпт #4: State Transition Testing Блок 3. Работа с багами Промпт #5: Root Cause Analysis (5 Why's) Промпт #6: Баг-репорт по стандарту IEEE 829 Блок 4. Тестовые данные Промпт #7: Генерация реалистичных тестовых данных
Беда «войти в айти» или курсы тестировщика отзывы: Наконец, QA-курсы закрываются
Хорошая новость: рекламы “тестирование - это легкий вход в айти” от крупных онлайн-платформ больше нет, экономика вместе с IT-наймом упали и курсы по тестированию начали закрываться.Плохая новость: первыми закрываются курсы с уровнем трудоустройств студентов 50%. А не те, после которых офферы в IT получают 5%. Значит, инфоцыган пропорционально становится только больше.Последний уезжающий — выключи светШироко известный в узких кругах Артем Русов больше не набирает учебные группы по тестированию. Не менее известный Леша Маршал
Сравнение тестовых фреймворков: Cypress vs Playwright vs Selenium
Сегодня мы сравним основные фреймворки: их плюсы и минусы, поделимся своим опытом работы с каждым и поможем понять, какой же лучше выбрать для своего проекта? Тестировать вручную увлекательно только в первый раз. Но потом это все больше превращается в рутину, ты устаешь от однообразия, а взгляд начинает замыливаться. Это естественно для человека. Что же с этим можно делать? Можно автоматизировать.E2E — это тестирование сквозного бизнес-процесса глазами пользователя: от входа в систему до финального действия. В этой статье мы сравним три фреймворка — Selenium, Cypress и Playwright

