Исследование способности языковых моделей к логическим рассуждениям — тест RELIC
Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.
Как мы в Mentorpiece тестируем… стоимость AI-приложений
Третья статья цикла про работу AI-QA-инженера (но написана без использования AI)В предыдущих статьях:Как тестировать AI-приложения:
Когда ИИ тестирует лучше тебя: ищу баги в OWASP Juice Shop с помощью Cypress и Workik
Я — Solution Architect с 19 годами в IT, часто помогаю новичкам в тестировании. Джуны обычно жалуются на вагон теории, отсутствие практики и примеров, где основные алогритмы собраны вместе. Я решил исправить эту проблему: взял OWASP Juice Shop — уязвимое веб-приложение, развернул его через Docker на http://135.181.239.135:4000 и протестировал с помощью ИИ.
19 лет в айти, чтобы прикинуться джуном: как искать баги в приложениях с помощью ИИ
Я — Solution Architect с 19 годами в IT, часто помогаю новичкам в тестировании. Джуны обычно жалуются на вагон теории, отсутствие практики и примеров, где основные алогритмы собраны вместе. Я решил исправить эту проблему: взял OWASP Juice Shop — уязвимое веб-приложение, развернул его через Docker на http://135.181.239.135:4000 и протестировал с помощью ИИ.
От слепых котят к ИИ-гуру: история автоматизации тестирования в Сбере
Всем привет! На связи команда Take it easy. Название говорит само за себя: мы упрощаем жизнь другим командам в релизном цикле и повышаем эффективность производственного процесса.
Gemma-3: Обзор модели
ВведениеЯзыковая модель, которая работает быстрее, понимает глубже, а объём имеет более компактный, — кто ты, воин? Да, это Gemma-3, как вы уже догадались по названию статьи. Google, а точнее подразделение DeepMind, вновь смог приятно удивить активных пользователей ИИ, выпустив довольно лёгкий инструмент, который готов посоперничать с гигантами вроде ChatGPT-4 и Deepseek-R1. Компания даже заявила, что Gemma-3 — это лучшая нейросеть среди малых языковых моделей и что она лишь немного уступает производительности DeepSeek-R1, который имеет 671 млрд параметров.
Может ли разработчик с большим стажем но без QA бэкграунда стать хорошим Quality Assurance инженером?
В современной разработке программного обеспечения роли четко распределены: разработчики пишут код, системные аналитики формируют требования, а QA‑инженеры обеспечивают качество. Но что происходит, когда компания решает нарушить это равновесие и нанять опытных разработчиков без QA бэкграунда в отдел тестирования? Наш опыт показал, что это может привести к неожиданным результатам.Исходная ситуация в компании
Как тестировать AI-приложения — Практический опыт Mentorpiece
Первая статья цикла про работу AI-QA-инженера (но написана без использования AI)Когда работаешь в IT уже почти 25 лет, то все обещаемые революционные изменения первое время воспринимаешь со значительным скепсисом. "Все - в мобайл, остальное умрёт" или "все - в крипту, в этом будущее" обычно заканчивается тем, что появляется очередное ответвление внутри IT, а старые направления никуда не деваются.
15 промтов для ChatGPT, упрощающих работу QA-менеджера
В эпоху искусственного интеллекта постоянно растет количество инструментов и ресурсов, которые помогают специалистам из разных областей делать свою работу быстрее, точнее и интереснее.В этой статье рассмотрим, как ChatGPT от OpenAI может помочь вашей QA-команде и взять на себя часть рутины.ChatGPT для тестировщиков: полезные запросыChatGPT уже широко используется благодаря своим возможностям и может значительно упростить задачи, связанные с обеспечением качества программного обеспечения. Вот несколько примеров запросов, которые помогут менеджерам по качеству эффективно внедрить ИИ в рабочие процессы.

