тестирование. - страница 13

Языковые модели ИИ тестируют на способность рассуждать в игре «Phoenix Wright: Ace Attorney»

Исследователи подвергли ведущие модели ИИ новому виду тестирования, которое показывает, насколько хорошо они могут рассуждать, чтобы одержать победу в суде. Результаты выявили некоторые явные различия как в производительности, так и в стоимости.

продолжить чтение

Исследование: стартап Cluely для обмана на экзаменах выдаёт обычные ответы от ChatGPT через оверлей

Команда 404 Media провела собеседование с помощью ИИ-помощника Cluely, который в реальном времени подсказывает ответы на вопросы собеседника прямо на экране. Выяснилось, что он часто повторяет стандартные формулировки чат-бота ChatGPT без учета специфики конкретной компании.

продолжить чтение

87% валидных тест-кейсов: как ChatGPT справляется с их генерацией

АннотацияСоздание тест-кейсов на основе требований — важная, но трудоёмкая часть системного тестирования. В статье рассматривается, насколько эффективно с этой задачей на данный момент справляется большая языковая модель ChatGPT-4 Turbo. Для эксперимента использовались пять проектов с реальными SRS-документами, включающими функциональные и нефункциональные требования. С помощью цепочки промптов модель генерировала тест-кейсы для каждого юзкейса, а оценку качества проводили сами разработчики.

продолжить чтение

Почему традиционные тесты не отражают реальный потенциал ИИ

Интеллект проявляется повсеместно, но его измерение кажется субъективным. В лучшем случае мы приблизительно оцениваем его с помощью тестов и контрольных заданий. Вспомните вступительные экзамены в колледж: каждый год бесчисленное количество студентов записываются на них, заучивают советы по подготовке к экзаменам и иногда получают идеальные баллы. Означает ли одно число, например 100%, что у тех, кто его получил, одинаковый уровень интеллекта — или что они каким-то образом максимально раскрыли свой интеллект? Конечно, нет. Тесты — это приблизительные, а не точные измерения реальных возможностей кого-либо или чего-либо.

продолжить чтение

Дебаты по поводу бенчмаркинга ИИ достигли Pokémon

Даже покемоны не защищены от споров о бенчмаркинге искусственного интеллекта. На прошлой неделе пост на X стал вирусным. В нём утверждалось, что последняя модель Google Gemini превзошла флагманскую модель Claude от Anthropic в оригинальной трилогии видеоигр Pokémon. Сообщается, что Gemini достиг Лавандового города на стриме разработчика на Twitch, а Claude застрял на горе Мун в конце февраля.

продолжить чтение

Я работал в продуктовой команде 7 лет, а потом пришла нейросеть

Эту историю для моего блога рассказал Леонид Шашков и Илья Головко, CPO в крупном финтехе. Еще пару лет назад моя работа продакт-менеджера выглядела как бесконечное жонглирование задачами: исследования пользователей, анализ конкурентов, документация, постановка задач, презентации... И так по кругу. Большую часть времени съедали рутинные задачи, которые требовали механической работы, но не давали простора для творчества. А теперь...

продолжить чтение

Регулярные выражения для инженеров тестирования: чтение, анализ и применение в тестировании

Всем привет. Сегодня в блоге ЛАНИТ на Хабре мы с вами поговорим про такую важную тему, как регулярные выражения. Что это такое, для чего применяется, чем знание этого инструмента работы с данными может помочь инженеру тестирования и как регулярные выражения устроены. 

продолжить чтение

Большая языковая модель «Авито» обогнала OpenAI и Google в бенчмарке MERA

Большая языковая модель A‑Vibe, разработанная «Авито», заняла первое место среди облегчённых моделей (до 10 млрд параметров) в российском бенчмарке MERA. Модель обошла аналоги от OpenAI, Google и Anthropic, рассказали информационной службе Хабра в пресс‑службе «Авито».Команда «Авито» разработала собственные генеративные модели A‑Vibe и A‑Vision, использовав на старте открытую модель. Open source модель плохо работала с русским языком, потому что данные включали 100 языков, а русский занимал 1%. Из‑за этого модель слабо понимала и генерировала тексты на русском.

продолжить чтение

Я больше не вижу багов…

Привет! Я — Маша, которая заваривает qaшу (и иногда крепкий кофе, когда глаза уже отказываются фокусироваться на экране). Сегодня хочу поговорить о проблеме, с которой сталкивался, наверное, каждый тестировщик (и не только). В один «прекрасный» день ты садишься проверять фичу или делать регресс, а баги просто перестают быть видны. Ты кликаешь, прогоняешь сценарии, но будто слепнешь — всё кажется рабочим. А потом оказывается, что пропустил очевидный косяк, и по цепочке начинается: чувство вины → стресс → ещё большая усталость → ещё больше ошибок.

продолжить чтение

История о том, как бот в отделе тестирования упростил нам жизнь

продолжить чтение