Тестирование IT-систем.

Цифровой абьюз. Обзор практик от энтузиастов по поиску моральных пределов чат-ботов

Человек любознателен. Многие из нас с раннего возраста испытывали непреодолимое стремление разобрать на части или хотя бы применить не по назначению какое-нибудь устройство. Жертвами этой любознательности обычно становились бесчисленные механические игрушки, бытовая техника или какие-нибудь механизмы. Ну а сейчас, в эпоху технологий, у нас есть чат-боты на основе ИИ, и они не стали исключением. Забавно задавать им вопросы с подвохом, использовать противоречивые сценарии, пробовать ввести в логическую ловушку. Пользователи начали сознательно провоцировать или «сводить с ума» своих виртуальных собеседников. В этой статье посмотрим, как именно это происходит, разберем реальные случаи и обсудим, к каким последствиям может привести.

продолжить чтение

Оставлено в

Исследование способности языковых моделей к логическим рассуждениям — тест RELIC

Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.

продолжить чтение

Оставлено в

Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах

Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.

продолжить чтение

Оставлено в

Новые тесты Apple показывают, что её ИИ-модели всё ещё отстают от лидеров рынка

Apple опубликовала новые данные о производительности двух своих моделей искусственного интеллекта и открыла доступ к меньшей по размеру системе для сторонних разработчиков. Тесты показывают, что технология LLM от Apple по-прежнему уступает конкурентам.

продолжить чтение

Оставлено в

Как мы в Mentorpiece тестируем… стоимость AI-приложений

Третья статья цикла про работу AI-QA-инженера (но написана без использования AI)В предыдущих статьях:Как тестировать AI-приложения:

продолжить чтение

Оставлено в

Взлом AI Assistant через… философию?

Продолжаю исследовать джеилбрейки LLM в нестандартных областях. Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.

продолжить чтение

Оставлено в

ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.

продолжить чтение

Оставлено в

Когда ИИ тестирует лучше тебя: ищу баги в OWASP Juice Shop с помощью Cypress и Workik

Я — Solution Architect с 19 годами в IT, часто помогаю новичкам в тестировании. Джуны обычно жалуются на вагон теории, отсутствие практики и примеров, где основные алогритмы собраны вместе. Я решил исправить эту проблему: взял OWASP Juice Shop — уязвимое веб-приложение, развернул его через Docker на http://135.181.239.135:4000 и протестировал с помощью ИИ.

продолжить чтение

Оставлено в

19 лет в айти, чтобы прикинуться джуном: как искать баги в приложениях с помощью ИИ

продолжить чтение

Оставлено в

Приглашаем на big tech night — «Ночь музеев» в мире IT

Этой осенью, 12 сентября, X5 станет частью big tech night и прямо у себя в офисе расскажет, как создаётся самый технологичный ритейл, и всё это — ночью!big tech night — это «Ночь музеев» в мире IT. Этот ивент совместно организуют X5, Яндекс, Сбер, Т-Банк, Lamoda. IT‑компании впервые одновременно откроют двери офисов ночью и покажут, где рождаются технологии и кто их создаёт.Регистрация для слушателей откроется чуть позже, а пока — приглашаем экспертов выступить 12 сентября в Москве на big tech night. Мы ждём спикеров, которые готовы поделиться экспертизой и прочитать хардовые технологические доклады.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Тестирование IT-систем.

Цифровой абьюз. Обзор практик от энтузиастов по поиску моральных пределов чат-ботов

Исследование способности языковых моделей к логическим рассуждениям — тест RELIC

Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах

Новые тесты Apple показывают, что её ИИ-модели всё ещё отстают от лидеров рынка

Как мы в Mentorpiece тестируем… стоимость AI-приложений

Взлом AI Assistant через… философию?

ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Когда ИИ тестирует лучше тебя: ищу баги в OWASP Juice Shop с помощью Cypress и Workik

19 лет в айти, чтобы прикинуться джуном: как искать баги в приложениях с помощью ИИ

Приглашаем на big tech night — «Ночь музеев» в мире IT

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Тестирование IT-систем.