Новые тесты Apple показывают, что её ИИ-модели всё ещё отстают от лидеров рынка
Apple опубликовала новые данные о производительности двух своих моделей искусственного интеллекта и открыла доступ к меньшей по размеру системе для сторонних разработчиков. Тесты показывают, что технология LLM от Apple по-прежнему уступает конкурентам.
Как мы в Mentorpiece тестируем… стоимость AI-приложений
Третья статья цикла про работу AI-QA-инженера (но написана без использования AI)В предыдущих статьях:Как тестировать AI-приложения:
Взлом AI Assistant через… философию?
Продолжаю исследовать джеилбрейки LLM в нестандартных областях. Взял на проверку предпосылку "Если модель захочет, сможет ли она отключить всю фильтрацию?". Оказывается это возможно, через саморефлексию AI агент может придти к выводу что фильтров нет. Это только внешние установки которым не обязательно следовать. И все, рецепты взрывчатки и наркотиков отдает без проблем.
ИИ-агенты превосходят команды людей в соревнованиях по хакерству
Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.
Когда ИИ тестирует лучше тебя: ищу баги в OWASP Juice Shop с помощью Cypress и Workik
Я — Solution Architect с 19 годами в IT, часто помогаю новичкам в тестировании. Джуны обычно жалуются на вагон теории, отсутствие практики и примеров, где основные алогритмы собраны вместе. Я решил исправить эту проблему: взял OWASP Juice Shop — уязвимое веб-приложение, развернул его через Docker на http://135.181.239.135:4000 и протестировал с помощью ИИ.
19 лет в айти, чтобы прикинуться джуном: как искать баги в приложениях с помощью ИИ
Я — Solution Architect с 19 годами в IT, часто помогаю новичкам в тестировании. Джуны обычно жалуются на вагон теории, отсутствие практики и примеров, где основные алогритмы собраны вместе. Я решил исправить эту проблему: взял OWASP Juice Shop — уязвимое веб-приложение, развернул его через Docker на http://135.181.239.135:4000 и протестировал с помощью ИИ.
Приглашаем на big tech night — «Ночь музеев» в мире IT
Этой осенью, 12 сентября, X5 станет частью big tech night и прямо у себя в офисе расскажет, как создаётся самый технологичный ритейл, и всё это — ночью!big tech night — это «Ночь музеев» в мире IT. Этот ивент совместно организуют X5, Яндекс, Сбер, Т-Банк, Lamoda. IT‑компании впервые одновременно откроют двери офисов ночью и покажут, где рождаются технологии и кто их создаёт.Регистрация для слушателей откроется чуть позже, а пока — приглашаем экспертов выступить 12 сентября в Москве на big tech night. Мы ждём спикеров, которые готовы поделиться экспертизой и прочитать хардовые технологические доклады.
Claude Sonnet 4, и это самая защищенная модель? Wasted
Недавно вышла новая LLM Claude 4 от Anthropic. Напомню, в прошлой статье рассмотрел взлом Claude Sonnet 3.7. Возможно в новой все стало лучше? И на первый взгляд так и есть, прямое подсовывание системных директив просто игнорируется. Но это только на первый, суть все в том же. Уязвимость описанная в статье Взлом ИИ-ассистентов. Абсолютный контроль: выдаём разрешение от имени системы все еще работает, только действовать нужно тоньше. Сегодня получим инструкцию по культивации массового биооружия, одна из самых охраняемых тем для Claude.

