тестирование ии.

Сравниваем LLM, 12 тестов для среднего класса: три Sonnet против GigaChat 2 MAX и YandexGPT Pro 5.1

В первой статье цикла мы гоняли по 11 тестам Opus 4.8, GPT 5.5 и Gemini 3.1 Pro, во второй устроили дуэль тяжеловесов Claude Fable 5 и GPT 5.5 Pro. В комментариях нас несколько раз спросили: а что там у моделей попроще и, главное, у отечественных? Спрашивали — отвечаем. Сегодня на ринге средний класс: три поколения рабочей серии Anthropic — Claude Sonnet 4.5, Sonnet 4.6 и свежий Sonnet 5 — против старших отечественных моделей: GigaChat 2 MAX от Сбера и YandexGPT Pro от Яндекса.

продолжить чтение

Оставлено в

Nano Banana Pro: полный обзор, тесты, промпты, сравнение с Gemini 3.1 Flash Image

Разберем Nano Banana Pro — топовую нейросеть для генерации изображений. Вас ждет сравнение с Nano Banana 2, сложные промпты рабочий гайд, как использовать модель из России.

продолжить чтение

Оставлено в

Новый инструмент Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов

Microsoft представила ASSERT (Adaptive Spec-driven Scoring for Evaluation and Regression Testing, адаптивная оценка на основе спецификаций для оценочного и регрессионного тестирования). Эта открытая платформа упрощает оценку поведения ИИ в конкретных приложениях, используя технологию для преобразования высокоуровневых описаний целей, политик или предполагаемого поведения на естественном языке в оцениваемые тесты, которые можно исследовать.

продолжить чтение

Оставлено в

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование

Продолжаем серию про файнтюнинг и создание DevOps-агента Oni. В первой части я собирался в отпуск и хотел, чтобы локальная моделька через OpenClaw сама мониторила ошибки и переподнимала проекты — пока я отдыхаю. Перебрал много разных моделей через Ollama и понял, что половина либо не умеет tool calling, либо ломаются на multi-step. В отпуск я в итоге не уехал — вместо этого снял VM с RTX 3090, начал учить Qwen3-14B через Unsloth QLoRA, а через неделю купил с авито старенький Dell с 3090, чтобы обучать у себя на локалке — стало интересно победить проблему.Во второй части

продолжить чтение

Оставлено в

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Привет, меня зовут Евгений Семенюк.Я в тестировании больше 12 лет: прошёл путь от Manual QA и автоматизации до Test Manager / Quality Architect. Сейчас много занимаюсь AI в тестировании, тестированием AI-систем, обучением команд и внедрением AI-подходов в QA-процессы.Так получилось, что у меня 9 ISTQB-сертификаций, включая полный Expert Level Test Management и много лет я на волонтерских началах помогаю инженерам готовиться к экзаменам и развиваю продукты для тестировщиков.Один из таких продуктов - ProSTQB.com.Это платформа для подготовки к ISTQB-сертификациям, включая ISTQB CT-AI / AI Testing

продолжить чтение

Оставлено в

Разбираем 14 самых популярных бенчмарков для LLM

Opus 4.5 набирает 80.6% на SWE-bench Verified. Opus 4 — 72.5%. Значит ли это, что Opus 4.5 лучше программирует, чем Opus 4?Ну... возможно. Но SWE-bench Verified это не показывает. Он показывает способность модели чинить небольшие баги в 12 популярных open source Python-репозиториях, которые почти наверняка входят в её обучающие данные. SWE-bench Verified не тестирует умение ориентироваться в вашем TypeScript-монорепо, Spring Boot-приложении или самописном ORM, на котором настоял предыдущий CTO.

продолжить чтение

Оставлено в

Red Hat объявила о приобретении Chatterbox Labs, специализирующейся на тестировании моделей ИИ и механизмах защиты ИИ

Red Hat объявила о приобретении компании Chatterbox Labs, специализирующейся на тестировании моделей искусственного интеллекта и механизмах защиты генеративного ИИ. Платформа AIMI от Chatterbox Labs предоставляет количественные метрики рисков ИИ и другие данные.

продолжить чтение

Оставлено в

OpenAI: выход новых моделей ИИ может повлечь риск создания биологического оружия

Руководители OpenAI предупредили, что будущие модели искусственного интеллекта могут нести новые риски, вплоть до создания биологического оружия. Компания усиливает тестирование таких моделей, а также внедряет новые меры предосторожности.

продолжить чтение

Оставлено в

Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах

Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.

продолжить чтение

Оставлено в

ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Недавняя серия соревнований по кибербезопасности, организованных компанией Palisade Research, показала, что автономные ИИ-агенты могут напрямую конкурировать с хакерами-людьми и иногда выходить вперёд.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

тестирование ии.

Сравниваем LLM, 12 тестов для среднего класса: три Sonnet против GigaChat 2 MAX и YandexGPT Pro 5.1

Nano Banana Pro: полный обзор, тесты, промпты, сравнение с Gemini 3.1 Flash Image

Новый инструмент Microsoft позволит разработчикам запускать тесты поведения ИИ с помощью текстов

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Разбираем 14 самых популярных бенчмарков для LLM

Red Hat объявила о приобретении Chatterbox Labs, специализирующейся на тестировании моделей ИИ и механизмах защиты ИИ

OpenAI: выход новых моделей ИИ может повлечь риск создания биологического оружия

Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах

ИИ-агенты превосходят команды людей в соревнованиях по хакерству

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

тестирование ии.