Архивные записи BrainTools за - страница 236

Визуальное тестирование с ИИ: сравнение скриншотов без ложных срабатываний

Ключевые выводыОбнаружение различий между двумя изображениями — важная задача в визуальной автоматизации тестирования, когда скриншот нужно сравнить с предыдущей версией или эталонным дизайном.Генеративный ИИ на базе мультимодальных языковых моделей отлично распознаёт и объясняет содержимое изображения, но способен выявлять различия лишь в тех аспектах, на которых он был явно обучен.Эта задача обычно решается с помощью сверточной нейронной сети (CNN), сравнивающей небольшие фрагменты изображений (область 9×9 пикселей) вместо отдельных пикселей.

продолжить чтение

ИИ против B2B-дизайна. Кто победил?

Каждый день в ленте вижу одно и то же: «10 AI‑инструментов, которые заменят дизайнеров».Но никто не проверяет, что будет, если попросить ИИ нарисовать не лендинг с котиком, а обычный B2B‑интерфейс.Я решила провести дизайнерскую проверку на вшивость.Взяла три инструмента: Wireframe Designer, UX Pilot и Uizard и дала им одинаковую задачу: создать контрактный модуль в выдуманной B2B‑системе. Без красоты, без маркетинговых лозунгов, просто таблицы, фильтры и кнопки.

продолжить чтение

«Какой ещё “агентный ИИ”, если он одну инструкцию толком выполнить не может?»

На форуме Cursor развернулась жаркая дискуссия: пользователи массово жалуются, что «агентные» ИИ — это пока больше маркетинг, чем магия. Один из участников, устав править за GPT-5 и Gemini Pro, выдал крик души: Какой агент, если модель не может даже обновить одну Go-функцию без ошибок?!

продолжить чтение

Google запустил ИИ-поиск в России

У российских пользователей поисковой системы Google начала появляться функция AI Mode — поиска в сети с использованием искусственного интеллекта от Google DeepMind. Для ее активации надо ввести запрос, а затем нажать отдельную иконку AI Mode в поисковой строке. Модель даст сгенерированный ИИ ответ, а рядом с ним — список ссылок на сайты по теме.

продолжить чтение

OpenAI и Broadcom объявили о стратегическом партнёрстве для разработки AI-ускорителей

продолжить чтение

LLM в роли «судьи» vs. человеческая оценка: почему вместе — лучше

В гонке за следующей волной «умных» систем большие языковые модели берут на себя неожиданные роли. Одна из самых интересных — использовать такие модели как «судей» для оценки других моделей. Подход уже экономит командам массу ручной работы, но остаются вопросы: способен ли LLM уловить каждую тонкую ошибку? Что происходит в ситуациях, где критичны человеческая интуиция или глубокая предметная экспертиза?

продолжить чтение

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

продолжить чтение

Глава NVIDIA подарил Илону Маску ИИ-суперкомпьютер, помещающийся в коробку

продолжить чтение

Философия мемристоров: изобретение или открытие явления?

продолжить чтение

Почему «больше токенов ≠ лучше» или Как научить LLM работать с длинным контекстом

Всем привет! Меня зовут Наталья Бруй, я промпт-инженер в MWS AI. Вместе с моей коллегой  Анастасией Тищенковой мы решили ответить на вопрос, который мучает нашего пиарщика

продолжить чтение

Rambler's Top100