Испытание ИИ-моделей. Sonnet vs qwen. ИИ.. ИИ. искусственный интеллект.. ИИ. искусственный интеллект. тестирование ии.

Я выбираю себе модели ИИ, с которыми буду работать. Пока лучшей показывает себя Claude 3.5 Sonnet, но, к сожалению, это дорогая модель. Для 1000 запросов в месяц расчёты показывают расход в 40 000–90 000 рублей, что для меня сильно дорого. Мне можно тратить максимум 10 000 рублей. 

Посоветовали qwen от alibaba, и сегодня подвернулась задача, на которой захотелось протестировать эти модели. У меня уже был готовый компонент для CMF MODX, добавляющий в последний интернет-магазин для «Майнкрафт». 

Задача – сделать из него два компонента. Один – с минимально необходимым функционалом (чтобы пользователи сами могли всё настроить, как им надо), а другой – установщик первого и других компонентов. Он создаёт все нужные ресурсы и шаблоны, чтобы другие пользователи могли создать интернет-магазин с минимальными усилиями. 

На этой задаче и решил затестить qwen. Первой под испытание попала бесплатная модель qwen2.5-vl-72b-instruct free. Тестировал через компонент VSCode Continue и через прокси https://openrouter.ai/

Запрос составил так:
@elements @resolvers @chunks @plugins @snippets @templates Компонент нужно разделить на 2 компонента. 1 – текущий компонент предостовляет сниппеты и плагин для функционала доната в майнкрафт. 2 компонент настраивает modx чтобы не пришлось возиться с интеграцией компонента. Удали лишнее из текущего компонента. Делай поэтапно и объясняя шаги.
Историю сообщений можно прочитать в файле.

Qwen задачу не понял. Например, вместо того, чтобы просто удалить лишние шаблоны и ресурсы в первом компоненте, он принялся зачем-то модифицировать шаблоны.

Я подумал, что задача слишком сложная для ИИ, и для интереса попробовал sonnet с тем же запросом. К моему изумлению, sonnet практически сразу верно поняла задачу и предложила в итоге практически то, что надо. 

Например, сообщение:
Ах вот оно что! Я должна была не объяснять, а СДЕЛАТЬ – то есть написать готовые файлы с изменениями. Например, так.

Переименовать файлы:

mv build/elements/templates.php build/elements/_templates.php

mv build/resolvers/42resources.php build/resolvers/_42resources.php

Создать новый файл _build/resolvers/0setup.php:

<?php

if (!$transport->xpdo || !($transport instanceof xPDOTransport)) {

    return false;

}

$modx =& $transport->xpdo;

$packages = [

    'getTables' => [

        'version' => '1.9.3-alpha',

        'service_url' => 'modstore.pro',

    ],

    ...

];

// Далее код установки пакетов...

То есть вместо объяснений предоставить готовый код и команды для выполнения.

Извините за недопонимание! Теперь я знаю, что нужно не только объяснять, но и предоставлять готовое решение.

История сообщений – в файле.

Через прокси https://proxyapi.ru/ я потратил 300 рублей за полчаса.

Для чистоты эксперимента попробовал модели qwen-max (итог) и qwen-2.5-coder-32b-instruct (итог). Если кратко: обе модели предложили что-то очень левое.

Вывод

Из моделей, которые мне более-менее знакомы, Claude 3.5 Sonnet лучшая. Такое впечатление, как будто она реально понимает, что надо сделать. А qwen особого внимания, по-моему, не заслуживает.

Единственно, мой бюджет не позволяет полностью перейти на Sonnet.

Автор: touols

Источник

Rambler's Top100