- BrainTools - https://www.braintools.ru -
Недавно копайлот перешёл на новую тарификацию, из-за которой я упёрся в месячные лимиты буквально за первую рабочую неделю. В рабочих чатиках все стали искать способ экономить токены, и среди разных предложений стабильно мелькал скилл под названием Caveman.
Что он обещает? Идея простая — скилл указывает нейронке говорить, как пещерный человек, убирать артикли, говорить коротко и думать лаконично. На первых строках README обещается экономия до 75%. При этом без потери качества!
Кажется круто и интуитивно понятно — говоришь короче, значит, токенов тратится меньше. Но внутри меня засело сомнение. Уж слишком это всё попахивает каким-то скамом. Будь это так просто, разработчики агентных систем уже бы, скорее всего, и сами включили что-то подобное.
Ещё одна вещь, которая настораживает и раздражает меня в таких чудо-репозиториях, — это график звёздочек.
В целом, понятно желание автора попонтоваться, тем не менее, раньше популярные репозитории таких графиков не выставляли.
Да и зачем это вообще нужно? У меня есть одно предположение, думаю, в конце статьи его выскажу.
А пока я решил протестировать этого caveman’а, потому что на удивление в интернете не оказалось бенчмарков. Только исследования самого автора и пара комментов на реддите, что мол всё работает.
Вообще довольно сложно придумать какой-то показательный тест. Раньше, пока модельки были попроще, достаточно было попросить написать кусочек кода и оценить его. Но сейчас, в общем-то, это уже не показатель. Ещё в идеале запускать два разных варианта одного и того же промпта на одинаковых задачах.
И вот ещё что: мне показалось, что caveman просто обязан ухудшить качество размышлений моделей. А как следствие — ударить по качеству более абстрактных задач.
Поэтому я придумал такой тестовый промпт:
Сделай мне в новой папке игру про огромного робота с видом сверху, папку положи в папку games. Не задавай мне вопросов, делай так, чтобы получилось интересно и необычно. Сделай задачу до конца.
В итоге было интересно посмотреть на две вещи — качество самой игры, а ещё — потраченное время и токены.
Для разнообразия запускал бенчмарки на двух моделях при отключённой памяти [1] у клода. Итого получился такой набор тестов:
Opus 4.8
Opus 4.8 With Caveman
Sonnet 4.6
Sonnet 4.6 With Caveman
На выходе получилось 4 игры.
По самим играм:
▪️Игра от Opus 4.8 With Caveman вышла плохой. С кучей ошибок и геймплейных проблем. А вот у Opus 4.8, я бы сказал, вышло на порядок лучше. Он даже добавил прогрессию. Правда, она заключалась в том, что робот просто растет. Но в целом игра смотрится просто нормально.
▪️Игры от Sonnet получились хуже, а игра от Sonnet With Caveman вообще не запустилась.
Итого, по качеству решений Caveman только все ухудшил.
С играми можно ознакомиться и поиграть в каждую ниже, дабы убедиться в качестве лично:
С качеством не задалось, окей. Но может хоть токены сэкономим?
|
Конфигурация |
Токены |
Время |
|
Sonnet 4.6 |
42.2k tokens |
16m 12s |
|
Sonnet 4.6 With Caveman |
52k tokens |
12m 50s |
|
Opus 4.8 |
32.5k tokens |
5m 16s |
|
Opus 4.8 With Caveman |
29k tokens |
4m 34s |
На Sonnet я запускал тесты ещё раз, потому что меня удивило, что в реальности токены не только не экономились, но ещё и затрачивались больше! Результат второго теста был примерно такой же.
|
Конфигурация |
Токены |
Время |
|
Sonnet 4.6 |
40.3k tokens |
15m 36s |
|
Sonnet 4.6 With Caveman |
59.1k tokens |
12m 50s |
На Opus и правда была небольшая экономия, но во-первых, не 75%, а во-вторых, качество просело значительно!
В общем, и тут я бы констатировал промах.
На мой взгляд, caveman — это очередной нейрослопный скам, который попросту не работает. Как сказал мой коллега: обычный Be brief в самом начале AGENTS.md [6] работает лучше.
Мне кажется, что такие штуки, как Caveman, раскручиваются по такой схеме:
Делается проект.
На него закупаются звёзды на гитхаб [7].
Создается пост в твиттере, мол я запилил проект с кучей звёзд.
Настраивается SEO, чтобы загугливший бенчмарки человек получал строго положительные отчёты.
А дальше оно уже живёт само, разносится по ютубу и прочим соцсеткам.
Автор получает хайп, раскачивает личный бренд. Пользователи получают обычный скам.
Это, конечно, лишь мои догадки, но если смотреть по цифрам:
Репозиторий создан 4 апреля, и уже в первые сутки он набирает больше 1000 звезд.
Дальше проект набирает по 1400–2500+ в день — звёздный график буквально идёт вертикально от момента создания, хотя за день до этого об этом репозитории никто не слышал.
Я не маркетолог, но кажется, что у живого вирусного запуска должен быть какой-то разгон, а не просто выброс в первые сутки.

К примеру библиотека tailwindcss [8] набрала за аналогичный период всего 58 звёзд.
Возможность раскрыть неэффективность решения осложняется еще тем, что не сразу ясно, а как проверить такое решение на эффективность. Те, кто поставил себе этот скилл, просто не видят, что конкретно ухудшилось. А чисто интуитивно может казаться, что токены и правда жгутся меньше. И даже если кто-то заметит, что качество стало хуже, то всё равно спишет на то, что «что-то Opus в последнее время понёрфили». Что, кстати, и правда бывает.
Теперь про то, что работает. По моему опыту [9], сейчас работает то, что, к примеру, режет вывод инструментов. То есть, — не какая-то магия, а понятное и предсказуемое сокращение количества спецсимволов в читаемых нейронками данных. К примеру, библиотека rtk [10]. Хотя, конечно, график звёзд в readme этой библиотеки заставляет задуматься о том, чтобы на всякий случай провести тесты…
На этом все. Спасибо, что дочитали до конца. Надеюсь, что этим небольшим исследованием у меня получится сэкономить ваше время и токены на использовании этой тулзы.
А еще мне нравится делать подобные исследования вместе с моим другом @sagos95 — так что подписывайтесь на наш телеграм-канальчик [11], где мы порой публикуем подобные исследования.
Ну и если несложно, то напишите в комментариях, знаете ли вы еще подобные репозитории которые работают или не работают. Мне будет интересно их тоже потестировать.
Автор: Indermove
Источник [12]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/31850
URLs in this post:
[1] памяти: http://www.braintools.ru/article/4140
[2] клик!: https://undermove.github.io/open-source-resurrection-machine/cavemantests/Opus48/
[3] клик!: https://undermove.github.io/open-source-resurrection-machine/cavemantests/Opus48c/
[4] клик!: https://undermove.github.io/open-source-resurrection-machine/cavemantests/Sonnet46/
[5] клик!: https://undermove.github.io/open-source-resurrection-machine/cavemantests/Sonnet46c/
[6] AGENTS.md: http://AGENTS.md
[7] закупаются звёзды на гитхаб: https://the-guild.dev/blog/judging-open-source-by-github-stars
[8] tailwindcss: https://github.com/tailwindlabs/tailwindcss
[9] опыту: http://www.braintools.ru/article/6952
[10] rtk: https://github.com/rtk-ai/rtk
[11] наш телеграм-канальчик: https://t.me/+bYC9ElLz8KAxNWUy
[12] Источник: https://habr.com/ru/articles/1048328/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1048328
Нажмите здесь для печати.