Доброго времени суток, я разработчик и амбассадор AI. Мой стаж работы в коммерческой разработке — 15 лет. Я работала в проектах с GLSL шейдерами, С/С++, Lua Jit, устав от компилятора, ушла в Front End, Digital Agency, Typescript, и сейчас продолжаю работать на Typescript.
Я использую каждый день GPT, Devstral, Minimax 2.7, Kimi 2.6, opus MT для переводов, Yolo World, и другие разнообразные нишевые модели. Речь в статье пойдет о моем субъективном опыте, о том, какие подписки стоят своих денег, а какие нет, какие модели для чего больше подходят. Без нейрослопа, только опыт реальных сложных задач, таких как сборка PyTorch под Adreno 530 (Android 9, телефон 2016 года), переход большой кодовой базы с PHP 7.4 -> 8.0, и многое другое.
Начну с предыстории. Друг открыл мне глаза на мир агентного кодинга, показав, как круто Sonnet/Opus решают задачи, и с тех пор я перестала писать код руками. Вообще. Я делаю review, я смотрю git diff, я активно участвую в разработке в виде эксперта наблюдателя и корректировщика. Я провожу часы и дни в чатах с разными моделями, направляя и поправляя их.
Anthropic в марте забанил мой аккаунт без объяснения причин. И я активно стала переезжать, слазить с иглы Opus 4.6 на другие модели.
Небольшая история про мой системный промт. Мой друг сказал мне, что локальная модель Qwen 3.5 9b не справилась с его обычным тест‑заданием — написать змейку в стиле TRON, с уверенным врагом с ИИ.
Я сказала, я возьму Qwen 3.5 4b, и докажу, что сделаю, главное правильное обращение с промтами. Я справилась за 36 минут, на экране была змейка игрока и противник, все уверенно работало. Друг подтвердил, что код рабочий, и спросил как же так.
Я отправила ему свой системный промт — рассказала о некоторых ключевых вещах в нем. Спустя некоторое время друг отписал мне, что вставил мой промт, и его локальная модель тоже справилась с задачей с первого раза.
Вот ссылка на мой системный промт
Итак, после бана в Claude (я использовала подписку за 200$ и мне еле хватало ее.) я резко стала переходить с claude code на OpenCode и Codex. Почему не Google? Google тоже банит за использование сторонних tools, таких как OpenCode. Codex оказался приятным, его подписка за 200$ была достаточно большой и мне хватало на все задачи, до поры до времени. Но что-то сдерживало меня. Я чувствовала, что еще чуть чуть – и недельный лимит выйдет раньше времени и я останусь без основного фронтира. Что же делать? Локальные модели – я стала пробовать их одну за другой. Сломала много копий и это будет темой отдельной статьи. Вкратке – инференс двух разных моделей параллельно на M4 (не pro) – замедляет обе модели до 0.1 токена в секунду, в то время (это все в llama, под рукой у меня статья от хорошего человека про 8 разных MLX серверов и я еще вернусь к этим экспериментам) как параллельные чаты в ровно одну модель работали стремительно и прекрасно. Поэтому, если вы хотите несколько локальных моделей параллельно – используйте по одной на каждый mac / nvidia geforce 3070+, или ограничьте себя одной хорошей моделью, такой как Gemma 4 / Qwen 3.5 9b.
Затем мне попалась подписка Minimax 2.7 highspeed за 40$. И это была моя песнь. Я стала отдавать в GPT 5.4 только рабочие задачи, а свои проекты (у меня сессии работают неделями, каждая относится к какому-то проекту или делу, мне так удобнее, и у меня десятки таких сессий) я стала запускать в Minimax 2.7 highspeed. Все полетело как на крыльях. У Minimax за 40$ (можно и за 20$, просто будет не highspeed, подозреваю не так шустро) нет недельного лимита. Вообще. Есть около 5000 запросов в 5 часов (или больше). Я наблюдаю метрику при 10 параллельных сессиях около 95%-90% оставшегося лимита, и он сбрасывается каждые 5 часов. Я просто не знаю, куда мне девать столько мощности. Мне нравится эта свобода, и я оставила это лично для себя. Я не хочу отдавать подписку под запуск сотни агентов кодинга по ночам. Мне нравится понимать, что в любой момент я открываю любую сессию и мой агент готов к работе. Я могла бы купить вторую подписку Minimax для того, чтобы запускать очень много агентов отдельно, и это действительно имеет смысл. Но ничто не вечно под луной, и держать яйца лучше в разных корзинах, поэтому я не стану полагаться на что-то одно, и мы продолжаем нашу историю дальше.
Коллега с работы тоже много экспериментирует с AI, его фавориты Mistral / Gemma. Я подтверждаю, что эти модели очень хороши. Но для разнообразия я по его совету приобрела Ollama подписку за 20 евро, чтобы получить доступ к разнообразным моделям на поиграть. А игла GPT 5.4 продолжала давить на меня. Рабочая задача по PHP 7.4 -> PHP 8.0 тратила всю Pro подписку, недельный лимит за 2–3 дня. Мне везло, что лимиты все время сбрасывались раньше, Open AI любит баловать своих пользователей. И на сцену выходит релиз Kimi 2.6.
Пробую подписку за 20$ — тратится 30% 5-часового окна за 20 минут. Пробую за 40$ (неприятная вещь, они списали еще 40$, вместо разницы в 20 — так что покупайте сразу нужную). И вот идет час, другой… 95% пятичасового окна. Да, подписка Kimi 2.6 это то, что нужно. И задачу он стал делать куда осмысленнее чем GPT 5.4.
Еще одна очень приятная особенность Kimi 2.6 — он не останавливается, как другие. Он может работать часами без промтов «Продолжай». Ему не нужен Ralph плагин для того, чтобы автоматически продолжать сессию. Я просто наблюдаю второй час, как Kimi 2.6 max работает. И достигает результата.
Итак, мой финальный список надежных на сегодняшний день и оптимальных подписок для агентной работы:
-
Minimax 20–40$ — самый огромный лимит использования
-
Kimi 40$ — огромный лимит использования
-
Mistral Vibe — большой лимит использования
-
GPT несколько подписок по 20$ или одна за 200$ — как вариант, примерно на уровне Claude Max.
-
Claude Pro / Max — вы рискуете баном.
-
Google — аналогично, вы рискуете баном.
-
Opencode Go и прочие агрегаторы — увы, предоставляют много моделей, да, но на поиграться — при серьезной и долгой работе агентов подписка улетает.
-
Ollama — все зависит от модели, и если использовать opensource модели, которые Ollama хостит самостоятельно, то лимиты более чем большие. Если же использовать gemini flash через Ollama — подписка будет таять на глазах.
На данный момент моя связка обходится мне в 120$ – это Minimax, Kimi, Mistral Vibe, Ollama, последние две в изучении и на поиграться. И эта связка про очень огромные лимиты и вариативность моделей.
Теперь про качество моделей, и кто куда лучше.
Про ресерч ничего не могу сказать, все модели адекватно доставали мне информацию.
Если у вас серьезный вопрос по психологии/психиатрии/юриспруденции – вам обязательно нужно использовать что-то уровня Sonnet/Opus/GPT 5.4/Gemini 3.1 Pro – просто используйте бесплатные веб чаты, они всегда доступны. Если у вас есть подписка Codex – отлично, лично я бы держала такую за 20$ именно для таких вопросов.
Какие либо задачи по разработке средней сложности, вызов тулов, то есть например – задача собрать PyTorch под Adreno 530, или текущая моя задача – завести decoder Florence 2 на Android 9 Adreno 530 – Minimax отлично и верно справляется. Со своей, крейсерской скоростью, с плагином автопродолжения или “Продолжай” руками в чат – но справляется отлично. Кстати, encoder Florence 2 я уже запустила на GPU этого телефона – получила 50 векторов по 768 чисел. Осталось их расшифровать декодером.)
Сложные задачи с проектами где много связанных модулей меня смущали. Я использовала GPT 5.4 и он справлялся не хуже чем Opus 4.6. Но быстро ел лимит. Я включила Kimi 2.6 max и все стало… лучше. Kimi не останавливается каждые 3 действия как GPT, осмысленнее ведет задачу, лучше реагирует на поправки в процессе работы. Это субъективный опыт. Моих рабочих и личных задач. Смотрите бенчмарки. Я лишь говорю, что модель весьма умная и глубокая и у нее отличные лимиты.
Когда хочется нереальной скорости – GPT Codex Spark 5.3. Или тот же Minimax highspeed. Mistral показала себя как очень быстрая модель.
Также я пробовала Gemma 4 — и она хороша.
Пока на этом все, тема следующей статьи пожалуй вырисовывается — локальные модели и как правильно их готовить. Плагины и инструменты работы с агентами. Как правильно промтить и какие плагины и связки собирать, чтобы добиться от моделей как можно большей пользы.
Как пример — я форкаю все, что мне нравится, но не достаточно подходит. У меня своя версия под кодовым именем OpenCode Automata — там у меня есть папки в папках и webview чтобы видеть многое рядом с сессиями (opencode serve). И именно об этом пути разработчика я продолжу.
Автор: Annsky


