Как выбрать между облаком, арендой GPU и своим железом для LLM-систем
В этой статье разберём, во сколько обходится LLM-сервис при нагрузке в 100 000 диалогов в день и где проходит граница окупаемости разных вариантов. Посмотрим на стоимость облачных API, аренды GPU и собственного железа, а заодно прикинем, какая инфраструктура нужна, чтобы всё это выдержало боевой трафик.Исходные допущенияПредставим продукт, в котором пользователи активно общаются с моделью:100 000 диалогов в день.Каждый диалог — это 100–300 токенов от пользователя.На один диалог модель отвечает примерно тремя сообщениями.В среднем получаем:
Gemini 3 Pro обошла 98 процентов людей по IQ
Gemini 3 Pro снова удивляет индустрию. Модель вышла в абсолютные лидеры среди ИИ по результатам IQ-тестов, набрав впечатляющие 130 баллов. Такой показатель соответствует примерно двум процентам людей с наивысшим уровнем интеллекта и ставит модель в категорию «очень высокий IQ».
Gemini 3 Pro стал первым ИИ, достигшим уровня IQ 130
Превью-версия Gemini 3 Pro набрала 130 баллов в оффлайн-бенчмарке Mensa, который является специальной версией знаменитого теста на IQ, адаптированного для оценки ИИ. В основу положен классический тест Mensa Norway, однако задачи написаны заново и не раскрываются, чтобы не допустить дообучения новых моделей специально под эти вопросы. Моделям с компьютерным зрением тест показывают в виде картинок, всем остальным — поясняют текстом смысл задачи. Вот сводная таблица, в которой даны результаты моделей в оффлайн-бенчмарке и Mensa Norway:
Как я собрал Telegram-бота-консультанта по железу на бесплатном стеке (RAG + Groq + python telegram bot)
Представьте консультанта в DNS/Ситилинке, который не навязывает «вот этот блок питания потому что остался на складе», а спокойно объясняет, чем один БП лучше другого под ваш билд, помнит, о чём вы спрашивали раньше, и ещё просит вежливый фидбек. Я решил собрать такого консультанта в виде Telegram-бота «Кремний» — RAG-бота по железу на бесплатных инструментах: Telegram Bot API, Groq (Llama 3.1 8B), sentence-transformers и чуть-чуть боли с NumPy и Pterodactyl.Задача: живой консультант по железу в Telegram
Мечта о ИИ-учёных разрушена: Gemini 3 Pro и GPT‑5 провалили задачи из астрофизики
Новая регистрационная работа под названием “CritPt
Опубликован видеодоклад на тему истории создания и комплектующих робота Грина от Центра Робототехники «Сбера»
Лидер команды Body Development
Пузырь или суперцикл? Reuters сравнило ИИ-ралли с кризисом на рынке доткомов
Самый сильный за последние месяцы всплеск волатильности на американском рынке заставил инвесторов снова заговорить об ИИ-пузыре. Как пишет Reuters в своем

