llm.
Пишем LLM бенчмарк для GPU-серверов с картами NVIDIA в Ollama
Автор: Александр Казанцев, руководитель направления по работе с документацией и контентом HOSTKEYПри сборке GPU-серверов или при проблемах с ними, которые сообщают наши клиенты, нам необходимо проводить их тестирование. Так как разворачивание LLM-моделей в Ollama является одним из сценариев их использования и мы предлагаем готовые панели с моделями на её основе, то нам необходимо также проверять машины на работоспособность и под нагрузкой в инференсе через нее и иметь результаты для сравнения.GPU-серверы — почасовая тарификация
Открываю карты: 12 лет работы в ФНС
Приветствую всех читателей Хабра!Настал день, когда я снял "оковы" и могу открыто говорить о том, чем я занимался на протяжении последних 12 лет.Ранее я опу��ликовал 3 статьи, в которых делился опытом гуманитария при работе с нейронными сетями, в том числе честно рассказал о своем опыте вайбкодинга, как я применяю LLM в повседневной жизни, и о своих попытках дообучения LLM с помощью WebUI Text Generation.
AI-торрент: децентрализованная сеть, где твои GPU станут валютой для супер-AI
ИИ и автоматизация — это цунами, которое обрушится завтра, смывая отрасли и экономики. Его можно либо интегрировать в свои ресурсы, либо погрузиться в зависимость от облачных гигантов.Я столкнулся с этой болью: ИИ-inference стоит дорого. А почему мои неиспользуемые GPU от майнинга не могут стать платой за него?Концепция: P2P-инфраструктура на базе MoE"ИИ-торрент" — это децентрализованная P2P-сеть для inference ИИ-моделей. В её основе три ключевых принципа:BitTorrent-экономика.
AI-инструменты 2025: Полный технический анализ Perplexity, ChatGPT, Gemini и DeepSeek
🎯 Резюме: Кто лучше?ИнструментОценкаСильная сторонаPerplexity AI4.20/5Точность + RAG архитектураChatGPT3.85/5MoE + GPT-4o мультимодальностьDeepSeek3.75/5MoE эффективность + бесплатноGemini3.35/5Контекст 1M + видео обработка
Опыт использования S3 Vector с локальной LLM для RAG
ВведениеВ нашей компании AnyMaint, которая занимается разработкой софта для управления техническим обслуживанием и ремонтом (CMMS) промышленного оборудования, одной из главных задач является нормализация имён тулов (инструментов). Под «тулом» мы подразумеваем любой промышленный актив: машины, станки, приборы, оборудование и т.д.Зачем это нужно?
Топовая китайская модель для агентных задач Kimi K2–Thinking уже доступна бесплатно в Koda для VS Code и CLI
Буквально несколько дней назад китайский стартап Moonshot AI выпустил "думающую" версию своей модели K2 – K2-thinking.Kimi K2 Thinking устанавливает новые рекорды на бенчмарках (на некоторых даже опережает GPT-5!), оценивающих логическое мышление, кодинг и агентные способности.
AI против рутинной оценки чатов: как мы заменили ручную аналитику чатов LLM
Онлайн‑чат — одна из главных точек контакта клиента с банком. От того, каким будет диалог, зависит не только пользовательский опыт, но и ключевые показатели. Системная работа над качеством поддержки — реальный рычаг влияния на эффективность бизнеса. Необходимо регулярно оценивать диалоги: отмечать, где специалист справился хорошо, а где упустил важные моменты. Своевременная обратная связь даёт возможность поддерживать единый стандарт коммуникации на высоком уровне.
Почему LLM не волшебная таблетка: баланс между скоростью, качеством и достоверностью в NLP & LLM
Как я сделал аудиогид с ИИ без опыта мобильной разработки
Это рассказ о том, как я в свободное время реализовал свою старую идею, и как мне в этом помог ИИ. Я решил сделать приложение, которое превращает Википедию в говорящий аудиогид и полностью написал его с помощью ИИ, хотя никогда раньше не занимался мобильной разработкой. ИИ использовался для создания аудио рассказов и для написания приложения.
Prompt Caching в Claude: Как мы снизили затраты на AI в 2 раза
Prompt Caching в Claude: Как мы снизили затраты на AI в 2 разаКейс по оптимизации затрат на Claude API в проекте по автоматизации поиска работы. AI анализировал вакансии и генерировал сопроводительные письма. При 100 пользователях затраты достигали $180/месяц. Решение: Prompt Caching от Anthropic. Экономия 52% ($0.51 → $0.245 за batch из 50 вакансий). Теперь можно делать в 2 раза больше AI-вызовов с тем же бюджетом.Кому полезно: всем, кто работает с LLM API и хочет оптимизировать затраты.История: Когда AI начал съедать бюджет

