llm.

Пишем LLM бенчмарк для GPU-серверов с картами NVIDIA в Ollama

Автор: Александр Казанцев, руководитель направления по работе с документацией и контентом HOSTKEYПри сборке GPU-серверов или при проблемах с ними, которые сообщают наши клиенты, нам необходимо проводить их тестирование. Так как разворачивание LLM-моделей в Ollama является одним из сценариев их использования и мы предлагаем готовые панели с моделями на её основе, то нам необходимо также проверять машины на работоспособность и под нагрузкой в инференсе через нее и иметь результаты для сравнения.GPU-серверы — почасовая тарификация

продолжить чтение

Оставлено в

Открываю карты: 12 лет работы в ФНС

Приветствую всех читателей Хабра!Настал день, когда я снял "оковы" и могу открыто говорить о том, чем я занимался на протяжении последних 12 лет.Ранее я опу��ликовал 3 статьи, в которых делился опытом гуманитария при работе с нейронными сетями, в том числе честно рассказал о своем опыте вайбкодинга, как я применяю LLM в повседневной жизни, и о своих попытках дообучения LLM с помощью WebUI Text Generation.

продолжить чтение

Оставлено в

AI-торрент: децентрализованная сеть, где твои GPU станут валютой для супер-AI

ИИ и автоматизация — это цунами, которое обрушится завтра, смывая отрасли и экономики. Его можно либо интегрировать в свои ресурсы, либо погрузиться в зависимость от облачных гигантов.Я столкнулся с этой болью: ИИ-inference стоит дорого. А почему мои неиспользуемые GPU от майнинга не могут стать платой за него?Концепция: P2P-инфраструктура на базе MoE"ИИ-торрент" — это децентрализованная P2P-сеть для inference ИИ-моделей. В её основе три ключевых принципа:BitTorrent-экономика.

продолжить чтение

Оставлено в

AI-инструменты 2025: Полный технический анализ Perplexity, ChatGPT, Gemini и DeepSeek

🎯 Резюме: Кто лучше?ИнструментОценкаСильная сторонаPerplexity AI4.20/5Точность + RAG архитектураChatGPT3.85/5MoE + GPT-4o мультимодальностьDeepSeek3.75/5MoE эффективность + бесплатноGemini3.35/5Контекст 1M + видео обработка

продолжить чтение

Оставлено в

Опыт использования S3 Vector с локальной LLM для RAG

ВведениеВ нашей компании AnyMaint, которая занимается разработкой софта для управления техническим обслуживанием и ремонтом (CMMS) промышленного оборудования, одной из главных задач является нормализация имён тулов (инструментов). Под «тулом» мы подразумеваем любой промышленный актив: машины, станки, приборы, оборудование и т.д.Зачем это нужно?

продолжить чтение

Оставлено в

Топовая китайская модель для агентных задач Kimi K2–Thinking уже доступна бесплатно в Koda для VS Code и CLI

Буквально несколько дней назад китайский стартап Moonshot AI выпустил "думающую" версию своей модели K2 – K2-thinking.Kimi K2 Thinking устанавливает новые рекорды на бенчмарках (на некоторых даже опережает GPT-5!), оценивающих логическое мышление, кодинг и агентные способности.

продолжить чтение

Оставлено в

AI против рутинной оценки чатов: как мы заменили ручную аналитику чатов LLM

Онлайн‑чат — одна из главных точек контакта клиента с банком. От того, каким будет диалог, зависит не только пользовательский опыт, но и ключевые показатели. Системная работа над качеством поддержки — реальный рычаг влияния на эффективность бизнеса. Необходимо регулярно оценивать диалоги: отмечать, где специалист справился хорошо, а где упустил важные моменты. Своевременная обратная связь даёт возможность поддерживать единый стандарт коммуникации на высоком уровне.

продолжить чтение

Оставлено в

Почему LLM не волшебная таблетка: баланс между скоростью, качеством и достоверностью в NLP & LLM

продолжить чтение

Оставлено в

Как я сделал аудиогид с ИИ без опыта мобильной разработки

Это рассказ о том, как я в свободное время реализовал свою старую идею, и как мне в этом помог ИИ. Я решил сделать приложение, которое превращает Википедию в говорящий аудиогид и полностью написал его с помощью ИИ, хотя никогда раньше не занимался мобильной разработкой. ИИ использовался для создания аудио рассказов и для написания приложения.

продолжить чтение

Оставлено в

Prompt Caching в Claude: Как мы снизили затраты на AI в 2 раза

Prompt Caching в Claude: Как мы снизили затраты на AI в 2 разаКейс по оптимизации затрат на Claude API в проекте по автоматизации поиска работы. AI анализировал вакансии и генерировал сопроводительные письма. При 100 пользователях затраты достигали $180/месяц. Решение: Prompt Caching от Anthropic. Экономия 52% ($0.51 → $0.245 за batch из 50 вакансий). Теперь можно делать в 2 раза больше AI-вызовов с тем же бюджетом.Кому полезно: всем, кто работает с LLM API и хочет оптимизировать затраты.История: Когда AI начал съедать бюджет

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm.

Пишем LLM бенчмарк для GPU-серверов с картами NVIDIA в Ollama

Открываю карты: 12 лет работы в ФНС

AI-торрент: децентрализованная сеть, где твои GPU станут валютой для супер-AI

AI-инструменты 2025: Полный технический анализ Perplexity, ChatGPT, Gemini и DeepSeek

Опыт использования S3 Vector с локальной LLM для RAG

Топовая китайская модель для агентных задач Kimi K2–Thinking уже доступна бесплатно в Koda для VS Code и CLI

AI против рутинной оценки чатов: как мы заменили ручную аналитику чатов LLM

Почему LLM не волшебная таблетка: баланс между скоростью, качеством и достоверностью в NLP & LLM

Как я сделал аудиогид с ИИ без опыта мобильной разработки

Prompt Caching в Claude: Как мы снизили затраты на AI в 2 раза

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llm.