Охота на AI-инфраструктуру, часть 2: что делают с чужим Ollama — от трейдинг-ботов до контент-ферм
В первой части я рассказал, как ханипот поймал сканер MCP-серверов — новый вектор разведки, нацеленный на AI-инфраструктуру. Сегодня — про другую сторону: что происходит, когда атакующий находит открытый Ollama.Статья документирует реальные сессии злоупотребления открытыми LLM-инстансами: кто подключается, какие промпты шлёт, какие модели запрашивает. Данные собраны с трёх ханипотов (DE, US, RU) за март 2026.Зачем это нужноOllama — популярный способ запускать LLM локально. По умолчанию он слушает на 127.0.0.1:11434, но в Docker-окружении биндится на 0.0.0.0
MS GraphRAG, Ollama и немного киберпанка
Здравствуйте. Несколько лет глубоко погружён в тему корпоративных RAG-систем. В последнее время, как от коллег, так и от заказчика часто слышу, что векторный поиск это слабое место и вчерашний день, и что нас спасут только графовые системы. Нашел несколько постов и видео на эту тему. Захотелось попробовать. В статье делюсь своими впечатлениями, рефлексирую и рассказываю как воспроизвести эксперименты.Почему Ollama? Выделение вычислительных ресурсов на RAG в проекте - отдельная больная тема. Мне нужно было понять нижнюю планку. Если коротко, кое-как работает даже на 4b моделях.
Ботинок — консольный AI-агент для тех, у кого мало VRAM
Ботинок (сущ.) — консольный ИИ-агент. Будучи надетым на привычные костыли уставшей линукс-системы, делает их почти неотличимыми от настоящих ног.Хабр, привет!Эта статья — не туториал и не обзор. Это история о том, как я искал инструмент для своих задач, не нашёл, расстроился, а потом успокоился и написал свой. Речь пойдёт о Ботинке — консольном AI-агенте для работы по SSH. Но сначала немного контекста.
Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат
В первой части мы сделали самый важный стартовый шаг: подняли локальную модель через Ollama, подключили её к Python через LiteLLM и получили первый осмысленный ответ из кода.Но пока это ещё не чат. Наш main.py умел только одно: отправить один заранее заданный вопрос, вывести ответ и завершиться.Для учебного эксперимента этого достаточно. Для приложения — уже нет.Во второй части превратим этот одноразовый скрипт в маленький консольный чат
Как мы внедрили ИИ для обработки рекламаций на производстве
Где бы вы ни работали и каким идеальным продуктом или сервисом вы бы ни занимались, вас всегда будут сопровождать жалобы и рекламации от клиентов.Рекламации — это вежливо-агрессивная форма общения между заказчиком и поставщиком, где каждая сторона добивается максимально приемлемого для себя результата. Потребитель, в идеале, хочет замену товара без дополнительных затрат, а производитель — соблюсти баланс между полным отзывом по гарантийному случаю , или вежливым ответом: «ваше обращение очень важно для нас, но помочь ничем не можем — вот вам промокод в размере 2% на последующие покупки».
Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос
Во многих туториалах по LLM всё начинается с API-ключей, платных токенов и облачных сервисов. Это рабочий путь, но для первого знакомства он не самый удобный: нужно регистрироваться, разбираться с биллингом и постоянно помнить, что каждый эксперимент что-то стоит.Здесь пойдём проще. В этой серии мы соберём маленький LLM-чат на Python, который сначала будет работать локально: модель запускается через Ollama, а Python-код общается с ней через LiteLLM.Это хороший стартовый маршрут по трём причинам:не нужны API-ключи;не нужен интернет для каждого запроса;
Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference
TL;DRМы пытались запустить LLM inference на старой AMD RX580 (8 VRAM) через ROCm в Kubernetes. GPU корректно определялся, VRAM использовалась, но inference падал с ошибками вида:hipMemGetInfo(free, total) CUDA error: invalid argumentПосле серии экспериментов с ROCm userspace, Docker‑образами и Kubernetes deployment выяснилось, что проблема лежит на границе:kernel → ROCm runtime → ggml backendФинальное решение включало:переход на kernel 6.8стабилизацию ROCm runtimeиспользование llama.cpp + ROCmgrammar‑constrained decoding для strict sanity promptsВ итоге мы получили стабильный GPU inference:~42 токен/секgpu_busy_percent → до 100%
Облачные модели Ollama в задачах code review — честное сравнение на примерах
С недавних пор AI-инструменты стали важной частью разработки. Такие решения, как Cursor, Codex и Claude Code позволяют разработчикам генерировать код, ускорять написание функций и автоматизировать рутинные задачи. Это существенно повышает скорость разработки. Однако у такого подхода есть и обратная сторона: код начинает появляться быстрее, чем команды успевают его качественно проверять. В результате нагрузка на процесс code review
Пора переезжать на локальные LLM. Или нет?
Нет большой разницы в инструментах, когда речь идет о создании простеньких чат-ботов. Но когда вы работаете над продуктом посерьезнее, например создаете сложного AI-агента или работаете с чувствительными данными, облачные LLM начинают выставлять счета. И не только финансовые.Что если переход на локальную инфраструктуру (вроде Ollama) это решение, которое не просто поможет сэкономить, но изменит саму динамику разработки?Налог на итерацию
Эволюция Telegram-бота на локальной LLM от болтуна до мини-игр, генерации фото, возможности выбора модели
Хочу поделиться историей создания Telegram-бота, работающего полностью на локальной ИИ. В качестве языковой основы используется Ollama, а для генерации изображений — AUTOMATIC1111. Весь код написан на Python с библиотекой python-telegram-bot. Почему выбрал именно Ollama? Потому что она бесплатна, есть множество открытых моделей и её очень просто развернуть в своем проекте. Если брать облачные решения от других компаний, например ChatGPT, то тут можно уперется в то, что за них нужно платить. Модели я подбирал под свой компик: 5070 и 32 гб оперативы. Сервера своего нету, поэтому бот работает только когда я дома.

