Мы решили задачу омографов и ударений в русском языке
Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.
Как я сделал LLM-сервис, который понимает буровые сводки
Привет! Меня зовут Стас, я занимаюсь R&D в компании ROGII.Я пришёл в ROGII после нескольких лет работы «в поле» — от тундры Уренгойских месторождений до Сахалина. Там я понял, что буровые данные живут в хаосе: у каждого вендора — свой формат, у каждой скважины — свой стиль отчёта.Когда я оказался в компании, которая консолидирует буровые данные в облаке, задача встала ребром: нужно научить машину понимать суточные рапорты так же, как это делает инженер.Мы собрали 507 PDF‑файлов (всего 14 678 страниц) и выделили 23 типа отчётов по признаку компании и структуры.
ReVu — Open Source AI-ревьюер для ваших Pull Request
Всем привет!Недавно мы с приятелем обсуждали, как устроены рабочие процессы в бигтех-компаниях и какую роль в них уже играет ИИ. Речь в основном шла о зарубежных компаниях — у него там есть знакомые, которые делились опытом изнутри. Один из самых любопытных моментов — использование искусственного интеллекта для предварительного код-ревью в Pull Request: прежде чем коллеги возьмутся проверять изменения, PR уже анализирует ИИ и указывает на потенциальные проблемы.
AI Review кода за 30 минут: локальная LLM прямо в CI-CD
В этой статье я покажу, как всего за 30 минут подключить автоматическое AI-ревью кода в вашем проекте — бесплатно, без токенов, без OpenAI и полностью локально.В основе решения — три компонента: Ollama, AI Review и GitHub Actions. Ollama отвечает за запуск локальной LLM прямо внутри CI/CD без интернета и внешних API. AI Review — опенсорсный инструмент, который анализирует изменения в Pull Request и оставляет комментарии прямо в GitHub. GitHub Actions обеспечивает автоматический запуск ревью при каждом изменении кода.
Почему обычный RAG ломается на русском
RAG (Retrieval-Augmented Generation) — это не одна технология, а архитектурный приём: мы соединяем поиск по базе знаний (retrieval) с генерацией текста (generation). На английском всё работает прилично, а вот на русском начинаются приключения.Причины банальны:Морфология.
Паттерны программирования при работе с LLM
LLM - мощный инструмент, но его эффективность в продакшене зависит не от одного «хитрого промпта», а от всей архитектуры: что мы даём модели, как управляем её рассуждением и как проверяем/обрабатываем результат. В этой статье - компактная карта паттернов, разбитая по этапам конвейера: Input -> Reasoning -> Output.ВведениеСтатей про LLM - вагон, и у всех свои "трюки". Мне не хватало схемы, которая раскладывала бы эти "трюки" по полочкам.
Как встроить нейроинтерфейс для управления ИИ-приложением: от электроники до API
Когда мы говорим «нейроинтерфейс», большинство сразу представляет себе что-то вроде Neuralink или фантастические сцены из «Джонни Мнемоника». Но на деле между идеей и практикой — не пропасть, а куча микроконтроллеров, кода, биопотенциалов и кофе. В этой статье я покажу, как можно построить рабочий прототип интерфейса «мозг → ИИ-приложение» — начиная от электродов и аналоговых фильтров, заканчивая API, которое передаёт сигналы в модель машинного обучения.
Рецепт vLLM с мистралем. Часть 1
На первом этапе нашей заготовки модели мы займемся ее 4-х битным квантованием, а во второй части будем использовать vLLM для запуска парралельных запросов к ней.Поехали!
Data Drift в ML Страхового Дома ВСК: от PSI-анализа до пересборки фичей и сравнения моделей
Автор: Мацера Максим, главный исследователь данных в Страховом Доме ВСК
Обезьяны напишут шедевр, если мы наложим ограничения и добавим тесты
Написал этот текст, чтобы зафиксировать объяснение возможности случайной генерации организмов в процессе эволюции.Я согласен с утверждением, что если случайно генерировать последовательность из букв, то литературного произведения мы не получим и за миллиарды лет. Подробно о Теореме о бесконечных обезьянах

