Data Engineering. - страница 12

Как я автоматизировал анализ логов из Kibana с помощью LLM и AI-агентов

OpenSearch, Elastic или Kibana и подобные им инструменты — уже давно стандарт для поиска и визуализации логов, ведь они удобны, у них мощная поисковая система. Но сложный анализ — агрегации, парсинг, выявление сложных закономерностей — заставляет их встроенные средства работать на пределе возможностей. Особенно если структура логов далека от идеала.

продолжить чтение

Как я пытался сделать нейросеть аналитиком: провалы и уроки

Наверняка многим знакома ситуация: у тебя есть куча данных, отчетов, KPI, а команда тонет в Excel‑таблицах и Jira‑тикетах. И вот тебе кажется, что решение простое: «Давайте посадим нейросеть на аналитику».Я решил попробовать. И вот что из этого вышло.ИдеяВ начале 2025 года я решил протестировать LLM как аналитика. Цель была простой: чтобы нейросеть собирала данные по продукту, формировала отчеты и даже предлагала гипотезы по росту метрик.Мне казалось, что это будет суперэффективно: меньше ручной работы, больше времени на продуктовую стратегию.План экспериментаИсточники данных:

продолжить чтение

Гематоэнцефалогический барьер для динамического SQL-кода

Подобно тому, как современный мир все меньше и меньше требует от людей работы разных отделов головного мозга, массовые парадигмы современного программирования старательно оберегают разработчиков от ненужных усилий при работе с источниками данных. В большинстве случаев из всего, что умеет современная RDBMS, востребованы лишь четыре действия (как от сторожевой собаки) - Сидеть! Ждать! Взять! Ко мне! (C-R-U-D). Если вы продолжаете использовать полный набор возможностей движков баз данных, используете осознанно DSQL, но при этом хотите сделать всю конструкцию безопаснее - читаем дальше.

продолжить чтение

Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2

В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели

продолжить чтение

Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1

Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно».

продолжить чтение

Как работать с нейросетями эффективно: теория и практика

продолжить чтение

Data Governencе – это про ответственность за данные и их качество

В статье очень кратко расскажу, что такое регулирование данных и почему в организациях сейчас к этой теме очередная волна интереса.

продолжить чтение

Полезные задачи на Kaggle ( LLM, Diffusion Models)

В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой опыт непросто: рабочие проекты часто закрыты NDA, а учебные кейсы не отражают сложность реальных задач.Именно поэтому платформа Kaggle заняла особое место в индустрии. Это крупнейшее мировое сообщество специалистов по данным:🌍 более 13 миллионов участников из разных стран;🏆 сотни активных соревнований ежегодно;📊 миллионы доступных датасетов и готовых ноутбуков.

продолжить чтение

AI-ассистент в мире кода: как стать пилотом, а не пассажиром

Сегодня невозможно игнорировать тот факт, что AI-ассистенты, такие как ChatGPT, GitHub Copilot или Gemini, стали частью рабочего процесса. Но использовать их бездумно — значит обесценить собственное обучение и будущие карьерные перспективы. Меня зовут Дмитрий Махортов, я специалист по машинному обучению и ревьюер на курсе «Специалист по Data Science»

продолжить чтение

Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только

Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты.

продолжить чтение