SQL.

SQL.

Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям в браузере (llama.cpp в WebAssembly)

Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому.Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме.

продолжить чтение

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и не понимает, с какого края подходить. У кого‑то накопились данные из десятка систем‑источников, и существующих средств уже не хватает.У всех «хранилище». А правильный технический ответ зависит от условий задачи.

продолжить чтение

Инфраструктура для изучения основ машинного обучения на локальном компьютере с помощью Apache Spark

СоавторДанная статья создана с помощью @svantonov за что ему отдельная благодарность и признательность за помощь. Без него данный результат был бы не достижим.Описание задачиПрочитав несколько книг по машинному обучению, я решил проверить идеи из книг в тестовых задачах. Тестовые задачи решил создать самостоятельно, опираясь на прошлый опыт.Первой задачей будет следующая. Предположим, откуда-то получаются файлы нескольких типов, например 10 различных типов. Один из получаемых типов будет вызывать увеличение загрузки процессора.

продолжить чтение

Использование Trino для построения ETL‑процессов

1. Введение. Trino: ключевые задачи и главные преимущества

продолжить чтение

Postgresso #3 (88)

Тяжёлое и средней тяжести наследствоБурное развитие нейросетевых способов разработки подсказывает вопрос:В мире имеется огромный склад чемоданов без ручек. Это старьё, эта рухлядь, пусть они и милые сердцу и в них вложены труд и талант, их называют легаси

продолжить чтение

MCP-Manticore: Позвольте вашему AI-ассистенту писать запросы к Manticore за вас

Введение

продолжить чтение

OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

Цифровизация финансовой функции нередко воспринимается как масштабный и дорогостоящий проект. Со стороны кажется, что единовременно требуется внедрить несколько сложных систем и полностью перестроить бизнес-процессы.Евгения Крюкова, старший аналитик «Оптимакрос», разобрала в статье, как OLAP-кубы (Online Analytical Processing) меняют бюджетирование и планирование в организации и почему именно их выбор становится критически важным этапом цифровой трансформации финансового подразделения компании.

продолжить чтение

SQL квалии

Есть мнение, что принципиальной точкой в развитии ИИ станет обретение им сознания. Что такое со-знание, как оно появляется и “работает” (у Жизни, у нас, у ИИ) разговор отдельный. Но говоря о сознании нельзя пройти мимо темы т.н. “квалий”, на использовании которых в качестве своеобразной базы данных как считается сознание и основывает свою работу. Конечно же есть множество литературы на эту тему, в т.ч. и Д. Чалмерс, однако к.м.к. всё же имеет смысл схематически показать что такое квалии, как они получаются и работают на краткой, простой и понятной модели с использованием ПК и языка SQL.

продолжить чтение

Gemini Embedding 2 + мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал

10 марта Google выкатил Gemini Embedding 2 - embedding-модель, которая умеет превращать в векторы не только текст, но и картинки, видео, аудио и PDF. Причем всё это ложится в одно векторное пространство.

продолжить чтение

Можно ли собрать BI-дашборды за 4 часа, если ты не аналитик? Эксперимент с MCP, PostgreSQL и Modus BI

Привет, Хабр! Я Дмитрий Клепиков, разработчик в команде Modus BI. Хотя моя основная работа напрямую не связана с аналитикой данных, мне стало интересно: может ли разработчик без профильного опыта пройти весь путь аналитика — от гипотез до BI-дашбордов — используя только LLM и MCP-серверы?Сейчас мы в команде разрабатываем собственный MCP-сервер для Modus BI, чтобы пользователи могли взаимодействовать с платформой через естественный язык без глубоких знаний в статистике и SQL. Прежде чем двигаться дальше с разработкой, я решил проверить на реальной задаче, насколько такой подход жизнеспособен.

продолжить чтение