SQL.

Как мы отучали LLM выдумывать цифры в данных. Допрос Claude Desktop с пристрастием

Никто не верил, что модель можно подпустить к таблицам и заставить не галлюцинировать. Цифры из воздуха, выдуманные колонки, суммы, которые не сходятся с источником, думаю на этом обжигались все, кто пробовал. Мы заставили, проблемы все еще есть, но выглядят решаемыми.

продолжить чтение

Оставлено в

Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям в браузере (llama.cpp в WebAssembly)

Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому.Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме.

продолжить чтение

Оставлено в

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Когда инженер слышит «нам нужно хранилище данных», задача редко звучит однозначно. Кто‑то задыхается на боевой OLTP‑базе под аналитической нагрузкой. Кто‑то впервые строит BI и не понимает, с какого края подходить. У кого‑то накопились данные из десятка систем‑источников, и существующих средств уже не хватает.У всех «хранилище». А правильный технический ответ зависит от условий задачи.

продолжить чтение

Оставлено в

Инфраструктура для изучения основ машинного обучения на локальном компьютере с помощью Apache Spark

СоавторДанная статья создана с помощью @svantonov за что ему отдельная благодарность и признательность за помощь. Без него данный результат был бы не достижим.Описание задачиПрочитав несколько книг по машинному обучению, я решил проверить идеи из книг в тестовых задачах. Тестовые задачи решил создать самостоятельно, опираясь на прошлый опыт.Первой задачей будет следующая. Предположим, откуда-то получаются файлы нескольких типов, например 10 различных типов. Один из получаемых типов будет вызывать увеличение загрузки процессора.

продолжить чтение

Оставлено в

Использование Trino для построения ETL‑процессов

1. Введение. Trino: ключевые задачи и главные преимущества

продолжить чтение

Оставлено в

Postgresso #3 (88)

Тяжёлое и средней тяжести наследствоБурное развитие нейросетевых способов разработки подсказывает вопрос:В мире имеется огромный склад чемоданов без ручек. Это старьё, эта рухлядь, пусть они и милые сердцу и в них вложены труд и талант, их называют легаси

продолжить чтение

Оставлено в

MCP-Manticore: Позвольте вашему AI-ассистенту писать запросы к Manticore за вас

Введение

продолжить чтение

Оставлено в

OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

Цифровизация финансовой функции нередко воспринимается как масштабный и дорогостоящий проект. Со стороны кажется, что единовременно требуется внедрить несколько сложных систем и полностью перестроить бизнес-процессы.Евгения Крюкова, старший аналитик «Оптимакрос», разобрала в статье, как OLAP-кубы (Online Analytical Processing) меняют бюджетирование и планирование в организации и почему именно их выбор становится критически важным этапом цифровой трансформации финансового подразделения компании.

продолжить чтение

Оставлено в

SQL квалии

Есть мнение, что принципиальной точкой в развитии ИИ станет обретение им сознания. Что такое со-знание, как оно появляется и “работает” (у Жизни, у нас, у ИИ) разговор отдельный. Но говоря о сознании нельзя пройти мимо темы т.н. “квалий”, на использовании которых в качестве своеобразной базы данных как считается сознание и основывает свою работу. Конечно же есть множество литературы на эту тему, в т.ч. и Д. Чалмерс, однако к.м.к. всё же имеет смысл схематически показать что такое квалии, как они получаются и работают на краткой, простой и понятной модели с использованием ПК и языка SQL.

продолжить чтение

Оставлено в

Gemini Embedding 2 + мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал

10 марта Google выкатил Gemini Embedding 2 - embedding-модель, которая умеет превращать в векторы не только текст, но и картинки, видео, аудио и PDF. Причем всё это ложится в одно векторное пространство.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

SQL.

Как мы отучали LLM выдумывать цифры в данных. Допрос Claude Desktop с пристрастием

Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям в браузере (llama.cpp в WebAssembly)

DWH в 2026: четыре зоны вместо Inmon, Kimball и Data Vault 2.0

Инфраструктура для изучения основ машинного обучения на локальном компьютере с помощью Apache Spark

Использование Trino для построения ETL‑процессов

Postgresso #3 (88)

MCP-Manticore: Позвольте вашему AI-ассистенту писать запросы к Manticore за вас

OLAP-кубы в финансах: превращаем бюджетирование в управляемую систему

SQL квалии

Gemini Embedding 2 + мультимодальный RAG: эмбеддим видео и картинки — разбор и туториал

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

SQL.