Поисковые технологии. - страница 3

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Как я вообще туда попалЯ крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. По отдельности эти факторы не страшны, но их совокупность уменьшает количество таких проектов на российском фрилансе почти до 0.Но, внезапно, мне в личку постучались с таким проектом.

продолжить чтение

Семантический поиск vs полнотекстовый: сравниваем три embedding-модели на 10 000 категорий Ozon

1. Семантический поиск: поиск по смыслуИдея семантического поиска: представить и документы, и запрос в виде числовых векторов (embeddings) в едином пространстве. Близкие по смыслу тексты будут иметь близкие векторы. Для измерения близости используется косинусное расстояние.Как это работаетТекст → Embedding-модель → Вектор (сотни/тысячи измерений) При индексации каждый документ превращается в вектор и сохраняется в базу. При поиске запрос тоже превращается в вектор, и pgvector находит ближайшие документы по косинусному расстоянию:

продолжить чтение

Открытое бета-тестирование Digg завершили через два месяца из-за спам-ботов с ИИ

Два месяца назад основатель Digg Кевин Роуз, сооснователь Reddit Алексис Оханян и ещё несколько человек объявили о перезапуске сайта для обмена ссылками, обещая «социальное взаимодействие, основанное на сообществах, а не на алгоритмах». Теперь они анонсировали «жёсткую перезагрузку», которая приведет к закрытию и «значительному сокращению команды Digg».

продолжить чтение

Дешевле Perplexity, но локально — и с любым агентом: Agent Browser Workspace

Agent Browser WorkspaceКто пользовался Perplexity Deep Research, наверняка ловил два чувства сразу:"Ого, он реально копает.""Жаль, что нельзя посмотреть, что происходит внутри, вмешаться, перезапустить шаг или расширить сбор — это чёрный ящик."Agent Browser Workspace

продолжить чтение

Как я построил Graph RAG систему с точностью 96.7% за 5 дней: от научных статей до production-ready пайплайна

Skeleton Indexing (KDD 2025) + HippoRAG 2 (ICML 2025) + VectorCypher + Datalog Reasoning + 10 итераций оптимизацииTL;DRЯ реализовал Graph RAG систему, которая комбинирует 5 техник из свежих научных статей в единый пайплайн с декларативным reasoning-движком, полной провенансной трассировкой и типизированным API. Результат: 174/180 (96.7%) на билингвальном бенчмарке из 30 вопросов, оценённых в 6 режимах retrieval. Три режима достигли 100%. Ноль persistent failures.GitHub:

продолжить чтение

VK внедрила визуально-языковые модели ИИ в поиск своих сервисов

Компания VK начала внедрять в поиск своих продуктов визуально‑языковые модели (VLM). VLM) представляют собой искусственный интеллект, который одновременно анализирует текст, изображения, звук и видеоряд. Технология уже работает в «VK Видео». Она появится в других сервисах компании, где есть поисковые системы.

продолжить чтение

Результаты поиска Google в AI Overviews сделают ссылки более очевидными

Google пообещала, что будет заметнее отображать ссылки в функциях поиска, созданных с помощью ИИ. В режимах AI Overviews и AI Mode они будут появляться во всплывающем окне при наведении курсора на источники.

продолжить чтение

Из «песочницы» в Production: как мы масштабировали RAG-систему для эксперта по охране труда

Привет, Habr! Наша команда LLM-разработки подготовила статью о реальном практическом опыте тюнинга и тонкой настройке RAG-системы в области охраны труда. Каждый, кто начинал работать с LLM, проходил через этот «медовый месяц»: вы берете LangChain, загружаете с десяток PDF-файлов в ChromaDB, пишете простенький промпт — и происходит магия. Бот отвечает, эксперты в восторге, MVP готов за выходные.

продолжить чтение

Google: ЕС рискует подорвать свою конкурентоспособность, ограничивая доступ к иностранным технологиям

Европейский союз рискует подорвать собственную конкурентоспособность, ограничивая доступ к иностранным технологиям, заявил президент по глобальным вопросам и главный юрисконсульт Google Кент Уокер. Такое заявление прозвучало на фоне активизации усилий объединения по снижению зависимости от американских технологических гигантов.

продолжить чтение

Основатель Neocities потратил недели на общение с техподдержкой Microsoft после блокировки своих сайтов

Основатель Neocities Кайл Дрейк провёл несколько недель в цепочке автоматизированной поддержки Microsoft после того, как обнаружил, что поисковик Bing незаметно заблокировал все 1,5 миллиона веб-сайтов, размещённых на его платформе.

продолжить чтение

123456...10...15