Доматчинг товаров с использованием LLM: от промптов до квантизации
Привет, Хабр! На связи команда продуктового матчинга ecom.tech. Наша команда решает задачи поиска, группировки и сопоставления товаров с помощью алгоритмов машинного обучения. Все это необходимо для развития и улучшения бизнес-процессов в компании, а именно быстрого заведения карточек товаров, мониторинга цен на товары и развития ML. В этой статье мы расскажем про доматчинг – сравнение сложных пар товаров, которые отобрали на предыдущем этапе пайплайна, с помощью LLM. Поехали!
BLIMP — Пайплайн синтеза и разметки изображений в Blender
Синтез фотореалистичных сцен, их точных карт глубины и сегментационных масок
LLM — это афера на доверии, которая длится 400 лет
В 1623 году немец Вильгельм Шиккард создал первые известные чертежи механического калькулятора. Спустя двадцать лет Блез Паскаль разработал машину улучшенной конструкции, чтобы помочь справляться с огромным количеством утомительных арифметических расчётов, необходимых в его работе сборщика налогов.Интерес к механическим вычислениям не ослабевал последующие века: поколения людей по всему миру продолжали дело Паскаля и Шиккарда, разделяя их убеждение, что перекладывание умственной нагрузки на машину принесёт облегчение.Аферу на доверии можно разбить на три этапа:начала выстраивается доверие;
Типология мышления в аналитической культуре больших языковых моделей (Часть_1)
Миронов В.О., Кальченко С.Н.
TSP трансформеры
Трансформеры — это больше, чем кажется на первый взглядВозможно кто-то догадался, что заголовок выше — это перевод первых строк темы из ламповых сюжетов мульсериала 80-х:The TransformersMore than meets the eye
Онлайн-таблицы: как ИИ делает аналитику доступной каждому
По оценкам специалистов, в 2025 году объём рынка бизнес-аналитики составит
Чем же типичный заметковед занимается, когда работает со своими записями? Типизация деятельности заметковеда
Небольшое, но важное уточнение того, откуда этот исследовательский отчет.Меня зовут Рустам Агамалиев, я учитель и исследователь, автор нескольких книг и некоторого множества публикаций. На данный момент моя работа происходит на стыке педагогики, когнитивистики, лингвистики и психологии; я в основном работаю с детьми и студентами.Последние 7 лет занимаюсь развитием сообщества
Виды Structured Output и способы их реализации
Structured Output это способ “заставить” модель отвечать в строго заданном формате.Пример. Имеется пачка неструктурированных объявлений о продаже недвижимости.Продается однокомнатная квартира площадью 35,6 кв.м. на 11-м этаже 22-этажного монолитного дома по адресу: ул. Академика Королёва, 121. Год постройки — 2018, что гарантирует современное качество и надёжность конструкции. Дом оснащён подземной парковкой.
Автоэнкодер: как нейросеть учится понимать норму
ВведениеНепосвящённому человеку кажется, что нейронная сеть может всё. Средства массовой информации этот миф только подпитывают, а где-то в недрах Голливуда Джеймс Камерон шепчет: «Я не режиссёр — я пророк».В реальной же повседневной работе от нейронной сети мне нужна одна простая и приземлённая вещь — поиск аномалий в данных. И вот с этим нейросети действительно справляются. Более того, для этого у них есть специальный инструмент — автоэнкодер.В этом небольшом опусе я попробую быстро, просто и без магии объяснить, что такое автоэнкодер, как он работает и
Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году
В 2025 году retention снова стал главной метрикой рынкаТрафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам.Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».если вы тоже сейчас грустите, глядя на свой retention, — вы не один Давайте разберём, как всё работает в реальности.1. Почему классический retention устарел

