- BrainTools - https://www.braintools.ru -

Сервис «Яндекса» «Поиск по архивам [1]» обновил [2] модель распознавания документов. Теперь она не только распознаёт текст архивного файла, но и структурирует информацию из него: например, роль каждого из участников события и связи между разными людьми. Благодаря этому пользователи сразу увидят в документе имя человека, которого они ищут, и смогут быстрее найти данные о предках.
Раньше искать уже известные данные приходилось среди всех упоминаний, включая служебные пометки, даты и имена участников записи. Благодаря новой модели пользователь может сразу настроить фильтры события и роли человека. Например, «родившийся», «отец» и «мать» для документа о рождении или «жених», «невеста», «свидетель» для свидетельства о заключении брака. Сервис сразу найдёт упоминания человека в нужном контексте.
Обновлённый «Поиск по архивам» работает на собственной мультимодальной модели «Яндекса» — Alice AI VLM. В отличие от иностранных аналогов, она уже обладает глубоким пониманием русского языка и изображений, отметили в компании. Это позволило обойтись без создания огромных обучающих выборок: базовые навыки модели дали ей возможность освоить задачу извлечения данных за небольшое число итераций на специализированной разметке.
Качество системы оценивали по доле людей, которых удаётся найти по ФИО в архивном поиске. В среднем точность составила 90,5%, достигая 92,7% для записей о рождении, 89,7% — для свадеб и 87,2% — для смертей.
Ранее в «Поиске по архивам» появился [3] архив «Известий» [4]. С помощью нейросетей сервис оцифровал более 30 тыс. выпусков газеты. Пользователям доступен полнотекстовый поиск по номерам, выходившим с 1917 по 2024 год.
Автор: LizzieSimpson
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/30528
URLs in this post:
[1] Поиск по архивам: https://yandex.ru/archive
[2] обновил: https://yandex.ru/company/news/20-05-2026-02
[3] появился: https://habr.com/ru/news/883870/
[4] архив «Известий»: https://yandex.ru/archive/project/izvestia
[5] Источник: https://habr.com/ru/news/1037380/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1037380
Нажмите здесь для печати.