pii.
Как маскировать персональные данные на изображениях: наш эксперимент с OCR и NER
Всем привет! Меня зовут Андрей Иванов, я NLP-исследователь в R&D red_mad_robot. Мы разрабатываем систему Guardrails для защиты персональных данных (PII) и фильтрации небезопасного контента.
NER не про токены: почему span важнее BIO
Дисклеймер.Все примеры текстов и сущностей в статье являются синтетическими и не содержат реальных персональных данных. Любые совпадения с реальностью случайны.ИнтроВ последние годы системы детекции и очистки персональных данных стали неотъемлемой частью NLP-пайплайнов, особенно в сценариях, где тексты передаются во внешние LLM-провайдеры и используются в LLM-агентах.На практике такие системы решают задачу детекции и маскирования персональных данных, среди них можно выделить: Presidio, LLM Guard,

