Как мы оценивали OCR на русских документах — и почему все, что «распозналось», можно читать без смеха
Привет, Хабр! Меня зовут Искандер, я - AI-инженер в Лаборатории искусственного интеллекта «Честного знака», и недавно мы всерьёз занялись оцифровкой русскоязычных документов: от простых текстовых файлов до сложных документов с таблицами, списками и изображениями, поступающими из различных систем. Цель — чтобы машина читала их быстро, точно и без творческой интерпретации.
Метрики для задач NLP. Часть 1. Классификация, NER, Кластеризация
Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. В этой серии статей я расскажу о метриках популярных задач Natural Language Processing (NLP). Первая часть будет посвящена подходам для оценки моделей в решении задач классификации, NER и кластеризации. Рассказ будет сопровождаться визуализацией, примерами и кодом на Python.СодержаниеВведениеКлассификацияNERКластеризация
Куда исчезают пользователи: современные фреймворки аналитики retention в 2025 году
В 2025 году retention снова стал главной метрикой рынкаТрафик дорожает, конкуренция растет, AI-продукты выходят быстрее, чем я успеваю их тестировать, — и единственный способ выжить в этой гонке: удерживать пользователей, а не просто радоваться скачкам трафика по праздникам.Но есть проблема: большинство команд все еще думают, что retention — это «график, на который мы будем смотреть, пока CFO грустит».если вы тоже сейчас грустите, глядя на свой retention, — вы не один Давайте разберём, как всё работает в реальности.1. Почему классический retention устарел

