pymorphy.

SteosMorphy: опенсорс замена давно умершему PyMorphy2

ВведениеНа данный момент PyMorphy2 - самая популярная библиотека для обработки слов в русском языке. Благодаря ей (как раньше, так и сейчас) строились и продолжают строиться различные NLP решения. Однако последний коммит  в репозиторий этой библиотеки был сделан более 5 лет назад, а установка этой библиотеки на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным.Мы в Mind Simulation решили начать свой путь в Open Source, и решили начать его именно с того, чтобы представить миру разработчиков NLP свой аналог PyMorphy под названием SteosMorphy.

продолжить чтение

Русские тексты. Работа с текстами. Предварительная обработка русских текстовых данных

Предварительная обработка текстовых данных: ключевые этапы и методыТекстовые данные — один из самых сложных типов данных для анализа из-за их неструктурированной природы и высокой вариативности. Чтобы превратить "сырой" текст в информацию, пригодную для машинного обучения или лингвистического анализа, требуется предварительная обработка. Этот процесс включает стандартизацию, очистку и преобразование текста, что повышает качество моделей NLP (Natural Language Processing). Рассмотрим основные этапы и методы.

продолжить чтение

Rambler's Top100