морфология.

Токенизация, как ключ к языковым моделям для низкоресурсных языков

Привет Хабр, меня зовут Эдуард, и я хочу поделиться своими наблюдениями о том, как статистические алгоритмы извлекают грамматику из текстов.ВведениеСоздание языковых моделей для низкоресурсных языков — задача, где успех определяется не столько вычислительной мощностью, сколько правильной подготовкой данных. Особенно это критично для морфологически богатых языков, таких как кабардинский, адыгейский, чеченский или дагестанские языки, где одна словоформа может содержать информацию о лице, времени, виде, пространственных отношениях и множестве других грамматических категорий.

продолжить чтение

SteosMorphy: опенсорс замена давно умершему PyMorphy2

ВведениеНа данный момент PyMorphy2 - самая популярная библиотека для обработки слов в русском языке. Благодаря ей (как раньше, так и сейчас) строились и продолжают строиться различные NLP решения. Однако последний коммит  в репозиторий этой библиотеки был сделан более 5 лет назад, а установка этой библиотеки на Python версии 3.11+ вызывает трудности, что делает использование данной библиотеки в нынешнее время максимально затруднительным.Мы в Mind Simulation решили начать свой путь в Open Source, и решили начать его именно с того, чтобы представить миру разработчиков NLP свой аналог PyMorphy под названием SteosMorphy.

продолжить чтение

Старый конь борозды не испортит: классические методы обработки изображений все ещё актуальны

Что такое цифровая обработка изображений? Зачем нам вообще знать про алгоритмы обработки, когда есть фотошоп и фильтры в телефоне? Или всё можно отдать нейросети и получить крутой результат? И при чём тут Julia, наконец? Будем разбираться!

продолжить чтение

Rambler's Top100