- BrainTools - https://www.braintools.ru -
Google представил LangExtract — новую open-source библиотеку на Python, разработанную для эффективного преобразования больших объемов неструктурированного текста в удобные для анализа структурированные данные. Она предоставляет легковесный интерфейс для работы с большими языковыми моделями (LLM), такими как Gemini, открывая новые возможности для автоматизации извлечения информации.

Одна из ключевых особенностей LangExtract, выделяющая ее на фоне других инструментов, — это уникальный подход к привязке извлеченных сущностей к их источнику. Каждое имя, дата, дозировка или любой другой извлеченный фрагмент информации точно привязывается к символьным смещениям в исходном тексте. Это обеспечивает полную прослеживаемость и верифицируемость результатов: вы всегда можете подсветить найденные данные в оригинальном документе и убедиться в их точности. Больше никаких вопросов о том, «откуда модель это взяла?».
LangExtract гарантирует надежность получаемых данных. Вы самостоятельно определяете желаемый формат вывода с помощью специального представления данных (например, JSON-схема) и предоставляете модели несколько примеров. Используя эти примеры, библиотека направляет LLM через механизм контролируемой генерации, поддерживаемый в моделях Gemini. Это значит, что вы всегда будете получать данные в консистентном и предсказуемом формате, что критически важно для дальнейшей обработки и анализа.
Библиотека эффективно справляется с действительно большими объемами текста. Она способна разбивать объемные документы на «чанки» (фрагменты), которые затем обрабатываются параллельно в несколько проходов, каждый из которых фокусируется на более узком контексте. Для удобства работы с результатами LangExtract умеет генерировать интерактивную и полностью автономную HTML-визуализацию. Это позволяет буквально за считанные минуты перейти от сырого текста к наглядному представлению, где можно исследовать тысячи извлеченных аннотаций.
Важно отметить, что LangExtract не ограничивается только экосистемой Google. Она поддерживает гибкую смену LLM-бэкендов, позволяя работать как с облачными моделями, так и с опенсорсными решениями, развернутыми локально, что дает разработчикам максимальную свободу выбора.
LangExtract также может использовать «мировые знания» LLM для обогащения извлеченных данных. Информация может быть как явно извлечена из текста, так и дополнена на основе внутренних знаний самой модели. Конечно, точность таких выведенных данных напрямую зависит от возможностей конкретной LLM и качества предоставленных примеров в промпте.
Изначально идеи, заложенные в LangExtract, нашли свое применение в извлечении информации из медицинских текстов. Библиотека отлично показала себя в идентификации лекарств, их дозировок и других атрибутов в клинических записях. Для демонстрации возможностей инструмента в узкоспециализированной области Google создал интерактивное демо RadExtract на Hugging Face [1]. В нем показано, как LangExtract может обработать радиологический отчет, написанный свободным текстом, и автоматически преобразовать его ключевые выводы в структурированный формат, подсвечивая важные находки.
Лицензия: Apache 2.0 License.
Делегируйте часть рутинных задач вместе с BotHub [2]! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [3] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: mefdayy
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/17898
URLs in this post:
[1] демо RadExtract на Hugging Face: https://google-radextract.hf.space/
[2] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GOOGLE_LANGEXTRACT:_NEW_LIBRARY_FOR_EXTRACTING_STRUCTURED_DATA_FROM_TEXT_USING_LLM
[3] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[4] Источник: https://habr.com/ru/companies/bothub/news/933224/?utm_source=habrahabr&utm_medium=rss&utm_campaign=933224
Нажмите здесь для печати.