bert. - страница 2

15 примеров применения Natural Language Processing

Машинное обучение — это технология искусственного интеллекта, используемая для распознавания закономерностей, обучения на основе данных и принятия решений автоматически — без вмешательства человека. С другой стороны, обработка естественного языка (Natural Language Processing, NLP) — это форма ИИ, позволяющая машинам интерпретировать и понимать человеческий язык.

продолжить чтение

RuModernBERT и USER2: эволюция русскоязычных энкодеров

Привет, Хабр!В прошлом году одним из направлений работы R&D команды в AI VK были энкодеры текстов:

продолжить чтение

Когда O(n) мешает отбирать резюме в Росатоме

Главная проблема поиска сотрудников — предвзятость. Порой кажется, что наше резюме подходит под свою роль на 100 %, а рекрутер отклоняет его. Проблема с противоположной стороны баррикад: рекрутер должен отсмотреть по 200, 300 и более резюме в день. По разным данным, на каждое уходит всего лишь 6–10 секунд. А что если можно решить эти две проблемы с помощью ML? Сделать модель, которая исключит любой байес и поможет рекрутеру объективно отбирать подходящих кандидатов (где «подходящесть» обусловлена красивой математикой!). Мы это сделали. Оказалось, что если вы хотите добиться непредвзятости, то вам придётся внести в систему предвзятость. Оксюморон в статистике! Что мы увидели: Женатые и замужние — в топе: пока вы не уходите глубоко в анализ, этот быстрый фактор повышает ранг. Чем точнее ваша модель, тем меньше его вес. Английский — плохо: знание английского почему-то работало как антипаттерн, снижая релевантность. ОГУРЕЦ: кто-то зачем-то написал это слово в резюме. Оно попало в словарь модели и получило большой вес. Иксель — люди пишут Excel как угодно, и само слово в правильном написании оказалось снижающим оценку. К резюме может быть приложено много мусора. Самый эпичный пример: авиабилет Москва — Челябинск вместо резюме. Но давайте начну с начала.

продолжить чтение

Глубокое обучение в науке вредно без глубокой проверки фактов

Глубокое обучение гламурно и ажиотажно. Если обучить трансформер (современную языковую модель) на датасете из 22 миллионов ферментов, а затем использовать его для прогнозирования функции 450 неизвестных ферментов, то можно опубликовать свои результаты Nature Communications (уважаемом научном издании). Вашу статью прочитают 22 тысяч раз и она будет в верхних 5% из всех результатов исследований по оценке Altmetric (рейтингу внимания к онлайн-статьям).

продолжить чтение

История развития языковых моделей: ч. 2, от ChatGPT до рассуждающего режима

Доброго времени суток, «Хабр»!

продолжить чтение

Преемник BERT: ModernBERT

ModernBERT — новое поколение двунаправленного кодировщика, сочетающее в себе обработку длинных последовательностей, понимание кода и эффективные вычисления. 🌟Введение 📜BERT был выпущен в 2018 году, но он до сих пор широко используется. Фактически, это вторая по популярности модель на Hugging Face Hub с ежемесячными загрузками более 68 миллионов раз! 🚀 Это связано с тем, что его архитектура, предназначенная только для кодирования, делает его идеальным для множества реальных задач, таких как:Поиск (например, RAG)Классификация

продолжить чтение

Русский Маскарад — применение NER для защиты персональных данных

Всем привет! На связи команда хакатонщиков “Старые Бауманцы” и я - Саша Зазнобин. 

продолжить чтение

12
Rambler's Top100