nlp.

nlp.

Пять мыслей о возможностях и ограничениях LLM

О фундаментальных ограничениях больших языковых моделей одни говорят, что трансформеры, обученные предсказывать следующий токен (NTP), - тупиковый путь для создания интеллектуальных машин: язык слишком беден, это лишь плоская проекция реального мира, машины ничего не понимают. Другие говорят , что та же задача, повторённая триллионы раз, может вызвать появление сложного поведения примерно как простой механизм эволюции породил всё многообразие жизни.Ниже представлены наблюдения по этим вопросах. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал 

продолжить чтение

Список слов русского языка из Wiktionary и сравнение с pymorphy3 на примере Пушкина и Noize MC *

ОглавлениеВведениеПроцесс создания словаря Попытка 1. Создание словаря на основе названий статей ВикисловаряПопытка 2. Создание словаря на основе полного дампа содержимого русского ВикисловаряВыборочная проверка словОсобенности словаряСравнение с pymorphy3Проверка на текстах Пушкина и Noize MCВыводСсылка на GitHubДругие ссылки

продолжить чтение

Почему Хомский неудобен для AI‑индустрии

О grammar constraints, валидном JSON и ошибочном понимании языкаКажется, что разговор о формальных грамматиках в LLM — это узкая инженерная тема для тех, кто заставляет модель соблюдать формат ответа. Но вокруг этого частного приема все чаще вырастает более сильный тезис: будто ограничение генерации не просто делает вывод надежнее, а подводит модель ближе к смыслу и даже к самой природе языка. Именно в этот момент технический разговор перестает быть только инженерным.

продолжить чтение

YAKE! вместо нейросети: как мы заменили 600 МБ ONNX-реранкера на 400 строк статистики

YAKE вместо ONNX-реранкераВ прошлой статье я рассказывал, что такое Yttri: local-first desktop-приложение для управления знаниями, задачами, встречами, документами и AI-контекстом.

продолжить чтение

Эволюция данных: генетический алгоритм в задаче классификации текстов

продолжить чтение

AutoML для NLU без ручной настройки: делимся библиотекой OpenAutoNLU

продолжить чтение

Почему Cluely и другие плохо слышат русских айтишников: разбор того, как Whisper ломается и что мы сделали с этим

фото с реального собеседования нашего клиента

продолжить чтение

NLP глазами CVшника. Чем мне запомнилась поездка в Марокко на конференцию EACL 2026

Привет, Хабр! Я — Андрей Москаленко, научный сотрудник лаборатории FusionBrain, AIRI, занимаюсь компьютерным зрением. В конце марта я оказался на своей первой конференции по NLP — EACL 2026. В этом году она впервые проходила в необычном для европейской конференции месте, а именно в Марокко, в Африке. Из нашей команды FusionBrain.Robotics со мной было двое коллег, с которыми мы представляли две статьи, написанные в соавторстве с командой «Прикладное NLP» AIRI.

продолжить чтение

Почему ваш LLM-сервис ведёт себя как хочет, а не как вы просите

Вы пишете промпт. Подробно, вдумчиво, с примерами. Деплоите в сервис. Запускаете — и получаете markdown-обёртку вокруг JSON, который вы просили.

продолжить чтение

Как решать задачу NER на практике

Всем привет! Меня зовут Максим. Я NLP‑инженер в red_mad_robot и автор Telegram‑канала Максим Максимов // IT, AI. Сегодня я расскажу о том, как решать задачу NER на практике. Теории будет по минимуму — вместо неё разберёмся, как решать задачу руками: подходы, ресурсы, код на Python. Сегодня в меню:Что такое NERПонимание целей и задачРабота с даннымиМоделированиеСоздание сервиса на основе модели Давайте начинать!Что такое NER

продолжить чтение

123456...10...18