Natural Language Processing. - страница 20

Где поток ненужного софта? Почему заявления об ИИ-ассистентах не сходятся

Я в бешенстве. Я реально зол. Зол настолько, что хочется сносить чужие песочные замки, зарядить Дэниэлю ЛаРуссо по физиономии и поливать его грязью перед его девушкойa.Вообще-то я не из тех, кого легко разозлить, но ситуация в индустрии достала окончательно.Я разбираюсь в разработке софта. Занимаюсь этим 25 лет1

продолжить чтение

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce

продолжить чтение

Большие языковые модели как новый уровень абстрагирования

Как и большинство серьёзных спикеров в IT, я внимательно слежу за тем, какую роль могут сыграть в разработке ПО системы генеративного искусственного интеллекта. Думаю, возникновение больших языковых моделей (LLM) повлияет на разработку ПО примерно в той же степени, что и переход с ассемблера на первые высокоуровневые языки программирования. Чем дальше развиваются языки и фреймворки, тем сильнее абстрагируется наш код и, соответственно, возрастает продуктивность, но такие изменения пока не касаются самой природы

продолжить чтение

Создание Системы генерации ответов на истории тикетов поддержки (часть 1)

Привет, Хабр!Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе.Кейсовая задача - создать Систему генерации ответов на основе существующей истории тикетов. При этом Система должна работать в закрытом контуре.Общий ходДатасет, поиск релевантного тикета, генерация ответаПодготовка данныхИсходные данные представляли собой большой CSV-файл, полученный как экспорт истории тикетов поддержки, по нескольким филиалам, на нескольких языках.

продолжить чтение

Как наш ИИ-аналитик научился думать и советовать, а не просто рисовать отчёты. Вебинар

Все еще месяцами разрабатываете статичные дашборды? Тогда мы идем к вам! А точнее, приглашаем вас на вебинар 16 сентября.Расскажем, как уже сегодня искусственный интеллект берет на себя часть задач аналитиков. Покажем, как можно общаться с данными в режиме реального времени, быстро понимать ситуацию и получать инсайты, а не просто делать drill down / drill through. А также продемонстрируем работу обновленного Easy Report в режиме ИИ-агента (и не только).Дата: 16.09.2025 (вторник)Время: 11 МскРегистрация.В программе:

продолжить чтение

Просто и подробно о том, как работают ChatGPT и другие GPT подобные модели. С картинками

Текст ниже — очень длиннопост о том, как работает ChatGPT и другие GPT подобные моделиПрелюдия 1

продолжить чтение

SONAR-LLM — учим нейросети думать предложениями вместо слов

Привет, Хабр. Меня зовут Никита Драгунов, я из команды «Интерпретируемый ИИ» лаборатории FusionBrain AIRI. У себя в группе мы активно пытаемся понять, почему большие языковые модели и другие архитектуры ведут себя так или иначе, и разрабатываем инструменты, которые помогают нам в этом разобраться.Среди прочего нас очень заинтересовал сравнительно свежий подход, в котором предлагается перейти от генерации токенов к генерации целых предложений — Large Concept Models, LCM. Мы углубились в эту тему и смогли предложить новый способ, как использовать идею LCM эффективнее. О том, что мы сделали — в статье ниже.

продолжить чтение

Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП

Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний мы автоматизировали в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

продолжить чтение

Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF

Одним из сложнейших этапов дообучения LLM является процесс выравнивания (alignment), который зачастую играет решающую роль в качестве модели. Традиционным подходом к решению данной задачи является RLHF, но для него нужны дополнительные обучаемые модели, а это дополнительные вычислительные затраты и трудности в настройке. В цикле своих исследований об обучении LLM я наткнулся на интересную статью, в которой авторы предлагают метод Hindsight Instruction Relabeling (HIR).Ссылка на источник находится тут. Очень проработанная статья, советую почитать.Предыдущие материалы цикла:

продолжить чтение

Nvidia выпустила большой открытый набор данных Granary для обучения ИИ и работы с текстами на европейских языках

Nvidia представила

продолжить чтение

1...10...181920212223...30...34