обработка естественного языка. - страница 2

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач

продолжить чтение

BERT — это всего лишь одноэтапная диффузия текста

Некоторое время назад компания Google DeepMind представила Gemini Diffusion — экспериментальную языковую модель, генерирующую текст методом диффузии. В отличие от традиционных моделей, написанных в стиле GPT и генерирующих слово за словом,  Gemini создаёт текст целыми блоками, пошагово уточняя случайный шум.Я прочитал статью «Large Language Diffusion Models» — и с удивлением узнал, что дискретная диффузия языка представляет собой просто обобщение метода генерации пропущенного токена (MLM), практикуемого уже с 2018

продолжить чтение

Что именно ИИ-чатботы делают «под капотом»

Среди друзей я пользуюсь репутацией «ты ж программист», поэтому у меня нередко интересуются, как именно работают «под капотом» такие известные инструменты как ChatGPT, Claude, Grok или DeepSeek. Со временем я отточил ответ на этот вопрос — и потому, что нашёл способы лучше на него отвечать, и потому, что научился сам создавать большую языковую модель с нуля. Поэтому и сам понимать большие языковые модели я стал гораздо лучше.

продолжить чтение

Симуляция делового совещания с GigaChat. Вся сила в промпте

Привет Хабр! Меня зовут Анатолий, я занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе.Поступил необычный запрос: нужен инструмент, который позволил бы отрабатывать навыки управления командой в условиях, максимально приближенных к реальности. Не абстрактные кейсы, не "ролевые игры" с заранее прописанными сценариями и постановкой, а живое взаимодействие - со всеми его конфликтами, эмоциями и неожиданными поворотами.

продолжить чтение

130+ датасетов для машинного обучения: гид, который сэкономит часы поиска нужных данных

продолжить чтение

Создание Системы генерации ответов на истории тикетов поддержки (часть 2)

Привет, Хабр!Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе. Кейсовая задача - создать Систему генерации ответов на основе существующей истории тикетов. При этом Система должна работать в закрытом контуре.Это вторая часть.В первой части был рассмотрен подход Question-Answering с timpal0l/mdeberta-v3-base-squad2 (модификация BERT для задач Question-Answering) - модели, умеющей "читать" текст и "вытаскивать" ответы.В этой части переходим к семантическому поиску, контекстному сходству и SentenceTransformer. SentenceTransformer

продолжить чтение

Создание Системы генерации ответов на истории тикетов поддержки (часть 1)

Привет, Хабр!Меня зовут Анатолий, занимаюсь автоматизацией бизнес-процессов и применением Искусственного Интеллекта в бизнесе.Кейсовая задача - создать Систему генерации ответов на основе существующей истории тикетов. При этом Система должна работать в закрытом контуре.Общий ходДатасет, поиск релевантного тикета, генерация ответаПодготовка данныхИсходные данные представляли собой большой CSV-файл, полученный как экспорт истории тикетов поддержки, по нескольким филиалам, на нескольких языках.

продолжить чтение

ИИ — просто мешок слов. Как перестать видеть интеллект там, где его нет

Или: Claude, пойдёшь со мной на выпускной?Слушайте, я не знаю, уничтожит ли нас когда-нибудь искусственный интеллект, сделает ли он нас всех богатыми или что-то ещё, но одно я знаю точно: мы всё ещё используем неправильную метафору.Мы пытаемся понимать эти модели как людей. Когда вы задаете вопрос ChatGPT, а он отвечает полноценными предложениями, кажется, будто внутри сидит крошечный человечек и печатает ответы. Возникает яркое ощущение «он живой!!», и мы включаем весь арсенал ментальных механизмов, который эволюционировал для взаимодействия с другими людьми:

продолжить чтение

Nvidia выпустила большой открытый набор данных Granary для обучения ИИ и работы с текстами на европейских языках

Nvidia представила

продолжить чтение

Стирая языковые границы для NLP-датасетов

Всем привет. В этом посте расскажем, как мы тестировали БЯМ для переноса англоязычных датасетов на русский. «Мы» — это ваш покорный слуга и ребята из ФИЦ ИУ РАН. Пост по факту перевод нашей научной статьи, которая была опубликована еще в апреле, но вот руки до поста дошли только сейчас.

продолжить чтение

Rambler's Top100