Новая модель LAM способна выполнять задачи в Word. ai.. ai. lam.. ai. lam. llm.. ai. lam. llm. word.. ai. lam. llm. word. Блог компании BotHub.. ai. lam. llm. word. Блог компании BotHub. искусственный интеллект.. ai. lam. llm. word. Блог компании BotHub. искусственный интеллект. Машинное обучение.

Исследователи Microsoft разработали модель, которую они называют “Large Action Model” (LAM) — искусственный интеллект, способный самостоятельно управлять программами Windows. Это означает переход от AI, которые просто говорят о своих возможностях, к AI, которые действительно могут их реализовывать.

Новая модель LAM способна выполнять задачи в Word - 1

В отличие от традиционных языковых моделей, таких как GPT-4o, которые в основном обрабатывают и генерируют текст, LAM может преобразовывать запросы пользователей в реальные действия — будь то управление программным обеспечением или контроль над роботами. Хотя концепция не является абсолютно новой, это первая модель, специально обученная для работы с продуктами Microsoft Office.

Разница между LLM и LAM становится очевидной, когда вы смотрите на что-то вроде онлайн-шопинга. В то время как обычные LLM могут рассказать вам, как делать покупки онлайн, LAM на самом деле могут перемещаться по интерфейсу и совершать покупки самостоятельно

Разница между LLM и LAM становится очевидной, когда вы смотрите на что-то вроде онлайн-шопинга. В то время как обычные LLM могут рассказать вам, как делать покупки онлайн, LAM на самом деле могут перемещаться по интерфейсу и совершать покупки самостоятельно

LAM может понимать пожелания пользователей из различных типов входных данных — текста, голоса или изображений — и превращать эти запросы в подробные пошаговые планы. Более того, она способна корректировать свой подход на основе происходящего в реальном времени.

Создание LAM включает четыре основных этапа. Сначала модель учится разбивать задачи на логические шаги. Затем она учится у более продвинутого AI, такого как GPT-4o, превращать эти планы в действия. После этого модель самостоятельно ищет новые решения, даже справляясь с проблемами, которые ставили в тупик другие AI-системы. Наконец, систему дорабатывают посредством обучения на основе вознаграждений.

Четырехфазный конвейер обучения LAM объединяет предварительное обучение по плану задач, экспертное обучение, самоподкрепляющееся исследование и оптимизацию на основе модели вознаграждения.

Четырехфазный конвейер обучения LAM объединяет предварительное обучение по плану задач, экспертное обучение, самоподкрепляющееся исследование и оптимизацию на основе модели вознаграждения.

В качестве тестового примера они создали LAM на основе модели Mistral-7B и запустили её в тестовой среде Word. Она успешно выполнила задачи в 71% случаев, что значительно превзошло показатель GPT-4o в 63% (без визуальной информации).

LAM также была гораздо быстрее, требуя всего 30 секунд на задачу по сравнению с 86 секундами у GPT-4o. Однако, когда GPT-4o получала визуальную информацию, её точность была выше — 75,5%.

Команда начала с 29 000 пар “задача-план”, собранных из документации, статей wikiHow и запросов в Bing. Для дальнейшего расширения они использовали GPT-4o для преобразования простых задач в более сложные. Например, базовая задача “Создать выпадающий список” преобразилась в “Создать зависимый выпадающий список, где первый выбор фильтрует варианты во втором списке.”

Эта стратегия “эволюционирования данных” помогла им увеличить набор данных до 76 000 пар — рост на 150%. Из всех этих примеров около 2 000 успешных последовательностей действий вошли в окончательный тренировочный набор.

Конвейер разработки LAM объединяет подготовку данных, обучение и реализацию в реальном мире в один непрерывный процесс. Агент связывает обученный LAM с определенными действиями Windows и использует обратную связь для внесения постоянных улучшений.

Конвейер разработки LAM объединяет подготовку данных, обучение и реализацию в реальном мире в один непрерывный процесс. Агент связывает обученный LAM с определенными действиями Windows и использует обратную связь для внесения постоянных улучшений.

Система всё ещё сталкивается с рядом препятствий: существуют обоснованные опасения по поводу ошибок в действиях AI, регуляторные вопросы, требующие решения, а также технические ограничения, затрудняющие масштабирование или адаптацию к различным приложениям.

Несмотря на эти сложности, исследователи считают, что LAM представляют собой важный сдвиг в развитии AI и заявляют, что эти “Large Action Models” обозначают значительный шаг к AGI. Вместо систем AI, которые просто понимают и генерируют текст, в ближайшем будущем у нас могут появиться AI-помощники, которые активно помогают нам выполнять реальные задачи.

Источник

Автор: dilnaz_04

Источник

Rambler's Top100