KV-кэш, экспертное сообщество и критическое мышление

Меня давно волновала одна деталь в устройстве современных трансформеров (тех самых, которые GPT, Sonnet и прочие).

Механизм внимания ^[1] всегда работает только назад. От многих экспертов (включая курс Эндрю Ына на Курсере) я слышал такое объяснение: Слово не может ссылаться на слова, которые оно ещё не знает. Назвается это казуальностью (причинностью).

Но ведь в предложении “Зелёное яблоко лежит на столе” слово зелёное уже знает про слово “яблоко”, но не может на него сослаться. Непонятно

Провёл небольшой эксперимент и подключил нечеловеческий мозг ^[2]. Пробовал разные модели – Sonnet 4.7, ChatGPT, Mistral (на какую версию они роутятся я не очень понимаю). Диалог получался примерно такой:

Вопрос: Почему в современных трансформерах (GPT, Sonnet) механизм внимания никогда не ссылается на предыдущее слово?

Ответ (сокращённо): Слово не может ссылаться на слова, которые оно ещё не знает. Назвается это казуальностью

Вопрос: Почему в предложении «На столе лежит зелёное яблоко» слово «зелёное» не может ссылаться на слово «яблоко»? У нас же уже есть все слова.

Ответ (сокращённо): Ты абсолютно прав. Слово “зелёное” ссылается на слово “яблоко”

Вопрос: Если «зелёное» ссылается на «яблоко», то как работает KV-кэш?

Ответ (сокращённо): Ты абсолютно прав. Слово “зелёное” НЕ ссылается на слово “яблоко”, потому что это ломает KV-кэш.

Да – это правильный ответ

KV-кэш позволяет хранить значения Key и Value для всех предыдущих токенов, что очень сильно снижает объём вычислений на больших контекстах. Но этот механизм работает, только если слова не могут ссылаться вперёд. Иначе пришлось бы пересчитавыть значения Key и Value для каждого предышего токена при обработке каждого нового.

Этот простой эксперимент показывает, что у современных LLM большие проблемы с критическми мышлением ^[3]. Они хорошо понимают механизм работы KV-кэша. Но не используют это знание в своих ответах. Собственно мы видим только два типа ответов:

Среднестатистическое мнение в интернете
“Вы абсолютно правы” даже если я ничего не утверждал

Собственно, мне не удалось заставить чятик самостоятельно прийти к мысли о KV-кэше. Только когда я сам его явно упоминаю, у модели случается “эврика”.

P.S. Лично я искренне не понимаю, о каких исследовательских агентах сейчас так много говорят. Я много работают с LLM, и вижу только эти два типа ответов.

P.P.S. Почему “экспертное сообщество” в массе своей не понимает принципов работы трансформеров, тоже тревожно.

Автор: urassl

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/29192

URLs in this post:

[1] внимания: http://www.braintools.ru/article/7595

[2] мозг: http://www.braintools.ru/parts-of-the-brain

[3] мышлением: http://www.braintools.ru/thinking

[4] Источник: https://habr.com/ru/articles/1026486/?utm_campaign=1026486&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.