спекулятивный декодинг.

Повторяй промт дважды — и нейросеть станет умнее. Это реально работает

Ещё раз: повторяй промт дважды — и нейросеть станет умнее. Это реально работает!Пример повторящегося промта со вставкой посерединеИсследователи Google Яньив Левиатан, Матан Кальман и Йосси Матиас 

продолжить чтение

Алгоритмы спекулятивного инференса LLM

ВведениеЗа последние годы качество LLM моделей сильно выросло, методы квантизации стали лучше, а видеокарты мощнее. Тем не менее качество генерации все еще напрямую зависит от размера весов и, как следствие, вычислительной сложности. Кроме того, генерация текста авторегрессионна - токен за токеном по одному, потому ее сложность зависит от размера контекста и количества генерируемых токенов.Но генерация текста не всегда имеет однородную сложность, так же как мы во многом мыслим идеями, а слова произносим “на автомате”. В статье обсудим алгоритмы, позволяющие использовать эту неоднородность для ускорения.

продолжить чтение

Rambler's Top100