гроккинг.

П維чему нейро考ети дел思ют так

Если вы хоть раз тестировали локальную модель (да и нелокальную тоже) и замечали, как она посреди нормального текста вдруг выдает иероглиф, то заголовок статьи вам не покажется странным. И к концу будет ясно, что именно происходит когда ИИ-шка вам подсовывает иероглифы.

продолжить чтение

Как я обошел современные GPT модели с помощью GPT2-small на задачах рассуждения

Не так давно я уже писал статью по такому необычному явлению, как гроккинг - отложенная генерализация. Если долго тренировать модель на наборе данных, то тестовая точность достигнет 100% и модель станет безошибочно решать задачу. Звучит круто! Но вот проблема - никто до сих пор не мог применить гроккинг на задачах из реального мира, а мы это сделали и сейчас публикуемся на крупнейшей МЛ конференции. Если интересно, как мы этого достигли, то прошу под кат.

продолжить чтение