LLM Evals: движущая сила новой эры ИИ в бизнесе
На днях OpenAI опубликовали в своем блоге небольшую статью с достаточно громким названием «How evals drive the next chapter in AI for businesses». Я сделал ее перевод, чуть адаптировав для лучшей читабельности, очень уж бюрократический язык в оригинале.Статью авторы называют «руководством для бизнес-лидеров». Внутри — про оценку недетерминированных систем, как к этому подходить, немного про A/B тесты и почему не стоит пытаться решить все сразу. Классический цикл фиксации метрики и постепенного ее улучшения, но с LLM спецификой.
Почему языковые модели «галлюцинируют»
Команда AI for Devs подготовила перевод статьи OpenAI о природе галлюцинаций языковых моделей. Почему модели уверенно «выдумывают» факты, как это связано с предсказанием следующего слова и почему традиционные метрики только усиливают проблему?В OpenAI мы активно работаем над тем, чтобы сделать ИИ-системы полезнее и надёжнее. Но даже по мере роста их возможностей остаётся одна упрямая проблема: галлюцинации. Под этим мы понимаем случаи, когда модель уверенно выдаёт ответ, который на самом деле неверен. В нашей новой

