Останется ли это правдой завтра? Как проверка устойчивости фактов помогает LLM стать честнее и умнее
Привет, Хабр! Мы в команде «Вычислительная семантика» в AIRI сфокусированы на исследовании галлюцинаций и решении проблем доверительной генерации. Мы учимся находить галлюцинации и бороться с ними. Большие языковые модели (LLMs) вроде GPT-4 стали незаменимыми помощниками в повседневной жизни — от генерации текстов до поддержки в кодинге и ответов на вопросы. Однако у них есть ахиллесова пята: они часто галлюцинируют. В этом посте мы разберем нашу последнюю работу Will It Still Be True Tomorrow?, посвященную тому, как на надёжность моделей влияет феномен неизменного вопроса (evergreen question)
SLAVA — бенчмарк социально‑политического ландшафта и ценностного анализа
Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии.
Atlassian встроил Claude в Jira — теперь задачи создаются через промпт
Можно получить любой отчет, просто написав, что тебя интересует. Или назначить задачу, не заходя в Jira. Тестировал неделю. Рассказываю, стоит ли овчинка выделки и как это меняет рабочий процесс.Вчера коллега потратил 10 минут, чтобы создать простую задачу в Jira. Выбирал тип, заполнял поля, искал, кому назначить. Обычная история.Но теперь это можно сделать за 1 минуту, даже не заходя в интерфейс Jira.
Насколько русскоязычные LLM устойчивы к промпт-инъекциям
Последние годы генеративные большие языковые модели (LLM), такие как ChatGPT и YandexGPT, стали неотъемлемой частью многих продуктов и сервисов. С ростом популярности этих моделей возникли и новые угрозы безопасности — одной из самых актуальных стали промпт-инъекции. Что это такое, и почему это важно?Что такое промпт-инъекция?Промпт-инъекция — это атака, при которой злоумышленник отправляет модели запрос, сформулированный так, чтобы заставить её нарушить встроенные правила безопасности или раскрыть конфиденциальную информацию.Например:Манипуляция инструкциями
Как мы сделали новых ИИ-помощников для программистов компактными и при этом могучими
В прошлом году мы уже рассказывали, как создавали нашего помощника программиста Kodify. Не прошло и года, и мы
Фрилансер рассказал про контракт, в рамках которого за $35 тыс. развернёт ИИ-решение на Llama 3 70B
Реддитор поведал сообществу n8n о своём недавно заключённом контракте. Как рассказывает фрилансер, он развернёт для юридической фирмы полноценное ИИ-решение на основе Llama 3 70B со стоимостью хостинга около $1200 в месяц.ChatGPT и другие схожие продукты молниеносно завоевали мировой рынок. Свой первый миллион пользователей чат-бот от OpenAI набрал всего за 5 дней, а уже через два месяца сайт ежемесячно открывали
Сверхспособность LLM в понимании документа, сконвертированного в текст с ошибками — или почему наш RAG работает
Недавно я столкнулся с интересным поведением языковой модели, которое меня по-настоящему удивило, и хочу поделиться этим наблюдением с сообществом.

