OpenAI открыла исходный код GABRIEL – тулкита, который превращает горы неструктурированного текста, картинок и аудио в нормальные числовые данные для исследований. Эта штука, как заявляют авторы, может заменить целую армию научных ассистентов, размечающих данные за $15/час, и сделать это в 17 500 раз дешевле.
Что это вообще такое?
GABRIEL расшифровывается как Generalized Attribute Based Ratings Information Extraction Library (да, они очень старались подогнать аббревиатуру под красивое имя). По сути это обёртка вокруг GPT API, заточенная под социологов, экономистов и прочих учёных, которым нужно превратить качественные данные в количественные. То есть взять миллион речей политиков и за минуты оценить каждую по шкале “популизм от 0 до 100” (спойлер: значение стремится к 100), или прогнать все статьи Хабра через фильтр «является ли это технологией». Руками это сделать обойдется в копеечку и долгие месяцы, GABRIEL должен справится за минуты.
Выпустила GABRIEL одна из команд OpenAI, и к тулкиту приложили полноценную академическую статью, где тестировали GPT как инструмент измерения на 1000+ датасетах с человеческой разметкой и как результат – модель неотличима от живых разметчиков по точности. И это не рекламный-меркетинговый ход – это рецензируемая работа, выполненная совместно с Андреем Шлейфером из Гарварда – ученый с высоким h-индекс, поэтому ему нет смысла рисковать своей репутацией.
Что умеет?
GABRIEL – это множество функций под одной оболочкой:
-
gabriel.rate– оценивает тексты/картинки/аудио по любым атрибутам на шкале 0-100. Хотите измерить “токсичность” комментариев в вашем тг канале? «ИИ-шность» рекламных фото? «Пессимизм» финансовых отчётов? Всё это одна строчка кода. -
gabriel.classify– классификация по категориям. Закиньте 100к файлов судебных дел (Эпштейн, привет), получите разбивку по темам. -
gabriel.extract– структурированное извлечение фактов. Для каждого продукта вытащить компанию, CEO, год основания – одним движением всё в табличке. -
gabriel.mergeиgabriel.deduplicate– мёрдж датасетов, когда колонки не совпадают, и дедупликация. «Макдональдс», «Вкусно и Точка» и «Мак» схлопнутся в одну запись. -
gabriel.deidentify– замена персональных данных реалистичными фейками. Имена, адреса, работодатели – всё подменяется, маппинг сохраняется. Полезно для многих датасетов с персональными данными. -
gabriel.discover– находит, чем отличаются две группы данных. Кидаете 5-звёздочные и 1-звёздочные отзывы, получаете фичи, которые их разделяют. -
gabriel.ideate– генерит научные теории и фильтрует лучшие (и как вы хотите заставить меня включать теперь голову?).
И ещё с десяток утилит, полный список – в репозитории.
А дешево ли?
Вот табличка из статьи, которая демонстрирует нереальный разрыв. Задача: оценить тексты по 10 атрибутам.
|
Датасет |
gpt-5-nano |
gpt-5-mini |
gpt-5 |
Живой человек ($15/ч) |
|---|---|---|---|---|
|
240 речей State of the Union |
$0.14 |
$0.69 |
$3.46 |
~$2 600 |
|
100k полных текстов проповедей |
$43 |
$217 |
$1 083 |
~$700 000 |
Разница – от 700x до 17 500x. Даже на самой дорогой модели обработать сто тысяч текстов стоит тысячу долларов вместо семисот тысяч. “Проект, который раньше требовал гранта и года работы, теперь делается за вечер на карточке” – звучит как рекламный слоган, но похоже это наше настоящее.
Где минусы?
Они есть, и авторы их честно описывают.
Во-первых проблема галлюцинацией. Модель обучена на тоннах текста, и она может «помнить» ответы, а не реально читать ваш текст. Авторы пытались тестировать это отдельно и говорят, что GPT всё-таки читает контент, а не достаёт ответ из памяти – но вопрос остаётся открытым для новых доменов и нет никаких гарантий, что в следующей задаче, он не выдумает ответ с галлюцинацией.
Во-вторых, shortcut inference – модель может угадывать атрибут не из текста, а из косвенных признаков. Например, определять «климатический скептицизм» речи не по содержанию, а по партийной принадлежности спикера (правые отрицают глобальное потепление, а левые продвигают данную идею). Для этого есть отдельная функция gabriel.debias, но чудес от неё ждать не стоит.
В-третьих – тулкит работает только через OpenAI API. Никаких локальных моделей, никакого Opus или Gemini. Хотите пользоваться? Платите OpenAI. Open-source – это прекрасно, но ваши данные всё равно летят в облако и для исследований с чувствительными данными (медицина, психология, нацбезопасность) это может быть стоп-фактором.
Зачем это OpenAI?
Тут всё очевидно – OpenAI активно заходит в науку: еще в октябре 2025 запустили целую команду OpenAI for Science, в январе 2026 выкатили Prism (бесплатный AI-редактор для научных статей). Габриель – очередной кирпичик в этой стратегии. Логика простая: учёные начинают зависеть от GPT API → академические статьи ссылаются на GPT → GPT становится стандартом в методологии → подписки растут. А если серьёзно, инструмент сравнивают со Stata – и это, пожалуй, самый хороший комплимент для GABRIEL.
Установка — pip install openai-gabriel, туториал – в Colab-ноутбуке, лицензия – Apache 2.0.
Вывод?
Для тех, кто работает с массивами неструктурированных данных, это точно стоит того, чтобы хотя бы попробовать. Для остальных – это просто хороший индикатор того, куда движется наука: от ручной разметки к GPT-разметке – а кто-то удивлен?
И мысль на подумать: если GPT уже неотличим от человека при разметке данных, то сколько ещё осталось до момента, когда учёные перестанут вообще быть нужны для рутинной части исследований?
Полезные ссылки:
-
Блог-пост OpenAI – официальный анонс с объяснением зачем это всё
-
GitHub-репозиторий – код, документация, примеры
-
Статья «GPT as a Measurement Tool» – полная академическая статья с валидацией на 1000+ датасетах.
-
Tutorial-ноутбук в Colab – можно потыкать руками прямо сейчас, без установки
-
PyPI-пакет –
pip install openai-gabriel
Надеюсь тебе понравилось. Лучшая благодарность – это твоя подписка на мой Telegram-канал 😊
Автор: ab429


