gpt.
Как научить планшет видеть несколько объектов в кадре одновременно: multi-label классификация
Представьте: вам нужно научить камеру планшета почти мгновенно определять, что происходит в кадре. И это не просто «автомобиль» или «человек»: нужно различать и связывать разные категории объектов: документы, текст, людей, QR и штрихкоды. Казалось бы, достаточно взять предобученную модель и заточить для запуска на конкретном железе, в нашем случае это планшет KVADRA_T. Но задача оказалась сложнее из-за доменов классов. Для них не нашлось моделей, которые соответствовали заданным в проекте метрикам и времени исполнения.
OpenAI открыла код GABRIEL — GPT-обёртки, которая может убрать ручную разметку данных
OpenAI открыла исходный код GABRIEL - тулкита, который превращает горы неструктурированного текста, картинок и аудио в нормальные числовые данные для исследований. Эта штука, как заявляют авторы, может заменить целую армию научных ассистентов, размечающих данные за $15/час, и сделать это в 17 500 раз дешевле.Что это вообще такое?
От чат-бота к AI агенту: собираем локальную систему на LibreChat, Langflow и MCP
Всем привет! Меня зовут Николай Луняка. В прошлой статье мы строили локальную систему для транскрибации аудио, и многие из вас откликнулись на тему цифровой независимости. Сегодня продолжим эту линию и соберем агентную AI систему, которая работает локально.
Я заразил 200 нейросетей вирусом. К 20-му поколению они выработали иммунитет — и разучились думать
Лёха — единственный биолог среди моих друзей. Мы сидим в баре, он тычет телефоном мне в лицо. На экране — чашка Петри. В колонию бактерий вливают бактериофаги. Бактерии лопаются. Колония редеет. Тает. Исчезает.Перематывает на сутки.Колония на месте. Как ни в чём не бывало.«Выжившие передали устойчивость потомкам. Они не понимают вирус. Перебирают мутации, пока что-то не сработает. А потом это наследуется».Я смотрю на экран и думаю совсем про другое. Вчера Карпати выложил microGPT — минимальную архитектуру GPT
Морфемы против BPE: как лингвистика ускоряет обучение языковых моделей
Откройте любой BPE-токенизатор и введите слово "paratrooper". Вот что вернёт GPT-5.x (токенизатор o200k_base): . Три бессмысленных слога. Ваш мозг видит para- (около), troop (отряд), -er (деятель) — а токенизатор видит статистический шум.Это не баг, а особенность работы Byte Pair Encoding — алгоритма, который разрезает текст по частоте встречаемости пар символов, полностью игнорируя лингвистическую структуру слов. GPT-5.x, Claude, Gemini, LLaMA — все используют варианты BPE.
Топ нейросетей для рерайта текста: сохраняем факты, улучшаем стиль
Многих раздражает переписывать тонну тексту вручную. Тратить часы на переписывание, перефразирование или адаптацию объемных материалов энергозатратно и часто неэффективно. На помощь может прийти искусственный интеллект.В нынешнее время, когда новые модели выходят довольно часто, легко запутаться. Поэтому возникает вопрос - какая нейросеть справится лучше с задач��й рерайтинга? Сегодня я протестирую ChatGPT 5.2, Claude Sonnet 4.5, Gemini 3 Pro, Grok 4 и DeepSeek V3.2 в некоторых задачах взаимодействия с текстом. Примите стратегически удобное положение, ну а я приступаю к сравнению.
Шесть осей прогресса LLM: почему «данные закончились» — это заблуждение
TL;DR«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.Вот в чём проблемаЗайдите в любой айтишный-чат.«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».Звучит умно. Проблема? Это полная ерунда.Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.Ось упёрлась? Значит, AI упёрся.Нет. Не значит.Давайте честно: одномерное мышление — это ловушка2012 год.
Выжимаем максимум из опенсорсных моделей и готовим Text2SQL
В любой крупной компании есть повторяющийся сценарий. Аналитик сидит над экспериментом или моделью, строит А/В тесты и дашборды, и в этот момент приходит бизнес и просит быстро посмотреть «продажи жвачки за вчера». Аналитик переключается, пишет запрос, отдаёт результат, а через десять минут прилетает почти такой же вопрос. Потом ещё один и ещё. День заканчивается, а свои задачи стоят и покрываются ржавчиной.
Трёхстрочный Deep Learning: 20 примеров нейросетевой магии
В 2012 году команда из Торонто потрясла мир компьютерного зрения: их нейросеть AlexNet распознавала объекты на фотографиях лучше любого алгоритма, написанного вручную. Код занимал тысячи строк, требовал двух видеокарт и недель обучения. Сегодня вы можете превзойти AlexNet одной строкой кода, а модель загрузится за секунды.

