llm.
LLM против хаоса: как я автоматизировал ревизию прав доступа в админке Авито
Привет! Я Андрей и сегодня расскажу, как сделал мультиагентную систему, которая автоматизировала ревизию доступов в бэкофисе Авито, копившихся годами. Вы узнаете, как собрать LLM-систему с четырьмя агентами и супервизором, которая не только сгенерировала описания прав доступа, но и с точностью 77% нашла их владельцев без передачи кода и документации внешним моделям. Вперед к прочтению!
Процедурная память: как она упрощает и удешевляет работу ИИ-агентов
Новая методика, разработанная учёными из Чжэцзянского университета и Alibaba Group, наделяет агентов больших языковых моделей (LLM) динамической памятью, делая их более эффективными и результативными при решении сложных задач. Этот подход, получивший название Memp, обеспечивает агентов «процедурной памятью», которая непрерывно обновляется по мере накопления опыта — подобно тому, как люди учатся через практику.
Выбросить нельзя, переобозначить. Или как дообучать LLM даже на ошибках и без RLHF
Одним из сложнейших этапов дообучения LLM является процесс выравнивания (alignment), который зачастую играет решающую роль в качестве модели. Традиционным подходом к решению данной задачи является RLHF, но для него нужны дополнительные обучаемые модели, а это дополнительные вычислительные затраты и трудности в настройке. В цикле своих исследований об обучении LLM я наткнулся на интересную статью, в которой авторы предлагают метод Hindsight Instruction Relabeling (HIR).Ссылка на источник находится тут. Очень проработанная статья, советую почитать.Предыдущие материалы цикла:
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena? Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.TL/DR: Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
Grok Code Fast 1
Тихо, незаметно, модель появилась на Openrouter и Github Copilot, я начал копать: Модель Grok Code Fast 1 — это супербыстрая и экономичная модель для генерации кода, выпущенная командой Grok (xAI). Она оптимизирована для агентных рабочих процессов и качественного кода, поддерживает очень большой контекст (около 256К токенов), имеет 314 миллиардов параметров с архитектурой MoE. Эта модель предназначена для ускорения программирования и отлично справляется с проектами сложной структуры. Grok Code Fast 1 имеет скорость примерно 92 токена в секунду, что делает ее одной из самых быстрых кодирующих моделей на данный момент.
NVIDIA RTX 6000 Blackwell Server Edition: тесты, сравнение с Workstation и RTX 5090, особенности охлаждения
С выпуском нового поколения чипов Blackwell для рынка потребительских видеокарт ожидаемо было увидеть версии GPU и для рабочих станций, которые должны были прийти на замену A5000/A6000-серии и быть дешевле, чем GPU уровня A100/H100.Это и произошло, но при этом Nvidia всех окончательно запутала, выпустив за полгода аж три версии видеокарты RTX PRO 6000 Blackwell. Мы в HOSTKEY к гонке производительности подключились с выходом последней версии, а именно RTX PRO 6000 Blackwell Server Edition, протестировали ее, и нам есть что вам рассказать по итогу (и показать).Попробуйте сервер с NVIDIA RTX 6000 PRO 96 ГБ - бесплатно!
LLM-агенты против ручного ресерча: кейс Bioptic в биофарме
При разработке новых лекарств важно вовремя оценить конкурентную среду – какие препараты уже существуют или находятся в разработке для той же болезни (индикации). Такой анализ конкурентов обычно входит в due diligence проекта: инвесторы и фармкомпании вручную собирают данные из разных источников о всех потенциальных конкурентах целевого препарата.

