Понимание оценки LLM: детальный разбор 4 основных подходов
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.
Зоопарк фреймворков для AI-агентов: как выбрать подходящий — делаем бенчмарк и большое сравнение
Привет! В этой статье я детально разберу основные фреймворки для AI-агентов, попробую их побенчить и детально распишу их плюсы и минусы. Если вы подступались к агентам, то первым вопросом наверняка стало «а на чем их делать?». Отовсюду все говорят про langchain и десяток других фреймворков, звучат аббревиатуры типа MCP и A2A, какие-то Swarmы и CrewAI, мультиагентность и самое всякое разное.
DeepSeek обучила LLM за 294 тыс. долларов. Как это удалось и чем этот путь отличается от OpenAI
Разработка больших языковых моделей обычно ассоциируется с астрономическими затратами. Но пример китайской компании DeepSeek показывает, что эта логика не всегда работает: их модель R1 была дообучена всего за 294 тыс. долларов США (на базовую версию ушло около 6 млн). Для сравнения, создание ChatGPT обошлось OpenAI в суммы на порядки выше.
«Нет, я не Байрон, я модель». Превращаем прозу в поэзию с нейросетью — мой кейс
Привет всем! Меня зовут Марина, я учусь на втором курсе магистратуры ВШЭ и МТС «
Галлюцинации LLM: запретить нельзя использовать
Давайте поговорим о галлюцинациях LLM — больших языковых моделей.На первый взгляд это выглядит как ошибка, ложь или выдумка. В недавнем отчёте OpenAI Why Language Models Hallucinate
Microsoft нарастит инвестиции в инфраструктуру для обучения собственных ИИ-моделей
Мустафа Сулейман, MicrosoftMicrosoft планирует инвестировать в развитие собственной инфраструктуры для обучения ИИ-моделей. Об этом рассказал глава отдела потребительского ИИ Мустафа Сулейман на внутреннем собрании компании.
Почему бокс — это мультиагентная система
Привет! ИИ-агенты — главная горячая тема этого года, но все наверняка видели как их ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. Поговорим про system design бокса, про reinforcement learning, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation агентов и многое другое.

