llm.
Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости
ВведениеПосле сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.
SLAVA — бенчмарк социально‑политического ландшафта и ценностного анализа
Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии.
Исследование способности языковых моделей к логическим рассуждениям — тест RELIC
Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.
Разработка LLM с нуля
Представляю вашему вниманию курс, который я недавно опубликовал на Степике - Разработка LLM с нуля.В курсе вам предстоит с нуля разработать современную LLM и все необходимые для ее работы компоненты:Токенизатор (BPE)Эмбеддинги (Токенов и Позиционные)Блок Декодера:
Кто сильнее в синтезе тестов? Сравниваем GPT-4.1, DeepSeek, Qwen на своем бенчмарке
Привет, Хабр!В этой статье поделюсь интересными и иногда любопытными результатами сравнения современных языковых моделей (LLM) на задаче синтеза тестов.
Claude 3.5 Sonnet в роли AI-агента: тестирую работу в цикле с реальным выполнением кода
Вчера тестировал мой агент DepthNet на реальных моделях. Это что то вроде "операционной системы для LLM моделей" В прошлой статье пользователи просили привести диалоги, и рассказать подробнее, и тогда я решил более полно осветить вопрос.Доработка агентаВ прошлые эксперименты я понял, что агент имеет множество недостатков (он и сейчас их имеет, но уже меньше :), которые необходимо пофиксить. На текущий момент сделано:Плагины стали настраиваемые, и вся система плагинов стала более гибкой.
Мини-фреймворк для разработки LLM-based приложений
Предлагаю ознакомится экспертной общественности с моим мини-фреймворком для разработки LLM-based приложений: core-kbtКонцепция проектаПроект core-kbt (kbt - это аббревиатура от Knowledge Base Trajectory) - это мини-фреймворк для разработки LLM-based приложений и доменных баз знаний, с примерами доменных знаний из областей представления знаний, LLM и средств разработки.Идею проекта можно представить с разных сторон:сделать удобные средства разработки для LLM-based приложений
«Крестный отец» ИИ обвиняет новые модели во лжи пользователям: как избежать проблем с LLM
Йошуа Бенжио
GPT ломает приватность: что должен знать разработчик
AI везде. И не всегда там, где ты о нём просилЗа последний год AI встраивается буквально во всё. Ещё недавно его приходилось отдельно запускать. Теперь он встроен везде:Slack сам подсказывает тебе ответы.Notion завершает мысли за тебя.Google Docs правит твой текст «по смыслу».Miro помогает составить диаграммы.IDE пытаются написать код вместо тебя.Даже те, кто не ставил себе отдельные плагины, уже взаимодействуют с AI каждый день. Он вшит в SaaS-продукты и работает в фоне. Иногда так, что пользователь об этом вообще не знает.Вот здесь и появляется первый важный вопрос:

