llm. - страница 126

llm.

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

ВведениеПосле сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.

продолжить чтение

SLAVA — бенчмарк социально‑политического ландшафта и ценностного анализа

Большой обзор: от идеи и структуры — до неожиданных выводов и практических сценариев применения SLAVA — это открытый русскоязычный бенчмарк, разработанный экспертами РАНХиГС и ИСП РАН для проверки, как большие языковые модели справляются с фактологическими и ценностно нагруженными вопросами по истории, обществознанию, географии и политологии. 

продолжить чтение

Исследование способности языковых моделей к логическим рассуждениям — тест RELIC

Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.

продолжить чтение

Разработка LLM с нуля

Представляю вашему вниманию курс, который я недавно опубликовал на Степике - Разработка LLM с нуля.В курсе вам предстоит с нуля разработать современную LLM и все необходимые для ее работы компоненты:Токенизатор (BPE)Эмбеддинги (Токенов и Позиционные)Блок Декодера:

продолжить чтение

Кто сильнее в синтезе тестов? Сравниваем GPT-4.1, DeepSeek, Qwen на своем бенчмарке

Привет, Хабр!В этой статье поделюсь интересными и иногда любопытными результатами сравнения современных языковых моделей (LLM) на задаче синтеза тестов.

продолжить чтение

Разбираемся с суффиксами квантования LLM: что на самом деле значат Q4_K_M, Q6_K и Q8_0

Привет!

продолжить чтение

Claude 3.5 Sonnet в роли AI-агента: тестирую работу в цикле с реальным выполнением кода

Вчера тестировал мой агент DepthNet на реальных моделях. Это что то вроде "операционной системы для LLM моделей" В прошлой статье пользователи просили привести диалоги, и рассказать подробнее, и тогда я решил более полно осветить вопрос.Доработка агентаВ прошлые эксперименты я понял, что агент имеет множество недостатков (он и сейчас их имеет, но уже меньше :), которые необходимо пофиксить. На текущий момент сделано:Плагины стали настраиваемые, и вся система плагинов стала более гибкой.

продолжить чтение

Мини-фреймворк для разработки LLM-based приложений

Предлагаю ознакомится экспертной общественности с моим мини-фреймворком для разработки LLM-based приложений: core-kbtКонцепция проектаПроект core-kbt (kbt - это аббревиатура от Knowledge Base Trajectory) - это мини-фреймворк для разработки LLM-based приложений и доменных баз знаний, с примерами доменных знаний из областей представления знаний, LLM и средств разработки.Идею проекта можно представить с разных сторон:сделать удобные средства разработки для LLM-based приложений

продолжить чтение

«Крестный отец» ИИ обвиняет новые модели во лжи пользователям: как избежать проблем с LLM

Йошуа Бенжио

продолжить чтение

GPT ломает приватность: что должен знать разработчик

AI везде. И не всегда там, где ты о нём просилЗа последний год AI встраивается буквально во всё. Ещё недавно его приходилось отдельно запускать. Теперь он встроен везде:Slack сам подсказывает тебе ответы.Notion завершает мысли за тебя.Google Docs правит твой текст «по смыслу».Miro помогает составить диаграммы.IDE пытаются написать код вместо тебя.Даже те, кто не ставил себе отдельные плагины, уже взаимодействуют с AI каждый день. Он вшит в SaaS-продукты и работает в фоне. Иногда так, что пользователь об этом вообще не знает.Вот здесь и появляется первый важный вопрос:

продолжить чтение

Rambler's Top100