llm. - страница 141

llm.

«Куб → Город: школьный игровой движок и зрячий ИИ-копилот»

Обратите внимание: этот материал публикуется впервые и ранее нигде не размещался, включая личные блоги, социальные сети и другие платформы. Пролог на 3 033 знака (да, я посчитал)Меня зовут Владимир Летуновский, и у меня есть две особенности. Первая: мне тринадцать, и я искренне считаю, что vkCmdPipelineBarrier— это идеальный подарок на день рождения. Вторая: все вокруг уверены, что школьники должны играть в Fortnite или — на худой конец — делать домашку, а я вместо этого выращиваю собственный игровой движок на C++ 20 + Vulkan 1 .3, да ещё и обучаю мультимодальную LLM, которая сама

продолжить чтение

Как запустить локально LLM, если ее веса не помещаются в [видео]память

Некоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои личные документы. А то и запускать бесчеловечные эксперименты над LLM так, чтобы superintelligence/skynet потом это не припомнил. Есть много моделей, оптимизированых для быстрой работы на устройствах с небольшой памятью. Но к сожалению, веса самых продвинутых моделей, которые играют в одной лиге с лучшими онлайн моделями, занимают сотни гигабайт. Например, 8-битные веса Deepseek R1-671B занимают 700 гигабайт, квантованые q4 — 350 гигов. Можно квантовать и в 1 бит, размер тогда будет около 90 гигов, но такая модель почти бесполезна. Еще есть много качественных finetunes на основе Mistral-Large-instruct-130B, Qwen2.5-72B, llama3.3-70B, веса которых также не помещаются в память старших моделей видеокарт. Если веса модели не помещаются в ОЗУ (или, еще лучше, в видеопамять), то пользоваться моделью практически невозможно. При вычислении каждого токена все веса придется заново читать с диска, и минимальную задержку легко посчитать, просто разделив размер модели на скорость чтения. Но даже если у Вас дома совершенно случайно не завалялись парочка Nvidia B100 или Mac Studio Ultra/512GB RAM, все еще есть возможность запустить большую LLM.

продолжить чтение

Учёные из T‑Bank AI Research разработали метод повышения безопасности и точности ответов ИИ до 15%

Учёные из лаборатории исследований искусственного интеллекта T‑Bank AI Research создали методику обучения больших языковых моделей (LLM). Метод основан на методах Trust Region. По словам учёных, результаты исследования помогают улучшить качество ответов ИИ до 15% по пяти показателям. Исследование представили на конференции по машинному обучению ICLR в Сингапуре. Конференция идёт с 24 по 28 апреля 2025 года.

продолжить чтение

Безопасность ИИ на практике: разбор заданий AI CTF на Positive Hack Days Fest 2

продолжить чтение

87% валидных тест-кейсов: как ChatGPT справляется с их генерацией

АннотацияСоздание тест-кейсов на основе требований — важная, но трудоёмкая часть системного тестирования. В статье рассматривается, насколько эффективно с этой задачей на данный момент справляется большая языковая модель ChatGPT-4 Turbo. Для эксперимента использовались пять проектов с реальными SRS-документами, включающими функциональные и нефункциональные требования. С помощью цепочки промптов модель генерировала тест-кейсы для каждого юзкейса, а оценку качества проводили сами разработчики.

продолжить чтение

Что не так с MCP (Model Context Protocol)?

Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые считаю стоят внимания. В основном про AI, изменение процессов, тренды и продуктовое видение.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.Сегодняшний перевод — Everything Wrong with MCP

продолжить чтение

Часть 3. Обзор технологий RAG для LLM: оптимизация извлеченных данных

Продолжаю адаптированный перевод статьи китайских исследователей Retrieval-Augmented Generation for Large Language Models: A Survey (ссылка на первую часть — здесь, на вторую часть — здесь) Во этой, третьей части авторы совсем кратенько разбирают технологии оптимизации извлеченных данных.После этапа поиска информации не рекомендуется напрямую передавать все полученные данные в LLM для генерации ответов. Оптимизацию предлагается проводить в двух направлениях: корректировка извлечённого контента и

продолжить чтение

Обзор техник RAG: Retrieval Augmented Generation

Рассмотрим техники построения и улучшения RAG систем: от нарезания текстов на куски, до продвинутых способов улучшения качества ответа.Этим блогом можно пользоваться как шпаргалкой для проектирования своего RAG-а и/или для подготовки к собеседованиям.Все полезные ссылки и материалы, на которые я опирался будут в конце.Что такое RAG и зачем нуженRAG - это фреймворк взаимодействия предобученной LLM с базой знаний. То есть при ответе LLM на запрос пользователя модель отвечает используя актуальный контекст из базы и свои pre-trained знания.

продолжить чтение

Как тестировать AI-агентов, чтобы не было больно

продолжить чтение

LLM как концептуальный симулятор для универсальных «теорий всего». Скорректированный прогноз ai-2027.com и другие

"Вселенная - это библиотека, где каждая книга отражает все другие, а Бог - её вечный Читатель и Текст", Хорхе Луис Борхес."Реальность - это язык, на котором Вселенная наполняется смыслом", Я.

продолжить чтение

Rambler's Top100