Машинное обучение. - страница 43

Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM

Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии.

продолжить чтение

Питер Штайнбергер рассказал, на что тратит по 600 млрд токенов в месяц

Автор проекта OpenClaw Питер Штайнбергер в одном из твитов продемонстрировал

продолжить чтение

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?

Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта

продолжить чтение

Harness вокруг LLM: что я понял за год ежедневной работы

Год в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный.Англоязычные инженеры называют эту обвязку harness

продолжить чтение

Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума

Введение. Role-Play LLM ботВсе началось как шутка. Я сидел с друзьями и подумал: а вот было бы прикольно внедрить разные модели нейросетей в один чат и заставить их думать, что они реальные люди и работают в корпорации.Весь смысл был в том, чтобы это были действительно разные модели и пользователь мог просто между ними переключаться по запросу. Для начала мне нужно было найти зоопарк апи ключей с бесплатными лимитами. Я прошерстил весь интернет и в итоге нашел относительно нормальные варианты: Groq для LLama, Google AI Studio для Gemma и Gemini.

продолжить чтение

ИИ пришел не за кодерами, а за их начальниками: тех-гиганты убирают управленческий слой

Согласно расследованию Guardian

продолжить чтение

Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

Maix4 HAT

продолжить чтение

До свидания, любимые эмэльщики! Мы сделали стенд по компьютерному зрению, которым может воспользоваться каждый

На стенде ваши модели обучаются буквально на десятках картинок вместо тысяч, и дают не меньше 86% точности, при этом обходят YOLO — без GPU-кластеров и эмэль‑псевдомагии.Джекил и Хайд против священной коровы ML

продолжить чтение

Могут ли LLM находить flaky‑тесты по одному только коду теста? Разбор одного исследования

Недавно прочитала исследование про flaky тесты, и оно оказалось интереснее, чем я ожидала. Вопрос у авторов был довольно простой. Можно ли показать модели только код теста и попросить определить, flaky он или нет?

продолжить чтение

Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров.

продолжить чтение