Кастомный пайплайн BERTopic: как кластеризовать тексты и получить интерпретируемые темы с помощью LLM
Привет, Хабр! Меня зовут Антон и я занимаюсь задачами NLP в компании Ростелеком Информационные технологии.
Питер Штайнбергер рассказал, на что тратит по 600 млрд токенов в месяц
Автор проекта OpenClaw Питер Штайнбергер в одном из твитов продемонстрировал
Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?
Сравнил предсказания калькулятора с реальными запусками llama.cpp на RTX 4060 Ti, 3090 и Apple M2 Pro. Спойлер: где-то точно, где-то мимо на 30%Когда я начал ковыряться с локальными LLM полгода назад, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит «Llama 3.1 8B». Что это значит для моей видеокарты с 16 GB VRAM? А если я хочу 32k контекст? А с квантованием Q4_K_M? Цифры в README часто не учитывают KV cache, который при больших контекстах ест VRAM сильнее, чем сама модель.Несколько недель назад мне попался простой open-source калькулятор — whatmodelscanirun.ru (русскоязычный форк оригинального проекта
Harness вокруг LLM: что я понял за год ежедневной работы
Год в Claude Code, несколько релизов моделей, десятки экспериментов с командой в Kaiten. Всё это время я ждал, что главным рычагом качества будет очередной релиз модели. Оказалось, ровно наоборот: смена модели даёт заметный, но ограниченный прирост, а каждый новый слой обвязки вокруг неё — кратный.Англоязычные инженеры называют эту обвязку harness
Как запихнуть килограмм LLM в телеграм-бота и не сойти с ума
Введение. Role-Play LLM ботВсе началось как шутка. Я сидел с друзьями и подумал: а вот было бы прикольно внедрить разные модели нейросетей в один чат и заставить их думать, что они реальные люди и работают в корпорации.Весь смысл был в том, чтобы это были действительно разные модели и пользователь мог просто между ними переключаться по запросу. Для начала мне нужно было найти зоопарк апи ключей с бесплатными лимитами. Я прошерстил весь интернет и в итоге нашел относительно нормальные варианты: Groq для LLama, Google AI Studio для Gemma и Gemini.
ИИ пришел не за кодерами, а за их начальниками: тех-гиганты убирают управленческий слой
Согласно расследованию Guardian
До свидания, любимые эмэльщики! Мы сделали стенд по компьютерному зрению, которым может воспользоваться каждый
На стенде ваши модели обучаются буквально на десятках картинок вместо тысяч, и дают не меньше 86% точности, при этом обходят YOLO — без GPU-кластеров и эмэль‑псевдомагии.Джекил и Хайд против священной коровы ML
Могут ли LLM находить flaky‑тесты по одному только коду теста? Разбор одного исследования
Недавно прочитала исследование про flaky тесты, и оно оказалось интереснее, чем я ожидала. Вопрос у авторов был довольно простой. Можно ли показать модели только код теста и попросить определить, flaky он или нет?
Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA
Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров.

