Как я экономлю 80% контекста нейросетей при работе с логами
ПроблемаЯ разрабатываю приложение KeyRay - кроссплатформенный аналог Punto Switcher, имеющий на порядок лучшую стабильность переключения раскладки. При разработке активно использую нейросети для отладки багов. И столкнулся с неприятной проблемой: при копировании логов в чат огромная часть контекстного окна уходит впустую. Работа с логами во время разработки в паре с ИИ занимает львиную долю времени и контекста чата.
Обновлённый токенизатор видео K-VAE 2.0 от Сбера
Несколько месяцев назад мы выпустили токенизаторы для видео и изображений — KVAE-1.0. Сегодня представляем следующее поколение: KVAE-2.0 — две новых модели, которые превосходят Wan 2.2 и HunyuanVideo 1.5 по объективным метрикам и качеству генерации и являются, таким образом, лучшими открытыми видео-токенизаторами. Код и веса выложены в открытый доступ.
Исследователи Кембриджа доказали, что вашей статьи не существует
СРОЧНО. Исследователи из Отдела предиктивных реконструкций (Department of Predictive Reconstructions) Королевского колледжа Кембриджа (King’s College Cambridge) доказали, что любой письменный текст можно свести к минимальному генеративному промпту и восстановить с семантической достоверностью 98%. Редакция получила доступ к препубликационному черновику. Рынки реагируют. Подробности ниже.Как это работает
Галлюцинации LLM — это артефакты сжатия. И это объясняет вообще всё
Представьте, что вам дают 10 терабайт текста и говорят запихнуть это в файл на 70 гигабайт. Да так, чтобы потом по любому вопросу можно было восстановить нужный кусок. Не точно, но близко, и не побайтово, но чтобы по смыслу билось.Вы бы сказали: «так это же lossy-компрессия, часть данных неизбежно потеряется».И были бы правы, потому что именно это делает LLM.Предсказание = сжатие (и это не метафора)Тут нужно кое-что объяснить, и это самое важное в статье.Клод Шеннон доказал в 1948 году: предсказание следующего символа и сжатие данных — математически одно и то же
Google представила новый ИИ-алгоритм сжатия памяти TurboQuant
Исследователи искусственного интеллекта Google представили TurboQuant, новый сверхэффективный алгоритм сжатия памяти для ИИ.
TurboQuant. Новый алгоритм сжатия от Google
Google Research выпустили TurboQuant - новый алгоритм сжатия данных, который сокращает объём кэш-памяти LLM как минимум в 6 раз и даёт ускорение до 8 раз. При этом заявляется отсутствие потерь в точности, что напрямую влияет на эффективность работы ИИ.
Как я пытался сжимать смыслы вместо байтов
Два часа ночи. Я пытаюсь впихнуть документацию проекта в контекст Claude. 847 страниц. Где-то 1.2 миллиона токенов. Контекстное окно — 200 тысяч.Делаю то, что делают все: режу, суммаризирую, выбрасываю «неважное». Каждый раз теряю что-то критичное. Это уже третий час, кофе кончился, и в голову приходит идея, которая кажется гениальной.Спойлер: она такой не была.
Прогресс видеокодеков и большое сравнение российских видеосервисов
Год назад на конференции VideoTech ваш покорный слуга сделал большой доклад, в том числе про прогресс современных метрик качества видео (которыми мы довольно плотно занимаемся:
StarRocks и Trino: сходства, различия, бенчмарки и кейсы
Проект Trino (ранее PrestoSQL) изначально разработан в Meta, чтобы аналитики могли выполнять интерактивные запросы по широкому спектру хранилищ данных на базе Apache Hadoop. Благодаря эффективной обработке крупных наборов и сложных запросов, а также гибкому подключению к множеству источников данных, Trino быстро стал предпочтительным инструментом аналитики для крупных организаций.

