токены. - страница 2

BERT — это всего лишь одноэтапная диффузия текста

Некоторое время назад компания Google DeepMind представила Gemini Diffusion — экспериментальную языковую модель, генерирующую текст методом диффузии. В отличие от традиционных моделей, написанных в стиле GPT и генерирующих слово за словом,  Gemini создаёт текст целыми блоками, пошагово уточняя случайный шум.Я прочитал статью «Large Language Diffusion Models» — и с удивлением узнал, что дискретная диффузия языка представляет собой просто обобщение метода генерации пропущенного токена (MLM), практикуемого уже с 2018

продолжить чтение

Что именно ИИ-чатботы делают «под капотом»

Среди друзей я пользуюсь репутацией «ты ж программист», поэтому у меня нередко интересуются, как именно работают «под капотом» такие известные инструменты как ChatGPT, Claude, Grok или DeepSeek. Со временем я отточил ответ на этот вопрос — и потому, что нашёл способы лучше на него отвечать, и потому, что научился сам создавать большую языковую модель с нуля. Поэтому и сам понимать большие языковые модели я стал гораздо лучше.

продолжить чтение

Плохая waifu (и при чем тут Пушкин, Горбачев и математика). О современных нейронках для ролевых игр на Русском языке

СОДЕРЖАНИЕ:ЧТО ПРОИСХОДИТКТО ВИНОВАТЧТО ДЕЛАТЬИТОГИЧТО ПРОИСХОДИТТебе приходилось когда-нибудь ролить с чат-ботами? Если ты этим страдаешь уже давно, то знаешь, что если ролевку ведешь на Русском, то ответы тебя удовлетворят, ну только если у тебя мозги восьмиклассника или IQ меньше 85. Но стоит переключиться на Английский и происходит МАГИЯ: боты становятся намного живее и сообразительнее.

продолжить чтение

Ограничение контекстного окна GPT-5 и его эффективное использование в Bothub

Доброго времени суток, «Хабр»!В сегодняшней статье мы разберемся в ограничениях контекстного окна GPT-5, рассмотрим его применение относительно Bothub и ответим на вопрос: как повысить эффективность?Присаживайтесь поудобнее, я начинаю свое повествование.

продолжить чтение

Хочу ИИ помощника. Как я к сайту настольных игр GigaChat и Ollama+OpenWebUI прикручивал

Так как мои настольные игры не совсем простые (а именно обучающие и научные), то вопросы по правилам у родителей возникают регулярно. И как хорошо правила не напиши, научная тематика делает свое «черное» дело и даже минимальное вкрапление методики ставит игроков в ступор по тем или иным моментам правил. Плюс читать правила, FAQ, дополнительные правила и т. п. не всегда оптимальный вариант.Поэтому захотелось мне прикрутить к сайту нейронку в виде чата с ИИ‑помощником, который бы для каждой игры свои правила объяснял и на вопросы пользователей отвечал.Хочу отечественное

продолжить чтение

Anthropic увеличивает контекстное окно Claude Sonnet 4 до 1 000 000 токенов

Компания Anthropic сделала серьёзный шаг вперёд в развитии своих ИИ‑технологий: теперь модель Claude Sonnet 4 может обрабатывать запросы объёмом до

продолжить чтение

Минификация кода для повышения эффективности LLM: влияние на лингвистику, генерацию и анализ программ

ВВЕДЕНИЕБольшие языковые модели (LLM) становятся неотъемлемой частью инструментов генерации, анализа и автоматизации программирования. Их возможности позволяют автоматизировать разработку, искать ошибки, генерировать тесты, осуществлять перевод между языками программирования. Однако одно из ключевых ограничений – контекстное окно, то есть максимально возможная длина входных данных. С ростом объема современных программ эффективность работы LLM с длинным кодом становится всё более актуальной задачей, особенно учитывая вычислительные и финансовые издержки обработки длинных последовательностей.

продолжить чтение

Перегрузка языковых моделей информацией приводит к нерелевантным ответам

Предполагается, что большие языковые модели могут обрабатывать миллионы токенов (фрагментов слов и символов, из которых состоят входные данные) одновременно. Но чем длиннее контекст, тем хуже они справляются с задачей.

продолжить чтение

Токенизированные акции OpenAI: что стоит за продажей через Robinhood?

В сообщении, опубликованном в официальном аккаунте OpenAI в социальной сети X, говорится, что продажа «токенов OpenAI» через Robinhood не предоставляет обычным пользователям возможность приобрести долю или акции компании. OpenAI подчёркивает, что не поддерживает действия Robinhood и не имеет отношения к организации продажи токенов.

продолжить чтение

Международная группа учёных определила границы сжатия информации для языковых моделей

Учёные из AIRI, МФТИ и Лондонского математического института провели исследование. Исследователи выяснили, сколько информации может эффективно хранить и обрабатывать языковая модель. В работе использовался метод сжатия текста. Это позволило измерить пределы ёмкости модели. Исследователи доказали: текст длиной 1,5 тысяч слов можно представить одним вектором. Вектор — это набор чисел, понятный модели. Он позволяет восстановить исходный текст. Об этом информационной службе Хабра рассказали в пресс‑службе Airi.

продолжить чтение

12
Rambler's Top100