BERT — это всего лишь одноэтапная диффузия текста
Некоторое время назад компания Google DeepMind представила Gemini Diffusion — экспериментальную языковую модель, генерирующую текст методом диффузии. В отличие от традиционных моделей, написанных в стиле GPT и генерирующих слово за словом, Gemini создаёт текст целыми блоками, пошагово уточняя случайный шум.Я прочитал статью «Large Language Diffusion Models» — и с удивлением узнал, что дискретная диффузия языка представляет собой просто обобщение метода генерации пропущенного токена (MLM), практикуемого уже с 2018
Что именно ИИ-чатботы делают «под капотом»
Среди друзей я пользуюсь репутацией «ты ж программист», поэтому у меня нередко интересуются, как именно работают «под капотом» такие известные инструменты как ChatGPT, Claude, Grok или DeepSeek. Со временем я отточил ответ на этот вопрос — и потому, что нашёл способы лучше на него отвечать, и потому, что научился сам создавать большую языковую модель с нуля. Поэтому и сам понимать большие языковые модели я стал гораздо лучше.
Ограничение контекстного окна GPT-5 и его эффективное использование в Bothub
Доброго времени суток, «Хабр»!В сегодняшней статье мы разберемся в ограничениях контекстного окна GPT-5, рассмотрим его применение относительно Bothub и ответим на вопрос: как повысить эффективность?Присаживайтесь поудобнее, я начинаю свое повествование.
Хочу ИИ помощника. Как я к сайту настольных игр GigaChat и Ollama+OpenWebUI прикручивал
Так как мои настольные игры не совсем простые (а именно обучающие и научные), то вопросы по правилам у родителей возникают регулярно. И как хорошо правила не напиши, научная тематика делает свое «черное» дело и даже минимальное вкрапление методики ставит игроков в ступор по тем или иным моментам правил. Плюс читать правила, FAQ, дополнительные правила и т. п. не всегда оптимальный вариант.Поэтому захотелось мне прикрутить к сайту нейронку в виде чата с ИИ‑помощником, который бы для каждой игры свои правила объяснял и на вопросы пользователей отвечал.Хочу отечественное
Anthropic увеличивает контекстное окно Claude Sonnet 4 до 1 000 000 токенов
Компания Anthropic сделала серьёзный шаг вперёд в развитии своих ИИ‑технологий: теперь модель Claude Sonnet 4 может обрабатывать запросы объёмом до
Минификация кода для повышения эффективности LLM: влияние на лингвистику, генерацию и анализ программ
ВВЕДЕНИЕБольшие языковые модели (LLM) становятся неотъемлемой частью инструментов генерации, анализа и автоматизации программирования. Их возможности позволяют автоматизировать разработку, искать ошибки, генерировать тесты, осуществлять перевод между языками программирования. Однако одно из ключевых ограничений – контекстное окно, то есть максимально возможная длина входных данных. С ростом объема современных программ эффективность работы LLM с длинным кодом становится всё более актуальной задачей, особенно учитывая вычислительные и финансовые издержки обработки длинных последовательностей.
Перегрузка языковых моделей информацией приводит к нерелевантным ответам
Предполагается, что большие языковые модели могут обрабатывать миллионы токенов (фрагментов слов и символов, из которых состоят входные данные) одновременно. Но чем длиннее контекст, тем хуже они справляются с задачей.
Токенизированные акции OpenAI: что стоит за продажей через Robinhood?
В сообщении, опубликованном в официальном аккаунте OpenAI в социальной сети X, говорится, что продажа «токенов OpenAI» через Robinhood не предоставляет обычным пользователям возможность приобрести долю или акции компании. OpenAI подчёркивает, что не поддерживает действия Robinhood и не имеет отношения к организации продажи токенов.
Международная группа учёных определила границы сжатия информации для языковых моделей
Учёные из AIRI, МФТИ и Лондонского математического института провели исследование. Исследователи выяснили, сколько информации может эффективно хранить и обрабатывать языковая модель. В работе использовался метод сжатия текста. Это позволило измерить пределы ёмкости модели. Исследователи доказали: текст длиной 1,5 тысяч слов можно представить одним вектором. Вектор — это набор чисел, понятный модели. Он позволяет восстановить исходный текст. Об этом информационной службе Хабра рассказали в пресс‑службе Airi.

