llm. - страница 135

llm.

Как работать с нейросетями эффективно: теория и практика

продолжить чтение

Новый метод Tencent учит языковые модели «параллельному мышлению»

продолжить чтение

MIT взломал «мозг» LLM: модели научились рассуждать как люди

продолжить чтение

ИИ-агенты против людей: кто сегодня пишет лучший код?

продолжить чтение

Ландшафт основных терминов в области генеративного AI, их взаимосвязь и употребление

Лестница понятий AIОт общего к частному – от AI к GEOAI/ИИ (artificial intelligence / искусственный интеллект). Общее название технологий, которые позволяют машинам имитировать «умное» поведение человека: учиться, анализировать, принимать решения, генерировать контент.ML (machine learning) / машинное обучение. Подраздел AI. Машина «обучается» на данных и потом делает прогнозы или принимает решения без прямого программирования. Пример: система прогнозирования спроса или рекомендательные алгоритмы «Озона» или YouTube.Generative AI / генеративный ИИ. 

продолжить чтение

Без тренировки, но с обучением: имплицитная динамика in-context learning

АннотацияОдной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.

продолжить чтение

Вышла Code World Model: новая модель для кодинга

Meta (признана экстремистской и запрещена в РФ) выкатила Code World Model (CWM) — LLM на 32 млрд параметров, которая не просто предсказывает следующую строчку кода, а учится понимать, как код исполняется. Впервые модель массово тренировали не только на исходниках, но и результатах выполнения Python-кода и взаимодействии с Docker-средами — по сути, научили её играть в программиста, который пишет, запускает, дебажит и фиксит баги.

продолжить чтение

Alibaba инвестирует свыше $53 млрд в развитие ИИ и запускает новую модель, что стимулировало рост акций

Планы по инвестициям и релиз новой LLM подогрели рост акций китайских технологических компаний

продолжить чтение

Alibaba открыла исходный код Qwen3-VL

Alibaba сделала один из самых заметных шагов в своей стратегии открытых технологий. Компания выложила в открытый доступ исходный код Qwen3-VL

продолжить чтение

Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера

Архитектура Трансформеров, без сомнения, гениальна. Ее механизм внимания позволил моделям увидеть связи и зависимости в данных с невиданной ранее глубиной. Однако у этой конструкции есть врожденный порок, фундаментальный изъян, который из технической детали превратился в главный тормоз на пути к AI, способному на настоящее глубинное понимание. Имя этому пороку — «Тирания Квадрата».Технически это описывается как сложность O(n²): для обработки последовательности длиной n токенов требуется n*n

продолжить чтение