большие языковые модели. - страница 12

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.

продолжить чтение

Как большие языковые модели планируют свои ответы еще до их генерации

Привет, Хабр! Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?Тайна скрытого слоя: что происходит внутри LLM?

продолжить чтение

До 5 % новых статей «Википедии» содержат тексты от ИИ

продолжить чтение

Проблемы языковых моделей при анализе длинных текстов: выводы исследования

В результате исследования, проведённого учёными из Мюнхенского университета Людвига-Максимилиана, Мюнхенского центра машинного обучения и Adobe Research, было установлено, что современные языковые модели искусственного интеллекта имеют ограничения при обработке и анализе больших объёмов текстовой информации.

продолжить чтение

Исследование: большие языковые модели смогли клонировать сами себя

Исследователи из Китая выяснили, что две популярные большие языковые модели (LLM) могут клонировать себя, а затем программировать копии выполнять те же задачи, делая цикл репликации бесконечным.

продолжить чтение

Почему искусственный интеллект такой дорогой: пять причин от Bloomberg

Стремление к созданию более масштабных моделей искусственного интеллекта, а также увеличение числа чипов и дата-центров для их разработки, оборачивается значительными расходами для технологических компаний.Важное примечание

продолжить чтение

Anthropic представила новый метод защиты больших языковых моделей от взломов

Спустя два года после появления ChatGPT на рынке появилось множество больших языковых моделей (LLM), и почти все они по-прежнему уязвимы для взлома — специальных запросов и других обходных путей, которые заставляют их генерировать вредоносный контент.

продолжить чтение

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.В этой публикации мы рассмотрим, как была создана DeepSeek-R1.Дисклеймер: это вольный перевод статьи

продолжить чтение

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных

Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель  DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.

продолжить чтение

Инженер купил домен «OGOpenAI» для китайской DeepSeek

Инженер-программист Ананай Арора приобрёл домен «OGOpenAI.com» и перенаправил его на DeepSeek — китайскую лабораторию искусственного интеллекта, которая выпускает мощные языковые модели с открытым исходным кодом, соревнуясь с OpenAI.

продолжить чтение

Rambler's Top100