большие языковые модели.

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.

продолжить чтение

Оставлено в

Как большие языковые модели планируют свои ответы еще до их генерации

Привет, Хабр! Что, если я скажу, что большие языковые модели не просто предсказывают следующий токен в ответ на запрос, а уже на ранних этапах формирования ответа «заранее планируют» его характеристики?Тайна скрытого слоя: что происходит внутри LLM?

продолжить чтение

Оставлено в

До 5 % новых статей «Википедии» содержат тексты от ИИ

продолжить чтение

Оставлено в

Проблемы языковых моделей при анализе длинных текстов: выводы исследования

В результате исследования, проведённого учёными из Мюнхенского университета Людвига-Максимилиана, Мюнхенского центра машинного обучения и Adobe Research, было установлено, что современные языковые модели искусственного интеллекта имеют ограничения при обработке и анализе больших объёмов текстовой информации.

продолжить чтение

Оставлено в

Исследование: большие языковые модели смогли клонировать сами себя

Исследователи из Китая выяснили, что две популярные большие языковые модели (LLM) могут клонировать себя, а затем программировать копии выполнять те же задачи, делая цикл репликации бесконечным.

продолжить чтение

Оставлено в

Почему искусственный интеллект такой дорогой: пять причин от Bloomberg

Стремление к созданию более масштабных моделей искусственного интеллекта, а также увеличение числа чипов и дата-центров для их разработки, оборачивается значительными расходами для технологических компаний.Важное примечание

продолжить чтение

Оставлено в

Anthropic представила новый метод защиты больших языковых моделей от взломов

Спустя два года после появления ChatGPT на рынке появилось множество больших языковых моделей (LLM), и почти все они по-прежнему уязвимы для взлома — специальных запросов и других обходных путей, которые заставляют их генерировать вредоносный контент.

продолжить чтение

Оставлено в

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

DeepSeek-R1 — это самый громкий релиз последних дней в области искусственного интеллекта. Для сообщества исследователей и разработчиков машинного обучения (ML R&D) эта модель имеет особое значение по ряду причин:Модель обладает открытыми весами и включает уменьшенные, дистиллированные варианты.Она делится и размышляет над методом обучения, позволяющим воспроизвести модель рассуждений, подобную OpenAI O1.В этой публикации мы рассмотрим, как была создана DeepSeek-R1.Дисклеймер: это вольный перевод статьи

продолжить чтение

Оставлено в

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных

Компания по кибербезопасности KELA рассказала, что ей удалось взломать модель DeepSeek-R1 для создания вредоносных выходных данных. Исследователи отметили, что DeepSeek R1 имеет сходство с ChatGPT, но значительно более уязвима.

продолжить чтение

Оставлено в

Инженер купил домен «OGOpenAI» для китайской DeepSeek

Инженер-программист Ананай Арора приобрёл домен «OGOpenAI.com» и перенаправил его на DeepSeek — китайскую лабораторию искусственного интеллекта, которая выпускает мощные языковые модели с открытым исходным кодом, соревнуясь с OpenAI.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

большие языковые модели.

Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях

Как большие языковые модели планируют свои ответы еще до их генерации

До 5 % новых статей «Википедии» содержат тексты от ИИ

Проблемы языковых моделей при анализе длинных текстов: выводы исследования

Исследование: большие языковые модели смогли клонировать сами себя

Почему искусственный интеллект такой дорогой: пять причин от Bloomberg

Anthropic представила новый метод защиты больших языковых моделей от взломов

Как работает модель DeepSeek-R1. Объясняем в иллюстрациях и схемах

Исследователи взломали модель DeepSeek-R1 для создания вредоносных выходных данных

Инженер купил домен «OGOpenAI» для китайской DeepSeek

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

большие языковые модели.