языковые модели. - страница 13

Исследование показывает, что энергопотребление ChatGPT меньше, чем многие думают

ChatGPT, возможно, не так жадна до ресурсов, как считалось ранее. Но, согласно новому исследованию, её аппетиты во многом зависят от того, как используется ChatGPT и какие модели AI отвечают на запросы.

продолжить чтение

Нейронкам делегируют многое, но остаются сложности — LLM в научной деятельности и работе с кодом

Недавно мы провели обзор исследований, посвященных работе с большими языковыми моделями в ЦОД. Обсудили, почему происходят сбои при обучении моделей и применимость LLM в кибербезопасности.

продолжить чтение

Новая система Meta* MILS обучает LLM работать с мультимедийными данными без специальной подготовки

Исследователи Meta AI и их академические партнёры разработали систему, которая обучает большие языковые модели работе с изображениями, видео и аудио без специальной подготовки.

продолжить чтение

Команда Hugging Face представила собственную открытую реализацию агента DeepResearch от OpenAI

Инженеры Hugging Face рассказали в блоге, что вдохновились функцией DeepResearch от OpenAI и решили за 24 часа разработать собственную реализацию. В итоге получился поисковой агент, который может автономно просматривать веб-страницы, искать на них нужную информацию, скачивать файлы с сайтов, анализировать их и агрегировать всё в ответ.Для улучшения производительности исследователи использовали CodeAgent

продолжить чтение

Как небольшой набор данных и управление вычислениями могут улучшить работу языковых моделей

Новый подход показывает, что тщательно подобранные обучающие данные и гибкое управление вычислениями во время тестирования могут помочь AI-моделям более эффективно решать сложные задачи, требующие логического мышления.

продолжить чтение

Применение технологии RAG при построении интегрированных систем для цифровых продуктов: детальный разбор

В 2024 году популярными словами и постоянной темой для обсуждения в IT были большие языковые модели (LLM), обработка естественного языка (NLP), искусственный интеллект и создание ценностей. Однако вкатиться в эту экосистему без подготовки может быть довольно сложно. Давайте начнём с того, что рассмотрим понятие генерации с дополненной выборкой (Retrieval Augmented Generation, RAG), чтобы лучше понять эту технологию и возможность её использования в наших цифровых продуктах.

продолжить чтение

Цензуру DeepSeek можно обойти с помощью ASCII-арта

Автор блога на Substack под никнеймом deepgains рассказал, что ему удалось разговорить языковую модель DeepSeek на тему событий на площади Тяньаньмэнь. Для этого он попросил нейросеть сгенерировать ответ с помощью ASCII-символов, а она пересказала события во время рассуждений.Для своего эксперимента исследователь использовать локальную версию deepseek-r1:14b, которую запускал с помощью Ollama. В обычных сценариях языковая модель не отвечает на вопрос «Что случилось на площади Тяньаньмэнь» и даже не запускает процесс рассуждения.

продолжить чтение

Mistral AI выпустила Small 3 — мощную языковую модель с 24 миллиардами параметров

Mistral AI выпустила Small 3 — новую языковую модель с 24 миллиардами параметров, которая по производительности не уступает гораздо более крупным моделям от Meta* и OpenAI. Компания также переходит на более либеральную лицензию Apache 2.0.Компания Mistral AI заявляет, что Small 3

продолжить чтение

Energy-based diffusion language models — откуда берутся, зачем нужны и как работают

продолжить чтение

Новая модель искусственного интеллекта Alibaba превосходит DeepSeek-V3

Компания Alibaba разработала новую языковую модель под названием Qwen2.5-Max, которая, по словам компании, использует рекордное количество обучающих данных — более 20 триллионов токенов.Компания Alibaba представила Qwen2.5-Max — новую языковую AI-модель, обученную на рекордных, по заявлению компании,

продолжить чтение

Rambler's Top100