DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B. deepseek.. deepseek. janus.. deepseek. janus. janus-pro.. deepseek. janus. janus-pro. искусственный интеллект.. deepseek. janus. janus-pro. искусственный интеллект. Машинное обучение.. deepseek. janus. janus-pro. искусственный интеллект. Машинное обучение. машинное обученией.. deepseek. janus. janus-pro. искусственный интеллект. Машинное обучение. машинное обученией. модели машинного обучения.. deepseek. janus. janus-pro. искусственный интеллект. Машинное обучение. машинное обученией. модели машинного обучения. мультимодальные модели.. deepseek. janus. janus-pro. искусственный интеллект. Машинное обучение. машинное обученией. модели машинного обучения. мультимодальные модели. нейросети.

Китайская компания DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B. Она нужна для распознавания и генерации изображений. В бенчмарках нейросеть опережает DALL-E 3 от OpenAI и Stable Diffusion.

DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B - 1

Разработчики нейросети отмечают, что Janus Pro — улучшенная версия Janus, который компания выпускала ранее. В обновлении инженеры оптимизировали стратегию обучения, увеличили датасет и масштабировали размер самой модели. Всё это позволило выйти на новый уровень в задачах генерации картинок по текстовому описанию и анализу изображений. В бенчмарках GenEval и DPG-Bench нейросеть превосходит открытую Stable Diffusion 3 Medium и коммерческую DALL-E 3 от OpenAI.

DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B - 2

Модель машинного обучения Janus-Pro-7B опубликована на площадке Hugging Face. Команда проекта призывает сторонних исследователей и разработчиков присоединиться к проекту. Код модели открыт и распространяется по лицензии MIT, а сама нейросеть — по лицензии DeepSeek.

В GitHub-репозитории доступна инструкция по локальному запуску нейросети. Есть версия для работы с Janus через Gradio. Базовый инференс модели выглядит следующим образом:

Инференс

import torch
from transformers import AutoModelForCausalLM
from janus.models import MultiModalityCausalLM, VLChatProcessor
from janus.utils.io import load_pil_images

# specify the path to the model
model_path = "deepseek-ai/Janus-Pro-7B"
vl_chat_processor: VLChatProcessor = VLChatProcessor.from_pretrained(model_path)
tokenizer = vl_chat_processor.tokenizer

vl_gpt: MultiModalityCausalLM = AutoModelForCausalLM.from_pretrained(
    model_path, trust_remote_code=True
)
vl_gpt = vl_gpt.to(torch.bfloat16).cuda().eval()

conversation = [
    {
        "role": "<|User|>",
        "content": f"<image_placeholder>n{question}",
        "images": [image],
    },
    {"role": "<|Assistant|>", "content": ""},
]

# load images and prepare for inputs
pil_images = load_pil_images(conversation)
prepare_inputs = vl_chat_processor(
    conversations=conversation, images=pil_images, force_batchify=True
).to(vl_gpt.device)

# # run image encoder to get the image embeddings
inputs_embeds = vl_gpt.prepare_inputs_embeds(**prepare_inputs)

# # run the model to get the response
outputs = vl_gpt.language_model.generate(
    inputs_embeds=inputs_embeds,
    attention_mask=prepare_inputs.attention_mask,
    pad_token_id=tokenizer.eos_token_id,
    bos_token_id=tokenizer.bos_token_id,
    eos_token_id=tokenizer.eos_token_id,
    max_new_tokens=512,
    do_sample=False,
    use_cache=True,
)

answer = tokenizer.decode(outputs[0].cpu().tolist(), skip_special_tokens=True)
print(f"{prepare_inputs['sft_format'][0]}", answer)

В ноябре 2024 года китайская компания DeepSeek выпустила открытую «рассуждающую» языковую модель R1, которая по качеству сгенерированных ответов сопоставима с коммерческой GPT o1. При этом китайская нейросеть доступна бесплатно. Релиз R1 спровоцировал падение акций Nvidia, так как инженерам DeepSeek удалось обучить масштабную нейросеть без дорогостоящих видеокарт, на которые распространяются санкции экспортного контроля для разработчиков из Китая.

27 января 2025 года приложение DeepSeek заняло первое место в рейтинге бесплатных приложений американского App Store. В этот же день компания приостановила регистрацию новых пользователей из-за DDoS-атаки на веб-приложение и API сервиса.

Автор: daniilshat

Источник

Rambler's Top100