llm-модели.

Так ли хороша DeepSeek-R1, как о ней говорят

Во всем AI-мире сейчас говорят о новой китайской языковой модели DeepSeek и, конечно, наша команда развития AI не могла пройти мимо этой темы. Мы сравнили ответы новой модели на реальные запросы к нашей базе знаний с ответами других популярных моделей. Что из этого получилось и какие выводы мы сделали расскажу я — Максим Михайлов, продуктовый менеджер Cloud.ru.

продолжить чтение

Оставлено в

Как научить модель рассуждать, не переобучая её, меньше чем за 10$

ВведениеЭто статья обобщение моего исследования передачи знаний от большой модели с замороженными весами в малую модель, которую мы будем обучать через расширенный механизм кросс внимания или проще говоря через LLM модули. Оригинальное исследование доступно по ссылке: arxiv.org/abs/2502.08213 . Репозиторий с кодом и весами доступен на Hugging Face: LLM модули.

продолжить чтение

Оставлено в

Хакатоны ML или битва за скор наяву

Добрый день, уважаемые читатели! Хакатоны уже давно стали неотъемлемой частью жизни любого топового разработчика, который хочет быть всегда в тренде и видеть самые «горячие» и актуальные задачи бизнеса. На них можно увидеть не только типовые задачи от бизнеса, которые уже имеют рабочие модели и аналитику в самом широком ключе, но требующие нестандартного и новаторского подхода в их расширении, но и задачи, открыто ставящие вызов разработчикам, и требующие самого широкого охвата знаний и упорства для их реализации.

продолжить чтение

Оставлено в

Crew AI — один из самых популярных агентных фреймворков

Если ваш ИИ ещё не слал пассивно-агрессивные сообщения в Slack — вы не жили.Марк ТвенCrew AI — один из самых популярных агентных фреймворков искусственного интеллекта. Ранее я уже тестировал Autogen

продолжить чтение

Оставлено в

Проблема контекстного окна: Почему AI забывает середину длинного текста

В недавнем интервью бывший генеральный директор Google Эрик Шмидт заявил, что контекстное окно больших языковых моделей (LLM) можно использовать как краткосрочную память. Однако есть проблема — если загрузить достаточно длинный текст (например, несколько книг) в контекстное окно, AI забудет середину.

продолжить чтение

Оставлено в

LLM Llama 3 — небольшое погружение в детали

Привет Хабр! В этой статье я попробую немного разобрать код LLM Llama 3. Полностью проанализировать каждую строку кода не получится, но самые важные и базовые концепции мы все-таки разберем насколько это возможно.Падаем в кроличью норуИзучать мы будем класс Llama (файл generation.py) и его метод text_completion

продолжить чтение

Оставлено в

Всё, что я узнал о запуске локальных языковых моделей

В мире, где облачные решения диктуют свои правила, локальные модели дают свободу — полную приватность, работу офлайн и отсутствие ограничений. Эта статья для тех, кто хочет впервые попробовать самостоятельно запустить LLM на своем компьютере.

продолжить чтение

Оставлено в

Чем Grok лучше ChatGPT: изучаем базовые преимущества нейросети Илона Маска

Grok и правда очень хорош. Grok, разработанный компанией Илона Маска xAI, – относительно новый игрок на рынке чат-ботов. Но довольно быстро стало понятно, что это не просто еще один генеративный ИИ

продолжить чтение

Оставлено в

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Дипсик R1 - нашумевшая ИИ модель от китайской компании Deepseek AI. За основу взята модель Deepseek v3, возможности которой схожи с ChatGPT. Однако благодаря открытому исходному коду китайской нейросети у нее есть ряд интересных преимуществ.В этой статье собрал все способы установки Дипсик. Т.к. китайская нейросеть с открытым исходным кодом – ее можно скачать на компьютер и использовать без Интернета. Причем, в удобном интерфейсе чат-бота.1. Самый простой (но не всегда рабочий) способ: через сайт DeepseekПереходим на официальный сайт chat.deepseek.com

продолжить чтение

Оставлено в

Telegram бот + ИИ Jlama своими руками

Хабр, привет! Сегодня мы попробуем сделать свой ИИ с телеграм ботом для возможности простого общения с ней. Сразу оговорюсь, мы не будем в очередной раз использовать открытый API ChatGPT или новомодного Deepseek. Мы развернем свой полноценный ИИ локально и сынтегрируем его с телеграм ботом.LLM модель

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

llm-модели.

Так ли хороша DeepSeek-R1, как о ней говорят

Как научить модель рассуждать, не переобучая её, меньше чем за 10$

Хакатоны ML или битва за скор наяву

Crew AI — один из самых популярных агентных фреймворков

Проблема контекстного окна: Почему AI забывает середину длинного текста

LLM Llama 3 — небольшое погружение в детали

Всё, что я узнал о запуске локальных языковых моделей

Чем Grok лучше ChatGPT: изучаем базовые преимущества нейросети Илона Маска

Deepseek v3: Как скачать китайскую нейросеть Дипсик AI, все способы

Telegram бот + ИИ Jlama своими руками

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

llm-модели.