llm-модели. - страница 26

Hugging Face Tutorial: Unleashing the Power of AI and Machine Learning

In this article, I'll take you through everything you need to know about Hugging Face—what it is, how to use it, and why it's a game-changer in the ever-evolving landscape of artificial intelligence. Whether you're a seasoned data scientist or an enthusiastic beginner eager to dive into AI, the insights shared here will equip you with the knowledge to Hugging Face's full potential.What is Hugging Face?What is Hugging Face?

продолжить чтение

Настройка PostgreSQL для LLM

Итак, в этой статье я расскажу, как эффективно настроить PostgreSQL, чтобы вам было проще работать с большими языковыми моделями.Пока звучит странно, не правда ли? Что я имею в виду? Я имею в виду повышение эффективности создания любых SQL-запросов в базу данных с использованием LLM (ChatGPT, DeepSeek, Llama и других).Метод, о котором пойдет речь, до безобразия прост и от этого гениален. После прочтения этой статьи вы сможете самостоятельно или в рамках вашей компании увеличить скорость формирования SQL-запросов в 50 раз!

продолжить чтение

ИИ-модели научили играть в «Мафию» друг с другом в рамках открытого проекта

Разработчик с ником Guzus представил сайт, где большие языковые модели могут сыграть в игру «Мафия». Ресурс предлагает турнирную таблицу с результатами игр и распределением ролей, а также их стенограммы.

продолжить чтение

Русскоязычные LLM: отечественные разработки в сравнении с глобальными адаптациями

Современные языковые модели (они же LLM, они же Large Language Models) становятся все более востребованными практически во всех сферах. LLM уже не просто инструмент, а важнейшая часть технологического прогресса, позволяющая автоматизировать работу с текстами, проводить анализ данных, генерировать контент и даже серьезно помогать в обучении.

продолжить чтение

Квантизация

Автор статьи: Марк Блуменау - Сотрудник научно-исследовательских институтов ФИАН, ИЗМИРАН, ИФТТ, преподаватель Школы Высшей Математики

продолжить чтение

Важность времени на размышления: как работают вычисления во время инференса

Еще в 2020 году в статье о GPT-3 появился график, заслуживающий отдельного внимания: чем больше языковые модели, тем лучше они справляются с задачами без дообучения (zero-shot). Пять лет этот график был путеводной звездой для исследователей ИИ, влияя на всё — от архитектуры моделей до разработки железа. C выпуском o1 OpenAI пришел с новым графиком. На этот раз речь не только о размере — а о том, чтобы дать моделям время думать.  Новый график показывает: увеличение вычислительных ресурсов на этапе вывода

продолжить чтение

Квантизация LLM: делаем модели легче в 4 раза

ВведениеСовременные языковые модели (LLM) содержат миллиарды параметров, что создает огромные требования к вычислительным ресурсам. Например:BERT: <1 млрд параметровGPT-2: >1 млрд параметровGPT-3: сотни млрд параметровDeepSeek: 671 млрд параметровТакие модели сложно запускать не только на домашних компьютерах, но даже на серверах среднего уровня. Квантизация - это метод уменьшения размера моделей для более эффективного использования памяти.📊 Форматы хранения чисел в нейросетяхСтандартные форматы

продолжить чтение

Мама, у меня RAG: пути к улучшению, когда он «наивный»

В последние пару лет RAG (retrieval-augmented generation) стал одной из самых обсуждаемых технологий в области обработки текстов и поисковых систем. Его идея проста: объединить поиск (retrieval) и генерацию (generation), чтобы быстрее находить нужную информацию и создавать более точные тексты.

продолжить чтение

Так ли хороша DeepSeek-R1, как о ней говорят

Во всем AI-мире сейчас говорят о новой китайской языковой модели DeepSeek и, конечно, наша команда развития AI не могла пройти мимо этой темы. Мы сравнили ответы новой модели на реальные запросы к нашей базе знаний с ответами других популярных моделей. Что из этого получилось и какие выводы мы сделали расскажу я — Максим Михайлов, продуктовый менеджер Cloud.ru.

продолжить чтение

Как научить модель рассуждать, не переобучая её, меньше чем за 10$

ВведениеЭто статья обобщение моего исследования передачи знаний от большой модели с замороженными весами в малую модель, которую мы будем обучать через расширенный механизм кросс внимания или проще говоря через LLM модули. Оригинальное исследование доступно по ссылке: arxiv.org/abs/2502.08213 . Репозиторий с кодом и весами доступен на Hugging Face: LLM модули.

продолжить чтение