языковые модели.

Перегрузка языковых моделей информацией приводит к нерелевантным ответам

Предполагается, что большие языковые модели могут обрабатывать миллионы токенов (фрагментов слов и символов, из которых состоят входные данные) одновременно. Но чем длиннее контекст, тем хуже они справляются с задачей.

продолжить чтение

Оставлено в

Как мы строим умный «файрвол» для LLM

продолжить чтение

Оставлено в

FlexOlmo позволяет организациям совместно обучать языковые модели без обмена данными

FlexOlmo, разработанный в Институте искусственного интеллекта Аллена, демонстрирует возможность совместной работы организаций над языковыми моделями на основе локальных наборов данных без передачи конфиденциальных данных.

продолжить чтение

Оставлено в

Согласно постановлению суда Калифорнии, Anthropic обвиняется в крупномасштабном пиратстве

Федеральный суд Калифорнии принял на рассмотрение коллективный иск на миллиард долларов против Anthropic, компании, создавшей языковую модель Claude, по обвинению в крупномасштабном нарушении авторских прав.

продолжить чтение

Оставлено в

T-Pro 2.0 — открытая гибридно-ризонинговая русскоязычная LLM

Всем привет! На связи Толя Потапов, MLE в Т-Банке. Мы продолжаем развивать собственную линейку моделей GEN-T

продолжить чтение

Оставлено в

Ключевые понятия LLM

Современные языковые модели (large language models) стали ключевым элементом в развитии искусственного интеллекта и обработки естественного языка. Модели, основанные на глубоком обучении и архитектуре трансформеров, способны генерировать текст, отвечать на вопросы, писать код, создавать художественные произведения и даже участвовать в логических рассуждениях.

продолжить чтение

Оставлено в

Google представил продвинутые ИИ-инструменты для поиска: теперь ИИ может звонить от имени пользователей

Google активно работает над улучшением своей поисковой системы, внедряя в неё новые ИИ-инструменты. Среди них — более совершенная языковая модель и функция, которая позволяет ИИ совершать звонки в компании от имени пользователей.

продолжить чтение

Оставлено в

Как мы построили свой инструмент для работы с LLM

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ?Data Studio

продолжить чтение

Оставлено в

Подвинься, LLaMA! Новая open‑source LLM от Tencent — Hunyuan‑A13B — уже доступна для самостоятельного хостинга

Tencent только что выпустила новую open‑source модель под названием Hunyuan‑A13B‑Instruct. Весы модели открыты (насчёт кода — пока неясно), и она может работать локально (если у вас есть GPU уровня NVIDIA DGX B200). Если вам интересно, как она себя показывает, и вы хотите попробовать её в деле — ниже инструкции, как можно её быстро развернуть на арендованной видеокарте за несколько минут.📎Перевод, оригинальная новость здесь.Что такое Hunyuan‑A13B?

продолжить чтение

Оставлено в

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос. И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

языковые модели.

Перегрузка языковых моделей информацией приводит к нерелевантным ответам

Как мы строим умный «файрвол» для LLM

FlexOlmo позволяет организациям совместно обучать языковые модели без обмена данными

Согласно постановлению суда Калифорнии, Anthropic обвиняется в крупномасштабном пиратстве

T-Pro 2.0 — открытая гибридно-ризонинговая русскоязычная LLM

Ключевые понятия LLM

Google представил продвинутые ИИ-инструменты для поиска: теперь ИИ может звонить от имени пользователей

Как мы построили свой инструмент для работы с LLM

Подвинься, LLaMA! Новая open‑source LLM от Tencent — Hunyuan‑A13B — уже доступна для самостоятельного хостинга

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

языковые модели.