Перегрузка языковых моделей информацией приводит к нерелевантным ответам
Предполагается, что большие языковые модели могут обрабатывать миллионы токенов (фрагментов слов и символов, из которых состоят входные данные) одновременно. Но чем длиннее контекст, тем хуже они справляются с задачей.
FlexOlmo позволяет организациям совместно обучать языковые модели без обмена данными
FlexOlmo, разработанный в Институте искусственного интеллекта Аллена, демонстрирует возможность совместной работы организаций над языковыми моделями на основе локальных наборов данных без передачи конфиденциальных данных.
Согласно постановлению суда Калифорнии, Anthropic обвиняется в крупномасштабном пиратстве
Федеральный суд Калифорнии принял на рассмотрение коллективный иск на миллиард долларов против Anthropic, компании, создавшей языковую модель Claude, по обвинению в крупномасштабном нарушении авторских прав.
T-Pro 2.0 — открытая гибридно-ризонинговая русскоязычная LLM
Всем привет! На связи Толя Потапов, MLE в Т-Банке. Мы продолжаем развивать собственную линейку моделей GEN-T
Ключевые понятия LLM
Современные языковые модели (large language models) стали ключевым элементом в развитии искусственного интеллекта и обработки естественного языка. Модели, основанные на глубоком обучении и архитектуре трансформеров, способны генерировать текст, отвечать на вопросы, писать код, создавать художественные произведения и даже участвовать в логических рассуждениях.
Google представил продвинутые ИИ-инструменты для поиска: теперь ИИ может звонить от имени пользователей
Google активно работает над улучшением своей поисковой системы, внедряя в неё новые ИИ-инструменты. Среди них — более совершенная языковая модель и функция, которая позволяет ИИ совершать звонки в компании от имени пользователей.
Как мы построили свой инструмент для работы с LLM
Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio. Итак, что же такое Data Studio ?Data Studio
Подвинься, LLaMA! Новая open‑source LLM от Tencent — Hunyuan‑A13B — уже доступна для самостоятельного хостинга
Tencent только что выпустила новую open‑source модель под названием Hunyuan‑A13B‑Instruct. Весы модели открыты (насчёт кода — пока неясно), и она может работать локально (если у вас есть GPU уровня NVIDIA DGX B200). Если вам интересно, как она себя показывает, и вы хотите попробовать её в деле — ниже инструкции, как можно её быстро развернуть на арендованной видеокарте за несколько минут.📎Перевод, оригинальная новость здесь.Что такое Hunyuan‑A13B?
«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций
В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос. И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда.

