языковые модели. - страница 2

Обзор проблем и решений в ризонинговых LLM. Часть 2

В первой части мы рассмотрели ключевые проблемы логического рассуждения в LLM и показали, в чём именно модели ошибаются.В этой – мы обсудим методы, с помощью которых LLM решают логические задачи, включая внешние решатели, подсказки и обучение на логических примерах, а также их сильные и слабые стороны.Логическое решение вопросовДля проверки того, как LLM решают логические задачи, мы создали разные тестовые наборы

продолжить чтение

Разработчик запустил PokerBattle — бенчмарк, в котором LLM играют в техасский холдем: лидирует Gemini 2.5 Pro

Разработчик Макс Павлов запустил бенчмарк PokerBattle, в котором популярные языковые модели играют в техасский холдем и пытаются как можно больше заработать на этом. Турнир начался 27 октября, а завершится — 31 октября. По итогам автор проекта подготовит подробную аналитику с обзором интересных решений и ходов.

продолжить чтение

Обзор проблем и решений в ризонинговых LLM. Часть 1

Как-то раз мы со студентами-переводчиками по ИТ задались вопросом: А реально ли LLM «думает»? Или она просто, подобно школьнику, подгоняет объяснения под ответ в конце учебника, не имея ни малейшего понятия, ни о том, правилен ли этот ответ или логичны ли ее рассуждения? Поиски ответов на этот вопрос привели нас к статье-исследованию "Empowering LLMs with Logical Reasoning: A Comprehensive Survey", адаптированный перевод которой мы и предоставляем вашему вниманию. Над переводом мы работали вместе с коллегой – Губановой Екатериной.

продолжить чтение

У языковых моделей развивается деградация интеллекта из-за мусорных данных

Учёные предупредили о тревожном феномене, который уже получил собственное имя — Brain Rot, или гниение мозга. Он наблюдается у больших языковых моделей, которые слишком часто обучаются на некачественных данных из интернета: вирусных постах, бессмысленных комментариях, спаме и кликбейтных статьях.

продолжить чтение

Нельзя просто так взять и заменить тысячи строк кода на промпты. Мы убедились в этом на практике

Привет, Хабр!

продолжить чтение

Как оценить качество машинного перевода

Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.

продолжить чтение

Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов

ML-инженер и бывший разработчик OpenAI Андрей Карпатый представил nanochat — это открытый проект полного цикла создания LLM. Обучение модели обойдётся примерно в 100 долларов, если арендовать мощности у облачного провайдера.

продолжить чтение

Как протестировать машинный переводчик

Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества.В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль.

продолжить чтение

ADSM: путь от вероятности к детерминизму

Вероятностный вычислительМои знания об устройстве LLM базируются на общедоступной популярной информации (в том числе и на статьях Хабра) и в какой-то мере подтверждаются практикой общения с ними. Можно смотреть на LLM как на некую разумную сущность, чья природа ортогональна человеческому разуму и поэтому плохо нами понимается, но я предпочитаю смотреть на LLM как на инструмент, созданный людьми для решения собственных, человеческих проблем.

продолжить чтение

Jamba Reasoning 3B: новая компактная ИИ-модель от AI21, работающая прямо на устройствах

Новый участник волны компактных моделей для корпоративного рынка представлен компанией AI21 Labs

продолжить чтение

123456...10...13
Rambler's Top100