Как оценить качество машинного перевода
Работая в области машинного перевода в компании Lingvanex, я постоянно читаю статьи в которых сравнивается качество разных переводчиков. Иногда отличие между ними составляет от 0.3 до 1% по какой-либо из метрик, но и это уже повод заявить, что их переводчик - лучший.При оценке качества машинного перевода важно не только сравнить результаты различных систем перевода, но и проверить, являются ли обнаруженные различия статистически значимыми. Это позволяет оценить, насколько полученные результаты достоверны и могут ли они быть применимы к другим наборам данных.
Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов
ML-инженер и бывший разработчик OpenAI Андрей Карпатый представил nanochat — это открытый проект полного цикла создания LLM. Обучение модели обойдётся примерно в 100 долларов, если арендовать мощности у облачного провайдера.
Как протестировать машинный переводчик
Машинный перевод уже стал привычной частью жизни — от деловой переписки до общения с людьми из других стран. Но за простотой нажатия кнопки «перевести» стоит сложная технология, которая требует постоянного контроля качества.В компании Lingvanex мы применяем собственный подход к выбору тестовых данных, ориентируясь на максимальную репрезентативность и адаптацию к реальным запросам клиентов. Цель состоит в том, чтобы создавать модели, которые могут точно переводить тексты как с лексической, так и с грамматической точностью, сохраняя контекст и стиль.
ADSM: путь от вероятности к детерминизму
Вероятностный вычислительМои знания об устройстве LLM базируются на общедоступной популярной информации (в том числе и на статьях Хабра) и в какой-то мере подтверждаются практикой общения с ними. Можно смотреть на LLM как на некую разумную сущность, чья природа ортогональна человеческому разуму и поэтому плохо нами понимается, но я предпочитаю смотреть на LLM как на инструмент, созданный людьми для решения собственных, человеческих проблем.
Jamba Reasoning 3B: новая компактная ИИ-модель от AI21, работающая прямо на устройствах
Новый участник волны компактных моделей для корпоративного рынка представлен компанией AI21 Labs
Понимание оценки LLM: детальный разбор 4 основных подходов
Привет! Вчера вышла отличная статья от Себастьяна Рашки, которая детально разбирает основные способы оценки LLM-моделей. Глобально их можно разделить на 4 категории: оценка по бенчмаркам, использование верификаторов, лидерборды и LLM-as-a-judge.
Зоопарк фреймворков для AI-агентов: как выбрать подходящий — делаем бенчмарк и большое сравнение
Привет! В этой статье я детально разберу основные фреймворки для AI-агентов, попробую их побенчить и детально распишу их плюсы и минусы. Если вы подступались к агентам, то первым вопросом наверняка стало «а на чем их делать?». Отовсюду все говорят про langchain и десяток других фреймворков, звучат аббревиатуры типа MCP и A2A, какие-то Swarmы и CrewAI, мультиагентность и самое всякое разное.
DeepSeek обучила LLM за 294 тыс. долларов. Как это удалось и чем этот путь отличается от OpenAI
Разработка больших языковых моделей обычно ассоциируется с астрономическими затратами. Но пример китайской компании DeepSeek показывает, что эта логика не всегда работает: их модель R1 была дообучена всего за 294 тыс. долларов США (на базовую версию ушло около 6 млн). Для сравнения, создание ChatGPT обошлось OpenAI в суммы на порядки выше.
«Нет, я не Байрон, я модель». Превращаем прозу в поэзию с нейросетью — мой кейс
Привет всем! Меня зовут Марина, я учусь на втором курсе магистратуры ВШЭ и МТС «

