бенчмарки. - страница 5

Большая языковая модель «Авито» обогнала OpenAI и Google в бенчмарке MERA

Большая языковая модель A‑Vibe, разработанная «Авито», заняла первое место среди облегчённых моделей (до 10 млрд параметров) в российском бенчмарке MERA. Модель обошла аналоги от OpenAI, Google и Anthropic, рассказали информационной службе Хабра в пресс‑службе «Авито».Команда «Авито» разработала собственные генеративные модели A‑Vibe и A‑Vision, использовав на старте открытую модель. Open source модель плохо работала с русским языком, потому что данные включали 100 языков, а русский занимал 1%. Из‑за этого модель слабо понимала и генерировала тексты на русском.

продолжить чтение

Автоматическое обнаружение возможностей через самоисследование базовых моделей

Это перевод свежей статьи от 12 февраля 2025 года об Automated Capability Discovery (ACD)

продолжить чтение

Обзор накопителя 2 ТБ Micron 4600

Накопитель Micron 4600 порадует ценителей высокопроизводительных устройств хранения данных. Этот мощный SSD выводит скорость на новый уровень, не жертвуя энергоэффективностью. Оснащенный контроллером SMI SM2508 и новейшей 276-слойной памятью TLC NAND от Micron, он воплощает в себе все, что можно ожидать от современного накопителя. Micron 4600 знаменует собой новую эру доступных и быстрых дисков PCIe 5.0, предлагая производительность без привычных компромиссов. Хотя это нельзя назвать революционным инженерным достижением, устройство уверенно прокладывает путь к стабильному развитию рынка SSD, переживающего череду взлетов и падений. И этот накопитель — определенно один из взлетов. Micron 4600 — это OEM-накопитель, поэтому его нельзя назвать широко доступным в розничной продаже, к тому же у него относительно слабая реклама. Даже в одиночной конфигурации этот накопитель демонстрирует впечатляющие характеристики и выдающуюся энергоэффективность для своего уровня производительности. Хотя было бы замечательно увидеть версию с объёмом 8 ТБ, для большинства пользователей текущей ёмкости более чем достаточно. Теперь остаётся с интересом ждать, сможет ли Samsung дать достойный ответ с выпуском 9100 Pro. Можно задаться вопросом, зачем нужен такой быстрый диск. Micron позиционирует 4600 как решение для профессиональных задач, включая искусственный интеллект, что подразумевает, что диск является хорошим выбором для HEDT (high-end desktop). Несомненно, этот диск также более чем пригоден для игр в будущем, а его пиковая производительность превосходит аналоги. С его появлением на рынке устанавливается новая планка для SSD-накопителей, так как система хранения данных PCIe 5.0 становится все более совершенной.

продолжить чтение

Уроки химии: AMORE проверит готовность химических языковых моделей

Привет! Мы, команда NLP‑исследователей из AIRI и Сбера, опубликовали недавно результаты исследования того, как языковые модели справляются с химическими задачами. Дело в том, что в последние годы интеграция методов обработки естественного языка в области химии неуклонно растёт, и это открывает новые горизонты для открытия лекарств. Однако возникает важный вопрос: действительно ли современные языковые модели научились понимать молекулы, или они просто запоминают их текстовые представления?Чтобы выяснить это, мы создали ♡AMORE

продолжить чтение

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Фото Яни Каасинен на Unsplash.

продолжить чтение

Оценка систем LLM: основные метрики, бенчмарки и лучшие практики

продолжить чтение

Насколько RTX 2080 Ti подходит для ML-задач? Изучаем бенчмарки

Когда NVIDIA представила видеокарты семейства GeForce® RTX™ 20 в 2018 году, стало ясно, что новые чипы с архитектурой NVIDIA Turing™ кардинально изменят подход к вычислениям. Благодаря множеству нововведений, новые видеокарты стали значительно производительнее предыдущего поколения. При этом GPU 20 серии поддерживают и работу новых технологий, которые анонсировали с выходом GeForce® RTX™ 30. Разберемся, какие видеокарты будут оптимальным выбором для ML-задач. Под катом — реальные примеры и результаты бенчмарков.

продолжить чтение

AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности

AI может превосходно справляться с определёнными задачами, такими как программирование или создание подкастов. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей больших языков (LLM) — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает

продолжить чтение

∇²DFT — новый датасет и бенчмарк для решения задач квантовой химии с помощью нейросетей

Привет, Хабр! Меня зовут Кузьма Храбров, я инженер‑исследователь в AIRI и занимаюсь задачами на стыке машинного обучения, квантовой химии и вычислительной биологии. Вместе с командой мы создаем новые датасеты, обучаем новые модели и придумываем методы решения как фундаментальных, так и практических задач.

продолжить чтение

ARC Prize 2024: Второй после Теста Тьюринга?

Нейросети, готовые к схватке за ARC PrizeПредлагаю обсудить перевод оригинальной статьи с методикой интересного теста ARC Prize, — об него сломали виртуальные зубы все LLM, кроме нашумевшей o3 от OpenAI

продолжить чтение

Rambler's Top100