llm.
DeepSeek на железе за 45к
Джарвис — мечта многих гиков. Однако будем объективны: мы реально все ближе к его появлению. Я бы не очень хотел, чтобы все мои запросы передавались на серверы OpenAI, DeepSeek, Anthropic и других компаний. Ну и ещё с лета начал свою домашнюю рубрику — ЭЭЭЭКСПЕРИМЕНТЫ на домашнем сервере.
MLGym – новый шаг в автоматизации научных исследований
За последние время ускорение научных открытий с использованием ИИ стало одной из ключевых амбиций исследовательского сообщества. Исторически сложилось, что задачи автоматизации требовали создания гибких инструментов и бенчмарков для объективной оценки результатов.
«Темпоральные головы» в языковых моделях: новые возможности для AI
Исследование ученых из Korea University, Upstage AI и AIGEN Sciences выявило специализированные компоненты в больших языковых моделях, которые обрабатывают информацию, зависящую от времени. Эти «темпоральные головы» играют решающую роль в том, как системы AI обрабатывают факты, которые меняются со временем.
Мультимодальные модели тотально страдают селективным восприятием
Проводя свои текущие исследования для задач сегментации и распознавания объектов на изображениях, я задал простой вопрос многим мультимодальным моделям с целью оценить их способности к интерпретации деталей изображения.Результат был, мягко говоря, странным.
Робот Макс с LLM: история внедрения нейросетей в помощь миллионам пользователей Госуслуг
Привет! На связи команда Робота Макса — цифрового ассистента Госуслуг.
Технический отчет мультимодальной Qwen2.5-VL: прорыв в анализе документов и управлении интерфейсами
Привет, Хабр! Вчера команда Qwen (Alibaba) представила долгожданный техрепорт
Как мы создавали новый LLM-переводчик Яндекса
Привет, Хабр! Меня зовут Николай Карпачёв, я руковожу группой базового качества перевода в Яндексе. Недавно мы впервые разработали модель документного перевода на основе YandexGPT и, используя различные оптимизации, уже применяем её в Поиске, Умной камере, а также в нейропереводчике Яндекс Браузера. Кроме того, мы протестировали новую модель на независимом международном бенчмарке DiBiMT, где заняли первое место по качеству англо-русского перевода.В этой статье я расскажу:почему нужно делать перевод именно с контекстом, на уровне документов, а не отдельных предложений;
Как масштабирование во время тестирования раскрывает скрытые способности к рассуждению в небольших языковых моделях
Согласно новому исследованию Шанхайской лаборатории искусственного интеллекта, очень маленькие языковые модели (SLM) могут превзойти ведущие большие языковые модели (LLM) в задачах рассуждения. Авторы показывают, что при наличии правильных инструментов и методов масштабирования во время тестирования SLM с 1 миллиардом параметров может превзойти LLM 405B в сложных математических тестах.
Ставка ИИ на $305 миллионов: модели логического вывода увеличивают спрос на графические процессоры
Когда DeepSeek-R1 только вышел на рынок, в отрасли преобладал страх, что сложные вычисления можно будет производить с использованием менее сложной инфраструктуры.
Инновационный подход NYU Langone Health к медицинскому образованию с использованием искусственного интеллекта
Записи данных о пациентах могут быть запутанными, а иногда и неполными, а это значит, что у врачей не всегда есть под рукой вся необходимая информация. К этому следует добавить тот факт, что медицинские работники не могут уследить за потоком тематических исследований, научных работ, испытаний и других передовых разработок, появляющихся в отрасли.

