Исследователи представили бенчмарк, в котором языковые модели проходят классические игры
Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован на GitHub.
Накорми языковую модель документами
Задача поиска ответов по внутренней документации
Как понимать нейросети (и заставить глупую машину работать)
Стандартный опыт с нейросетями — пришла идея задачи, написал промпт, получил в ответ буллщит, поругал тупой ИИ, не оставил ему чаевых, закрыл и забыл. Многие кейсы, правда, не срабатывают. Тут обычно две причины: ваша задача в принципе не решается нейронками, либо вы написали плохой промпт. Обычно обе связаны с непониманием, что у LLM под капотом.Я не буду описывать технические детали, которые сам плохо понимаю. Просто расскажу, как полезно думать про нейросети, чтобы добиваться от них результата. Добавить больше осознанности при работе с ними. Мой самый большой прогресс с нейросетками случился, когда я начал думать так.
Пользователям ChatGPT стала доступна галерея сгенерированных изображений
OpenAI добавила в ChatGPT галерею сгенерированных изображений. В ней пользователи могут получить доступ ко всем созданным картинкам и не искать их в разных чатах.
В lmarena добавили Search Arena — рейтинг нейросетевых поисковиков
Разработчики lmarena выпустили Search Arena — рейтинг нейросетевых поисковиков. Исследователи проанализировала более 7 тыс. пользовательских оценок и нашли лидера — языковую модель Gemini-2.5-Pro-Exp-03-25-Grounding от Google. Нейросеть от OpenAI занимает седьмое место в списке.
Яндекс.Разврат или анти-этичный ИИ
tl;dr: как обойти внутреннюю цензуру «Шедеврума» и получить то, что хочешь. Описание реализованных состязательных атак с примерами реализации. Без глубокого раскрытия механизма почему так получается.
12 лет я работала дизайнером интерьеров, а потом пришла нейросеть
Эту историю для моего блога рассказала Полина Киселева, дизайнер интерьеровЯ дизайнер интерьеров и многодетная мать троих детей. Когда времени становится критически мало, начинаешь искать новые подходы к работе. Год назад один из моих заказчиков подарил мне курс по основам работы с искусственным интеллектом, и я начала экспериментировать с нейросетями в своей профессии. Хочу честно рассказать, что получилось: где AI действительно экономит время, а где создает лишь иллюзию решения.
Обновление «Алисы»: поддержка английского языка, работа с файлами, рассуждения и Live-режим
«Яндекс» представила обновление нейросетевого ассистента «Алисы». Компания добавила поддержку английского языка, рассуждения, поиск, возможность работать с файлами и Live-режим. Обновления показали 15 апреля 2025 года в рамках презентации умных устройств «Яндекса».
Как мы собираем SWE-bench на других языках
Современная разработка ПО — это плавильный котел языков: Java, C#, JS/TS, Go, Kotlin… список можно продолжать. Но когда дело доходит до оценки ИИ-агентов, способных помогать в написании и исправлении кода, мы часто упираемся в ограничения. Популярный бенчмарк SWE-bench, например, долгое время поддерживал только Python. Чтобы преодолеть разрыв между реальностью разработки и возможностями оценки ИИ, наша команда в Doubletapp

