ai.
Показатели лучших моделей OpenAI рухнули в новом бенчмарке ARC-AGI-2
Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу.
Microsoft добавляет в Copilot инструменты глубокого исследования на базе искусственного интеллекта
Microsoft представляет инструмент для «глубоких исследований» на базе искусственного интеллекта в своем приложении-чатботе на базе искусственного интеллекта Microsoft 365 Copilot.
Неделя жизни продакт-лида с ИИ
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:Продуктовым менеджерам — интегрировать AI без перегрузки команд;Разработчикам — выбирать инструменты под конкретные бизнес-задачи;Специалистам по данным — избегать ошибок в production-развертывании.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.Статья A Week in My Life as a Product Leader with AI
Как я «взломал» популярное приложение и добыл корпоративный токен OpenAI
Благодаря искусственному интеллекту, все больше энтузиастов запускают свои продукты без команды профессиональных разработчиков. Так, например, совсем недавно вышла новость о 18-летних подростках, которые запустили приложение для подсчета калорий и заработали на нем миллионы долларов. Круто, правда?Но давайте взглянем на ситуацию с другой стороны: какое качество у таких "быстрых" проектов и какие уязвимости они могут нести? Здесь я хочу разобрать реальный кейс - уязвимость в одном очень популярном ИИ-приложении, которая открыла мне доступ к корпоративному токену OpenAI.
Gemini собирает больше пользовательских данных, чем любой другой чат-бот на основе ИИ
Для сбора этих данных Surfshark определил наиболее популярные чат-боты на основе искусственного интеллекта и проанализировал данные об их конфиденциальности в Apple App Store. Gemini от Google собирает в общей сложности 22 различных точки данных — больше, чем любой другой широко используемый чат-ботGrok от xAI собирает наименьшее количество точек данных из этого набора выборки
HUNYUAN-T1. Tencent наносит ответный удар
Когда-нибудь задумывались, почему большинство моделей ИИ либо умные, ЛИБО быстрые, но никогда не сочетают оба качества? Над этим подумали в Tencent.Tencent только что перевернул эту парадигму с Hunyuan-T1 – ПЕРВОЙ в мире ультра-супер-сверхбольшой моделью, использующей гибридную архитектуру Transformer + Mamba MoE.
DeepSeek V3-0324. Что изменилось?
Все пишут, что Deep Seek V3-0324 ВНЕЗАПНО СТАЛ СИЛЬНО ЛУЧШЕ. И в чем именно?Ночью, без объявления войны, DeepSeek вырос на 19.8 баллов в математике и 10 баллов в кодировании. Также официально заявлены некоторые улучшения в понимании фронтенда и вызова тулов. Напоминаю, речь идет о нерассуждающей версии - она не рассказывает о своих мыслях как DeepSeek R1, зато работает более быстро и стабильно.Попробовать самостоятельно можно
Gemini 2.5 Pro. Большой контекст зарелизился
Никогда такого не было, и вот опять. Новый прорыв - Gemini 2.5 Pro.Это та самая сетка, которая недавно висела в топе LMArena под названием Nebula с разницей в скоре +40.
Google представляет новое поколение моделей рассуждений Gemini 2.5
Google представила Gemini 2.5 — новое семейство моделей рассуждений на основе искусственного интеллекта, которые останавливаются, чтобы «подумать», прежде чем ответить на вопрос. Чтобы запустить новое семейство моделей, Google запускает Gemini 2.5 Pro Experimental, мультимодальную, рассуждающую модель AI, которую компания называет самой интеллектуальной моделью на сегодняшний день.

