Исследование способности языковых моделей к логическим рассуждениям — тест RELIC
Исследователи из Нью-Йоркского университета представили RELIC (Recognition of Languages In-Context) — новый тест, разработанный для проверки того, насколько хорошо большие языковые модели могут понимать и выполнять сложные многоэтапные инструкции. Команда получила результаты, аналогичные тем, что были представлены в недавней статье Apple, но отметила, что есть ещё над чем поработать.
Чипы AMD MI350 обеспечивают большой объём памяти, но уступают Nvidia в сетевых технологиях
AMD стремится бросить вызов доминированию Nvidia на рынке чипов для искусственного интеллекта с помощью своих новых ускорителей серии Instinct MI350. Компания надеется, что эти чипы обеспечат преимущества при определённых рабочих нагрузках и снизят общие затраты, но программное обеспечение остаётся камнем преткновения.
Сделка OpenAI с Министерством обороны направлена на здравоохранение, анализ данных и киберзащиту
Компания OpenAI подписала свой первый официальный контракт с Министерством обороны США, согласившись предоставлять и развивать технологии искусственного интеллекта на сумму 200 миллионов долларов. Эта годовая сделка, ориентированная в основном на район Вашингтона, округ Колумбия, знаменует собой дебют компании в качестве прямого подрядчика Пентагона.
Три новых инструмента на базе ИИ в TikTok для упрощения создания рекламного контента
TikTok представил три новых инструмента на базе искусственного интеллекта. Они автоматизируют создание видео, упрощая брендам процесс разработки рекламного контента для платформы.
Математический «гений» Теренс Тао: ИИ всё ещё не может «почувствовать» ошибки в математике
Теренс Тао, которого многие называют математическим гением, утверждает, что искусственный интеллект всё ещё не обладает тем, что он называет «математическим чутьем».
Аргументы в пользу внедрения аудита в системы ИИ перед масштабированием
Структуры оркестрации для сервисов ИИ выполняют множество функций на предприятиях. Они не только определяют, как взаимодействуют приложения или агенты, но и позволяют администраторам управлять рабочими процессами и агентами, а также проводить аудит своих систем.
Троян BrowserVenom замаскировали под DeepSeek для Windows
Специалисты «Лаборатории Касперского» обнаружили фишинговый ресурс, имитирующий официальный сайт DeepSeek, где предлагалось скачать модель DeepSeek-R1 для ПК. Таким образом распространялась новая малварь BrowserVenom, которая перехватывает трафик жертвы и следит за ее активностью в сети.
Как ChatGPT может подтолкнуть к конспирологическому мышлению
Согласно недавней статье в The New York Times, ChatGPT, похоже, подтолкнул некоторых пользователей к бредовому или конспирологическому мышлению или, по крайней мере, усилил такое мышление.
Тест CRMArena-Pro показывает, что ИИ-агенты испытывают трудности в реальных бизнес-задачах
Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.

