ai.
Бенчмарк конца эпохи — Humanity’s Last Exam
Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.Есть ещё BIG-bench (Beyond the Imitation Game)
Исследование TCS и AWS показало, что производители возлагают надежды на ИИ для роста рентабельности
Новое исследование Tata Consultancy Services
«Мне стало жутко»: Писательница задала ChatGPT один вопрос и пожалела об этом
Фото: cottonbro studio, pexels
Claude Opus 4.5: как Anthropic сделала флагманскую модель в 3 раза дешевле и при этом умнее
24 ноября 2025 года Anthropic выстрелила релизом Claude Opus 4.5 — модели, которая переписывает правила игры для всех, кто использует LLM в production. Главная фишка? Цена упала в 3 раза, а качество выросло. Звучит как маркетинг, но цифры говорят сами за себя.Разбираем, что реально изменилось, смотрим независимые бенчмарки и прикидываем, сколько это сэкономит вашей команде.TL;DR для тех, кто спешит 💰 Цена: $5/1M input tokens (было $15) — снижение в 3 раза⚡ Скорость: задачи, на которые уходило 2 часа, решаются за 30 минут🎯 Качество: 80.9% на SWE-bench (лучше GPT-4 и Gemini)🛡️ Безопасность: в 4.6 раза устойчивее к prompt injection, чем GPT-5.1
NYT подала в суд на поисковую систему Perplexity за предполагаемое неправомерное использование контента
В пятницу газета New York Times подала иск против Perplexity в федеральный суд.В

