Сравниваем LLM: 11 тестов для Opus 4.8, GPT 5.5 и Gemini 3.1 Pro
Меньше месяца назад Anthropic выпустила модель Claude Opus 4.8. Как обычно, заявили много новых плюшек, вроде улучшенного кодинга и режима Fast Mode. Нам это показалось отличным поводом, чтобы устроить ее сравнение с двумя другими тяжеловесами рынка от Google и OpenAI.
Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео
Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется новый способ jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, включая VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Авторы отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.
Топ-5 лучших нейросетей 2026 года: полный список на любой случай в SpeShu.AI
Если кто-то уверенно называет одну лучшую нейросеть, он либо продает подписку, либо давно не открывал ничего кроме этого чат-бота. Авторитетные медиа перестали смотреть на ИИ как на один общий рейтинг. TechRadar пишет, что доминирование ChatGPT в AI-chatbot рынке снижается, а Gemini, Perplexity, Copilot и Claude забирают часть аудитории. Люди начали пользоваться несколькими нейросетями под разные задачи, а не одной моделью на всё.Artificial Analysis сравнивает популярные нейросети не только по «умности», но и по цене, скорости, контексту и другим параметрам. Arena Leaderboard показывает модели отдельно по тексту, изображениями и другим направлениям.
Не робот, а коллега: как ИИ‑агент стал частью команды медпульта
Привет, Хабр! Меня зовут Иван. Я работаю аналитиком в компании «Совкомбанк Технологии»: собираю требования, разбираю процессы с пользователями и помогаю доводить ИИ‑решения от этапа идеи до работающего сервиса. В этой статье расскажу, как мы с командой внедряли ИИ‑агента в работу медицинского пульта страховой компании.Коротко о команде: над проектом работали аналитик, backend‑разработчики, специалист по интеграциям, ML/LLM‑инженеры, тестировщики и представители бизнеса.
Флоу комфорта: как искусственный интеллект в колонках Сбер научился создавать сценарии умного дома
Салют, Хабр!
Штампы LLM. Разбираю с новой точки зрения
Как и миллионы людей, уверенных, что уж они-то знают то, что обязательно нужно рассказать другим, решил написать книгу о промптах. В процессе написания (который, кстати, оказался, куда сложнее, чем предполагалось), я рассматривал штампы LLM. Ну вы их знаете. По крайней мере в комментариях к статьям на Хабре, сотни экспертов определяют LLM именно по ним.В общем, штампы есть, и в промптах авторов многих статей все они перечислены для исключения из текста. Хорошо это или плохо, я разберу ниже.
Лучший промпт для LLM. Бессмысленный поиск
В общем и целом LLM глупы. Я прошу у них написать прекрасный текст, рабочий код, решить задачу, подобрать ссылки, подготовить ответ, объяснить как починить холодильник, раскритиковать не нравящуюся мне статью. Вполне понятные и простые просьбы. В ответ приходит какая-то ерунда. Ответ неполон, ошибочен и, в целом, совершенно меня не устраивает. Виновата LLM или мой промпт?Давайте рассмотрим этот вопрос подробнее.❯ Претензии к LLMЧаще всего
Как показать модели пальцем, что важно
Вы наверняка замечали: один и тот же вопрос в ChatGPT или Claude иногда даёт отличный ответ, иногда – качество ответа не соответствует ожиданиям. Многие списывают это на «непредсказуемость AI». На самом деле у этого есть и структурная причина.В апреле 2025 года Anthropic публиковали официальную документацию по промпт-инжинирингу для Claude 4.6 – Prompting Best Practices. Это технический документ для разработчиков API. Массовому пользователю читать его не предполагается.Однако, там есть пара инсайтов, которые работают и буду полезны всем.Как модель «смотрит» на текст
Искусство промптинга, или Как варить кашу из топора правильно
Всем привет! Я Ольга Матушевич, преподаватель курса «Нейросети для бизнеса», а в прошлом наставница на курсе «Аналитик данных». В этой статье я постараюсь дать рецепт хорошего промпта на все случаи жизни. Если вы пользуетесь популярными нейросетями вроде ChatGPT или Gemini, но при этом получаете стабильно разочаровывающие результаты — читайте дальше.

