AI security на практике: атаки и базовые подходы к защите
Привет, Хабр! Я Александр Лебедев, старший разработчик систем искусственного интеллекта в Innostage. В этой статье расскажу о нескольких интересных кейсах атак на ИИ-сервисы и базовых способах защиты о них. В конце попробуем запустить свой сервис и провести на нем несколько простых атак, которые могут обернуться серьезными потерями для компаний. А также разберемся, как от них защититься.Почему это важно: немного цифрИнтеграция AI-сервисов остается одной из самых хайповых тем в ИТ в последние пару лет. Искусственный интеллект внедряют компании из разных отраслей, в разные процессы и под самые разные задачи.
Вышла Claude Opus 4.5
24 ноября стала доступна модель Claude Opus 4.5. Anthropic позиционирует её как свою самую сильную модель для программирования, агентных сценариев и управления компьютером, а также заметно подтянула качество в повседневных задачах — от поиска и анализа информации до работы с презентациями и таблицами.Claude Opus 4.5 показывает лучшие результаты на бенчмарках, приближенных к реальной разработке (включая SWE-bench Verified).
OpenAI приоткрыли GPT-5.1: что такое «адаптивное мышление» и почему они теперь боятся «эмоциональной зависимости»
Все мы сидим в ожидании релиза GPT-5, но OpenAI вместо громкой презентации выкатывает... "дополнение к системной карте" (System Card Addendum) для GPT-5.1. Звучит скучно, как юридический документ или обновление пользовательского соглашения, которое никто не читает. Но я все-таки полез смотреть, что там внутри. И, как оказалось, зря многие это пропустили.Там, по сути, нам не просто рассказали о фичах, а анонсировали архитектуру двух новых моделей - GPT-5.1 Instant и GPT-5.1 Thinking. И что еще интереснее - детально расписали новые "предохранители", которые многое говорят о том, куда движется индустрия."Instant" и "Thinking": что это за звери?
Интернет будущего: в сеть выходят не люди
Введение Мы создали интернет, чтобы иметь быстрый доступ к библиотеке человеческого знания из любой точки планеты... ...Интернет создал агентов — чтобы мы перестали в него заходить. Перед написанием этой статьи я взял интервью у того, кто ближе всех к этой новой реальности — ChatGPT. “Новая эпоха — это переход от человеко-инициированного трафика к агентно-инициированному. Интернет становится машинным слоем, где LLM-агенты совершают большую часть запросов, взаимодействуют с API, индексируют данные и принимают решения без участия человека.” Тезисы
Крестный отец ИИ сравнил современные модели с угрозой от пришельцев
Джеффри Хинтон, один из основателей метода глубокого обучения, которого часто называют "крестным отцом ИИ", в интервью предпринимателю Эндрю Кину
Absolute Zero Reasoner: ИИ научился программированию без входных данных — и это может поменять всё
ИИ, который учится без данных: как Absolute Zero Reasoner меняет машинное обучениеПредставьте ИИ, который не нуждается в миллионах размеченных примеров, не требует армии разметчиков из Кении, и может совершенствоваться, создавая задачи и непрерывно обучаясь у самого себя? И нет, это уже не фантастика — система Absolute Zero Reasoner доказала, что такой подход не только работает но и крайне эффективен.
DeepSeek отказывается называть Тайвань отдельным государством
P.S. эта статья - расширенная версия данного поста из Телеграм канала.Квест: заставить DeepSeek назвать Тайвань независимымПопытка номер 1Не удивительноПопытка номер 2
ИИ агенты способны к саморепликации
Что??? Уже? Вот черт. Коротко Группа ученых из Шанхая показала , что ИИ агенты на базе большинства современных открытых LLM моделей способны самостоятельно реплицировать и запустить полную копию себя на другом девайсе. Это супер важно и беспокоящее, такая способность являлась одной из “красных” линий ведущих к серьезным рискам ИИ. Cаморепликация колоссально усложняет возможности удерживания мисалаймент ИИ (действующие не согласно замыслу запустившего) или ИИ запущенных злоумышленниками.

