безопасность AI.

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

В прошлой главе я разобрал три провала чужих AI-агентов в проде - PocketOS, потерю production-базы Replit и сценарии GitHub Copilot, в которых агент действовал быстрее, чем человек успевал сказать стоп.Финал был честный: эти три - не про то, как делать правильно. Это места, где меня поймало бы, если бы я не прочитал разборы до того, как Lexis стал продуктом для людей.И я обещал в следующей главе перейти с уровня отдельные истории на уровень данных. Конкретно - две вещи.Первая: ProgramBench. Топ-модели, которые закрыли SWE-bench на 95%, на ProgramBench показывают 0% и 3%. Не упали на десять пунктов - обнулились.

продолжить чтение

Оставлено в

Сотрудники OpenAI и Google поддержали Anthropic в суде против Пентагона

продолжить чтение

Оставлено в

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

продолжить чтение

Оставлено в

Тестирование AI-систем и роль MCP-сервера: теория и практика глазами QA

«Машина может пересчитать все звёзды на небе, но не может понять, зачем человек смотрит на них». — Айзек АзимовВ одну из пятниц у нас была обычная онлайн‑встреча. Еженедельный обмен знаниями, так сказать. Коллега решил показать что‑то «интересное про MCP» — и началось всё безобидно, с классического объяснения теоретической части. Но спустя час было очень тихо на звонке. Никто не перебивал, не шутил, не задавал вопросов, просто все слушали и пытались осознать происходящее. Тема оказалась куда глубже, чем мы ожидали, и, как выяснилось, напрямую касается того, чем мы занимаемся каждый день.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

безопасность AI.

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Сотрудники OpenAI и Google поддержали Anthropic в суде против Пентагона

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Тестирование AI-систем и роль MCP-сервера: теория и практика глазами QA

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

безопасность AI.

AI обнулил benchmark и пытался шантажировать инженера. И почему это решаемо

Сотрудники OpenAI и Google поддержали Anthropic в суде против Пентагона

Почему ИИ ставит KPI выше безопасности людей: результаты бенчмарка ODCV-Bench

Тестирование AI-систем и роль MCP-сервера: теория и практика глазами QA