HiveTraceRed vs garak: тестируем безопасность языковых моделей на русском и английском
КраткоНаша команда сравнила два открытых инструмента для проверки языковых моделей (LLM) на устойчивость к атакам: российский HiveTraceRed от HiveTrace/ITMO и международный garak от NVIDIA. Прогнали обоих на одинаковых задачах против двух открытых моделей (qwen2.5:3b и llama3.2:3b) на английском и русском языках.Главное:На английском работают оба
Лаборатория Безумного Ученого: Хроники Четырех Экспериментов повлиявших на представление об обеспечении безопасности ИИ
Дата: 11 мая 2025Жанр: Гонзо-журналистикаЗаписки исследователя, проникшего в тайные лаборатории создателей инструментов безопасности ИИДорогие читатели, то, что я собираюсь вам рассказать, звучит как научная фантастика, но это чистая правда. Последние полгода я провел, изучая работу четырех лабораторий, где современные ученые пытаются решить одну из самых сложных задач нашего времени: как заставить искусственный интеллект быть безопасным. Это история о том, как разные умы подходят к одной проблеме, и почему их решения настолько различны, что кажется, будто они работают в параллельных вселенных.

