Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой
Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему.В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально.Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать.Три вещи, которые хотелось знать
ИИ против нейродегенеративных заболеваний: есть ли надежда с новым инструментом?
Недавно в блоге МТС вышла замечательная статья
США запретили иностранцам доступ к самым мощным моделям Anthropic
Судя по всему, произошло довольно громкое событие: правительство США фактически запретило доступ к самым мощным моделям Anthropic — Claude Fable 5 и Claude Mythos 5 — для иностранных граждан. В ответ Anthropic временно отключила доступ к этим моделям вообще для всех пользователей, чтобы не нарушить экспортные ограничения.Если коротко по хронологии:Весной Anthropic представила проект Glasswing и модель Mythos
Один ИИ против целого НИИ: DeepMind объяснила, где начинается сверхинтеллект
Google DeepMind опубликовала доклад "From AGI to ASI"
Графы знаний в юридическом домене: эксперимент с LightRAG (продолжение)
В предыдущей части статьи мы разобрали архитектуру LightRAG и показали основные сценарии его развертывания. В качестве эксперимента (
Один суффикс, чтобы взломать их всех
От GCG до refusal direction. Лонгрид о серии градиентных adversarial-атак на языковые модели: с чего она началась, как разветвилась, что мы в итоге поняли про механику взлома и где находимся сейчас.О чем это и зачемЕсть простой, но неудобный вопрос: насколько прочен safety-элайнмент, который мы навешиваем на модели? Интуиция подсказывает: «модель обучили отказывать на вредное - значит, она отказывает». Серия работ, которую я хочу разложить, показывает, что между обучили отказывать и робастно отказывает под давлением оптимизации - пропасть.
Срочная новость: правительство США потребовало экстренно отключить доступ к Fable 5 и Mythos 5
Правительство США, ссылаясь на полномочия в сфере национальной безопасности, выпустило директиву экспортного контроля, требующую приостановить любой доступ к Fable 5 и Mythos 5 для иностранных граждан - независимо от того, находятся они в США или за их пределами. Это касается в том числе иностранных сотрудников Anthropic.Практический результат этого распоряжения: нам необходимо срочно отключить Fable 5 и Mythos 5 для всех наших клиентов, чтобы обеспечить соблюдение требований.Доступ ко всем остальным моделям Claude не затронут.
EVERTY DESK — EVRT ПРОТОКОЛ, или почему я написал лучший протокол низкой задержки в мире
Привет, Хабр.Я писал это не месяц и не год.EVRT (EVERTY real time protocol)— это результат примерно десяти лет экспериментов, ошибок, переписываний, злости, тестов, ночных сборок и попыток выжать из обычной сети поведение, похожее на игровой real-time transport.Когда-то я уже писал на Хабре про игровой режим. Тогда это почти никто не оценил. Ну и ладно. Иногда идею начинают понимать только тогда, когда она уже успела стать архитектурой.Теперь пора вскрывать подробности.
