- BrainTools - https://www.braintools.ru -
В очередной раз медицинское сообщество решило протестировать возможности ИИ в исследовании, проведённом группой учёных под руководством Мезиан Сильхади и Мона Харисси-Дагер (Meziane Silhadi, Wissam B. Nassrallah, David Mikhail, Daniel Milad, Mona Harissi-Dagher) из Университета Монреаля и Университета Торонто. Они устроили benchmark-тест, столкнув лбами Microsoft Copilot, GPT-4 (в версиях GPT-4o и GPT-4o mini) и Google Gemini (Gemini и Gemini Advanced). Арена для поединка выбрана весьма специфическая — офтальмологические вопросы. На первый взгляд, узкая специализация, но, поверьте, это исследование раскрывает ключевые возможности и, что не менее важно, ограничения современных LLM, особенно в контексте медицинских приложений и обработки визуальных данных.
Почему именно офтальмология? Дело в том, что в этой медицинской области точность диагностики — вопрос первостепенной важности, и она напрямую зависит от умения интегрировать разнородную информацию: текстовые описания симптомов и результаты визуальных исследований. Это создаёт идеальные условия для испытания LLM, где моделям приходится демонстрировать не только лингвистические способности, но и умение анализировать изображения.
Исследование построено строго научно [1]. В качестве «полигона» использовались 300 тщательно отобранных офтальмологических вопросов из авторитетного ресурса StatPearls. Чтобы всё было максимально честно, каждую модель тестировали двумя разными подходами к промптингу. Первый, zero-shot forced prompting, представлял собой простой, прямой запрос: «Выбери лучший ответ и объясни своё рассуждение». Второй, более сложный PS+ промптинг, имитировал экспертную консультацию. Представьте, что вы обращаетесь к LLM как к опытному офтальмологу, просите подготовиться к анализу клинического случая, а затем, шаг за шагом, с объяснением логики, выбрать верный диагноз из предложенных вариантов.
Для статистического анализа результатов учёные использовали x2-тест для категориальных переменных. Для подкатегорий офтальмологии и категории «Изображения» применялся точный тест Фишера, если более 20% данных были ниже значения 5. Для статистически значимых категорий проводилась коррекция Бонферрони для множественных сравнений LLM. P-value ниже 0.05 считался статистически значимым.
x2-тест для категориальных переменных — это статистический метод, использованный в исследовании для определения, являются ли различия в производительности между LLM статистически значимыми, а не случайными. Он сравнивает ожидаемое распределение правильных ответов, если бы все модели работали одинаково, с фактически наблюдаемым распределением.
Безоговорочным лидером гонки стал GPT-4 (GPT-4o). При простом промптинге он правильно ответил на 72.3% вопросов, существенно опередив всех конкурентов.
Но это ещё не всё. Поразительным оказался рывок Microsoft Copilot. Стартовав с довольно скромных 53.7%, благодаря искусному PS+ промптингу, Copilot буквально преобразился, достигнув тех же 72.3%. Это стало показателем правильной стратегии промптинга, показав, как контекстно-ориентированные запросы могут вытащить максимум даже из, казалось бы, менее мощных моделей.

А что же Gemini? Модели Google показали более сдержанные результаты. Gemini Advanced, хоть и улучшил свои показатели при PS+ промптинге, всё равно остался позади GPT-4o. Но самая большая неожиданность ждала в категории «Изображения». Здесь Gemini и Gemini Advanced потерпели фиаско. Их точность в анализе офтальмологических изображений оказалась катастрофически низкой, независимо от типа промптинга. Разрыв с GPT-4o, который в этой же категории показал впечатляющие 85.7% при PS+ промптинге, был просто огромным и статистически значимым.
В заключение, авторы исследования подчёркивают несколько важных моментов:
GPT-4o стабильно превосходит другие LLM при обоих типах промптинга.
Структурированные промпты, такие как PS+, значительно улучшают производительность Copilot.
Несмотря на прогресс LLM, ограничения в анализе визуальных данных сохраняются, особенно для моделей Gemini. Это говорит о необходимости специализированной доработки LLM для офтальмологической визуализации.
Дальнейшая оценка и доработка LLM критически важны для обеспечения их безопасной и эффективной интеграции в клиническую практику.
Будущие исследования должны быть направлены на разработку LLM с итеративным рассуждением, имитирующих реальные клинические сценарии, и обеспечивающих доказательные и интерпретируемые ответы. Также важно изучить интеграцию LLM в медицинские команды, масштабируемость для отдалённых районов и реальную валидацию для оценки их влияния на точность диагностики, эффективность и результаты лечения пациентов, не забывая об этических аспектах.
В целом, это исследование [2] — ценный урок для всех нас. Оно напоминает, что выбор модели — это лишь часть уравнения. Не менее, а может и более важны методы промптинга и понимание сильных и слабых сторон каждой конкретной LLM, особенно когда речь идёт о применении в критически важных областях, таких как медицина. И, конечно, нельзя забывать [3] о необходимости дальнейших исследований и осторожности при внедрении этих всё ещё неидеальных инструментов в реальную практику.
Автор: LesnoyChelovek
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/11929
URLs in this post:
[1] научно: http://www.braintools.ru/article/7634
[2] исследование: https://pdf.sciencedirectassets.com/280840/AIP/1-s2.0-S0008418225000018/main.pdf?X-Amz-Security-Token=IQoJb3JpZ2luX2VjEEIaCXVzLWVhc3QtMSJHMEUCIFI/95enHIy5um6bDfCsob77j/8OVUEVs228rTH9YEQ7AiEA4I+RX7bOnMbyqa/fhOMP1FMmnibiny1FXqzUMvMTAvQqsgUIWhAFGgwwNTkwMDM1NDY4NjUiDPE9Qm1Y/l3uh2uBgiqPBQ2nt53DYzex8TTDclbZyI+pEf8PcnvSTXGAOvNbjsm7aRmkfg/cmgKE+DfsycnNUI4oT+cDjuggFwAKMbU94y4XiP5ocaUAspGrLjkJ3n7XtbZ03Z6ZcTpE1/2nGmwFvuuwIcG5fx/xhvv+wVIM6o2aXkHMmIZAwTf03AoTzT8Sg4rbwMji52OdfsXAls1gUvfLLuF8WWHJSA2BZQKyKjrAyhElw0d1R+XmlCNue70uZifzny5Z0s/a/7WuB1DP863BRAZ+ElFwFaMxoQqkPrfJTlse78YhCk/OYW6Lz0nUPslq8/IbfjytFG0foBKpOgcg/EcW2ZCvF4/HXN/OoFqGZp1Jx9rWVlRJpjExTFyg3BX96PgfUBEH1ugKeWLTqJ48rhjuHvpL/2ofYEZBS2RlAVDFRbNy+8THg76oNBaGr2e8/OS69tp8xcqDgwL50X6udEJHndubdu4Vj49xsNsOBK8VF6iFwWOmXqeifEPoXcLsI/KIAg/hSxz5xkskwZCCF6HhRZDIPjOXnV0i1MevRAiQwgaT/N5HAJUvnt1iN/c4EHFYKfI+Y/iGPdR+h2GGew8gvV2Ll8zC4rSngM9yUIU6NBuUysFFMAdCWRJnxgSY5kWrrEHwW8+t/8GYrULLPFtXBLfQsWHBEfUPCtn7+qSi6ABkW1MvMAo9Gy+LhjaUt4j2XztZG4+aOMCW5/riHr5Cs5Qi/zpE2zM4Lo8OxbE1MzaMAfZ0CXucwLy4u7bK/wvjkqdiihqokyFhHy4YVLwm/nNhHxpJrXK8bGtxrS5Ti7j9gcMHcs196BF4c7fufJRXTqcJKJ7/8kkCQqwoXZDWjP0VR1tAvzdI2IdoFq8PSwOvLLE5/s0WeR0w8/iRvQY6sQGVAc0F0GV7gXV/EPlrz+KqEmL09cq0q7nA1hh1/y7r2qSSFZu9I1ofqz/sYmR7vWfzcW4B0xSfGv7kowgJEiCNgNcIupMM8uaGQUeU0C12eHrnfaOwM4Hw2cdFOD8aMw9g+PFKk6+4MaxYIPLLewO/Aah5ObTzaWxTKh6Myyh9k/jnCi5RTVYq/m0qCGvRbBZXrcJS9W+KGTFfDm3PnCzj8MI0D8bwfpwA0a4lIN3FVMU%3D&X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Date=20250206T100355Z&X-Amz-SignedHeaders=host&X-Amz-Expires=300&X-Amz-Credential=ASIAQ3PHCVTYTMKH72ZM/20250206/us-east-1/s3/aws4_request&X-Amz-Signature=9101ee11331d6ff3f22b5a8eecb9fb983680875605eb69d422a8abe4231a2943&hash=306123f3cb2e43c00f9b9063f96060f1e31e80bd5319ffffb5979c75f777140b&host=68042c943591013ac2b2430a89b270f6af2c76d8dfd086a07176afe7c76c2c61&pii=S0008418225000018&tid=spdf-c58cfb34-bcbf-4887-9176-4b0aca9d32bc&sid=ed38dab53c0d8644d16932a09222eb485b18gxrqb&type=client&tsoh=d3d3LnNjaWVuY2VkaXJlY3QuY29t&ua=08135e500101515f575657&rr=90da50279d1c9db3&cc=ru
[3] забывать: http://www.braintools.ru/article/333
[4] Источник: https://habr.com/ru/articles/880042/?utm_source=habrahabr&utm_medium=rss&utm_campaign=880042
Нажмите здесь для печати.