Троянское машинное обучение или скрытая угроза
Метки: Computer aided detection, Computer vision, Компьютерное зрение, Машинное зрение, Радиомика, глубокое обучение, здравоохранение
В последнее время все больше общественного внимания уделяется машинному обучению в сфере здравоохранения.
В частности было опубликовано много работ с примерами использования глубокого обучения, позволяющего достигнуть паритета с врачами-людьми при выполнении задач в области радиологии, патоморфологии, дерматологии и офтальмологии. В некоторых случаях производительность этих алгоритмов даже превышала возможности отдельных врачей. Это привело к предположению, что целые врачебные специальности в области медицинской визуализации, такие как радиология и патоморфология, могут радикально измениться или вообще перестать существовать. 11 апреля 2018 года был сделан важный шаг в этом направлении: Управление по контролю за продуктами и лекарствами США(FDA) объявило об утверждении первого алгоритма компьютерного зрения, который может быть использован для медицинской диагностики без участия врача!
Тем временем внимание экспертного сообщества все больше фокусируется на уязвимостях подобных алгоритмов.
Так параллельно с прогрессом в области глубокого медицинского обучения изучались возможности так называемых состязательных примеров(adversarial examples, СП). СП - это исходные данные, разработанные для того, чтобы вызывать ошибочную классификацию ИИ. Первоначально СП представляли интерес благодаря гипотезе, что они сумеют пролить свет на возможные ограничения современных методов глубокого обучения, но чуть позже стало понятно, что они могут быть использованы и для атак на ИИ и могут представлять реальную угрозу кибербезопасности.
Машинное обучение с помощью СП получило название состязательных атак(СА) / состязательного машинного обучения (adversarial attacks / adversarial machine learning) или троянского машинного обучения[1] и на сегодняшний день в основном представляют интерес для исследователей в области компьютерных наук. Однако при широком внедрении подобных систем в практическую область здравоохранения, конкурирующие много миллиардные интересы игроков в данной сфере, доходы которых зависят от результатов работы этих систем, заставляют задуматься о реально возможных неблагоприятных последствиях применения подобных атак. Для решения этой проблемы некоторые предлагают привлечь к обсуждению этой проблемы различных экспертов, в том числе врачей, математиков, юристов и т.д.[2].
Учитывая огромные расходы на здравоохранение в США, может показаться целесообразным вывести дорогостоящего человека «из уравнения» и заменить его или ее чрезвычайно дешевым и высокоточным алгоритмом глубокого обучения. Это выглядит особенно соблазнительно, учитывая недавнее исследование, которое показывает, что оплата труда врачей и медсестер является одним из ключевых факторов высоких затрат на здравоохранение в США по сравнению с другими развитыми странами[3].
Но, как выяснилось, на пути этой автоматизации медицинской визуализации стоит проблема уязвимости этих алгоритмов. И если серьезно рассматривать возможность такой замены (особенно учитывая последнее положительное решение FDA), то нужно также рассматривать и новые возможности мошенничества и вреда. На самом деле, даже использование таких систем врачом ничего не меняет, т.к. это "скрытая" угроза, на уровне архитектуры машинного обучения - по типу "черного ящика".
По сути СА - это манипуляция обучающей выборкой путем добавления в нее СП[3], наподобие добавления ложки дегтя в бочку мёда. Собственно говоря, это уязвимость не только ИИ, человека тоже можно неправильно обучить и последствия этого тоже будут плачевны. Однако, как выяснилось, в случае с машинным обучением, это сделать значительно проще, например путем добавления "шума" на анализируемые изображения[4,5] или к звуку[6], который бы вряд ли повлиял на решение человека, но для машины будет "скрытым" сигналом к действию, как звук собачьего свистка для собаки неслышимый человеком. Это еще один довод в пользу того, что такие закрытые системы не могут применяться в областях с высокими требованиями к безопасности[7], в том числе в медицине.
В 2016 году США потратили приблизительно 3,3 триллиона долларов (17,8% ВВП) на здравоохранение, и к 2025 году здравоохранение США, по прогнозам, будет представлять 1/5 экономики США[3].
Медицинское мошенничество в США оценивается в сотни миллиардов долларов каждый год. Мошенничество совершается как крупными учреждениями, так и отдельными субъектами. Крупные учреждения участвуют в мошенничестве, систематически завышая расходы на услуги для увеличения доходов. Также было обнаружено, что некоторые отдельные врачи также выставляют счета на максимально допустимые суммы[3].
Фактически, большая часть данных, генерируемых системой здравоохранения США в электронной медицинской карте (EHR), создается для обоснования платежей от «плательщиков» (частных или государственных страховщиков) «поставщикам» (больницам и врачам). Во многих случаях уровень денежного возмещения за конкретного пациента зависит от установления конкретных диагностических «кодов», которые используются для обозначения диагноза и, соответствующего этому диагнозу, лечения пациента. Стремясь увеличить доход, некоторые поставщики практикуют "апкодирование"(upcoding) - выбор кодов, которые позволят им выставлять счета на наибольшую сумму. Со своей стороны, страховые компании стремятся минимизировать расходы, вкладывая миллионы долларов в ИТ и персонал для определения этих неоправданных платежных кодов[3].
Для определения обоснованности тех или иных диагнозов, страховые компании часто требуют проведения специальных исследований, так называемого, "золотого" стандарта в качестве доказательства, прежде чем оплатить выставленный провайдером счет, и используют все более изощренную аналитику для определения более точной стоимости услуг.
Учитывая эту тенденцию, представляется неизбежным, что страховые компании начнут требовать алгоритмического подтверждения определенных диагнозов, прежде чем предоставлять оплату. Если и когда это произойдет, способность незаметно влиять (как со стороны поставщика, так со стороны плательщика) на результаты таких проверочных и "непредвзятых" диагностических систем приведет к способности влиять на движение миллиардов долларов. Даже сегодня практику апкодирования, которая часто влечет за собой поиск тонких комбинаций кодов, которые влияют на размер оплаты, можно считать формой состязательной атаки на алгоритмы оплаты[3].
Стоит ли говорить о потенциальном ущербе здоровью, который может нанести неправильно функционирующая система машинного обучения при исключении из уравнения врача.
Как я уже и писал ранее, в таких областях, как медицина должны быть только открытые системы, например, такие, как мой алгоритм[8].
1. Нейронет. Аналитическое исследование по развитию российского и международного рынка по направлению "Нейронет", в части касающейся научно-технических вызовов, развития сквозных технологий, развития успешных бизнесов. стр. 27
2. Adversarial attacks on medical machine learning внешняя ссылка
3. Adversarial Attacks Against Medical Deep Learning Systems внешняя ссылка
4. Adversarial Attacks on Neural Network Policies внешняя ссылка
5. Benchmarking neural network robustness to common corruptions and perturbations внешняя ссылка
6. Audio Adversarial Examples: Targeted Attacks on Speech-to-Text внешняя ссылка
7. S. Haykin, Neural Networks. A Comprehensive Foundation. Canada, Russia: Williams Publishing House, 2001
8. Разработка алгоритма машинного зрения Uzgraph внешняя ссылка