О применении технологии глубокого машинного обучения искусственного интеллекта (ИИ) для повышения точности медицинской диагностики пишет доктор Мэтью Кроусон в статье «Искусственный интеллект для диагностики потери слуха», опубликованной в ноябрьском номере журнала The Hearing Journal.

Иван Шилов ИА REGNUM

Одним из ключевых преимуществ ИИ является то, что его алгоритмы не ограничены допущениями о линейности и беспорядочными наборами данных с сотнями и тысячами переменных.

За последнее десятилетие интерес к применению ИИ в медицине значительно вырос. Существует множество методов, включая инструменты ИИ, от обработки естественного языка для перевода и извлечения неструктурированного текста до глубокого обучения для распознавания образов в медицинских изображениях. Методы глубокого обучения ИИ предлагают уникальную возможность прогнозирования и распознавания образов в нетрадиционных для программирования форматах данных, таких как изображения, видео и звук.

Доля населения мира, страдающего потерей слуха, и тех, кому, как ожидается, потребуются специалисты по аудиологии для диагностики потери слуха, растет. Рост спроса на лечение расстройств слуха сталкивается с ограниченными возможностями по предоставлению этих услуг. Без привлечения дополнительных человеческих ресурсов в качестве медиков и медицинского персонала многие люди, страдающие потерей слуха, останутся без помощи. Этот разрыв спроса и предложения дает возможность перестроить процесс диагностики потери слуха. Исследователи из специализированной бостонской больницы Massachusetts Eye & Ear разработали подход к расширению диагностики путем интеграции модели глубокого обучения для автоматической классификации типов потери слуха. Целью их исследований было создание модели с использованием алгоритма глубокого обучения для улучшения автоматической и точной интерпретации типов потери слуха по изображениям аудиограмм (аудиограмма — график зависимости пороговой чувствительности слуха от частоты звука в герцах. — прим. ИА REGNUM).

Алгоритмы глубокого обучения требуют большого количества данных для получения точной модели диагностики. Для исследования специалисты получили 1007 изображений аудиограмм взрослых пациентов из базы электронных медицинских записей, сделанных в Центре медицинских наук Sunnybrook Health Sciences Centre в Торонто. Целью модели стала быстрая интерпретация без участия человека графиков аудиограмм, характерных для нормальной, кондуктивной, смешанной и нейросенсорной тугоухости. Изображения аудиограммы были ранее интерпретированы и маркированы врачами-аудиологами.

Схема рабочего процесса моделирования глубокого обучения. Потеря слуха, искусственный интеллект, машинное обучение

Графики аудиограмм являлись первичной информацией для построения модели глубокого обучения. Графики были скопированы из диагностических отчетов и преобразованы до стандартного размера 500 на 500 пикселей. База данных изображений случайным образом была разделена на две части: обучение и проверка. Чтобы повысить степень сложности и надежность моделей анализа шаблонов из графиков, случайным образом было сделано несколько преобразований изображения, включая поворот изображения, деформацию, контраст, освещение и масштабирование. Для ИИ была выбрана архитектура нейронной сети под названием ResNet. После обучения нейронной сети набор сохраненных проверочных изображений использовался для оценки точности классификации обученной модели.

Полностью обученная модель имела максимальную точность классификации нормальной, кондуктивной, смешанной или нейросенсорной тугоухости в 97%.

После того как удалось получить столь точный результат, исследователи решили выяснить, как сеть научилась различать типы потери слуха с помощью шага прогнозирования, называемого градиентно-взвешенной активацией для классификации данных (Gradient-weighted Class Activation Mapping (Grad-CAM)). Подобно тому, как получают информацию люди, нейронная сеть узнаёт о потери воздушной и костной проводимости звука в ухе. Из-за нескольких ошибок, допущенных моделью прогнозирования, ИИ не смог распознать порог костной проводимости ниже нормы, что позволило бы классифицировать аудиограмму как смешанную тугоухость.

Учитывая заметный дефицит кадровых ресурсов среди врачей-аудиологов, ожидаемый рост заболеваемости по экспоненте и распространенность такого недуга, как потеря слуха, во всем мире, а также успехи применения технологии глубокого обучения для диагностики заболеваний, подход к автоматической интерпретации аудиограмм имеет большой потенциал.

Классификация слуха по типу потери слуха не в полной мере решает фундаментальную задачу определения индивидуальных особенностей потери слуха — такой подход не содержит в себе анализ разборчивости речи и её распознавание. Тем не менее есть все предпосылки для усовершенствования модели нейронной сети, которая может также определять тяжесть потери слуха в сочетании с разборчивостью речи, чтобы помочь в классификации пациентов с потерей слуха в тех регионах, где врач-аудиолог недоступен, для того, чтобы отправить их на лечение и реабилитацию. Такое решение может показаться ненужным для стран первого мира, не имеющих проблем со специалистами и ресурсами для лечения тугоухости, но большая часть мира не имеет доступа к слуховым аппаратам. Более того, технология глубокого обучения масштабируется и может быть развернута везде, где можно использовать смартфон или портативный компьютер для получения доступа к удаленным и изолированным группам населения.

Несмотря на успех этих алгоритмов и быстро растущее количество опубликованных научных медицинских статей об использовании машинного обучения, всё еще наблюдается серьёзный разрыв между научными разработками и их широким внедрением в повседневную клиническую практику. Аудиологическое медицинское сообщество еще не определилось, кто будет привлечен к ответственности за алгоритм, если он даст ошибочный прогноз, причиняющий вред. Кто будет нести ответственность, если автоматизированная система упустит возможность направить пациента с холестеатомой или вестибулярной шванномой на лечение? Будут нести за это персональную ответственность люди, обучавшие алгоритм, или конечный потребитель должен слепо полагаться только на результаты алгоритма?

Также существуют серьезные технические препятствия для внедрения технологии. Обучение и развертывание решений глубокого обучения требует качественных и объемных вычислительных ресурсов. В зависимости от сценария использования обучение моделей глубокого обучения этот процесс может занять много часов даже при условии использования самых современных вычислительных мощностей. Не следует забывать и о воздействии на окружающую среду при использовании таких энергоемких ресурсов.

Еще одним серьезным препятствием на пути разработки и внедрения моделей является наличие достаточного количества данных высокого качества.

ИИ открывает перспективу расширения границ для анализа больших данных, что выгодно отличает его от использования традиционных статистических методов. Эта перспектива может привести к значительным изменениям в системе здравоохранения, особенно когда эти методы применяются для устранения разрыва спроса и предложения при оказании медицинской помощи. Потеря слуха по-прежнему остаётся серьезной проблемой для общественного здравоохранения во всем мире. Реорганизация процесса оказания медицинской помощи для людей с нарушением слуха с использованием новых подходов к глубокому обучению ИИ может помочь получить свободный доступ к такой медицинской помощи в условиях роста населения мира.