Искусственный интеллект. Данные – это основа

Время прочтения: 5 мин.

Хотя многие внутренние аудиторы достаточно компетентны в аудите информационных технологий (ИТ), рисках и контроле, было бы опасно накладывать традиционные концепции и методы ИТ-аудита на приложения с искусственным интеллектом (ИИ) без понимания сущности ИИ и его уникальных характеристик. Цель этой статьи – начать с объяснения двух основных характеристик.

Во-первых, в отличие от большинства ИТ-систем, ИИ использует вероятностные процессы, а не четкие правила и алгоритмы для получения результатов. Как внутренние аудиторы, мы обычно проверяем данные на ожидаемый результат. Однако во многих приложениях ИИ нет ожидаемого результата – есть только вероятности появления того или иного результата. Сама непредсказуемость результатов создает риск, порождая потенциальные проблемы для аудиторов в случае использования ими традиционных подходов.

Во-вторых, алгоритмы систем с ИИ могут изменяться по мере изменения данных. Результат работы традиционной IT-системы определяется запрограммированным алгоритмом, а не данными – данные не меняют алгоритм приложения. И наоборот, в приложении ИИ данные являются неотъемлемой частью алгоритма.

Все это приводит к сдвигу парадигмы нашего мышления. Чтобы оценить экономическую выгоду и возможность принятия решений в бизнесе с помощью систем ИИ, внутренний аудитор должен сначала понять основу используемых в них данных, средства управления данными и подходы ИИ к анализу данных в следующих аспектах:

1. Качество данных (Garbage in, Garbage Out). Системам машинного обучения нужны огромные объемы данных. Как вы можете гарантировать, что десятки миллионов записей соответствуют их назначению? Как вы можете быть уверены, что очистка данных не удалила соответствующие строки или не изменила набор данных? Аналогичные запросы должны быть заданы клиенту аудита.

2. Происхождение данных. Сбор, очистка, обработка и подготовка данных может быть чрезвычайно дорогостоящей, в связи с чем может возникнуть искушение заменить одни источники данных другими. Тем не менее, подгонка данных может привести к неполным или неточным результатам. Как следствие, клиенту аудита должны быть заданы вопросы, существует ли процесс проверки правильности данных, используемых для систем машинного обучения, когда перепрофилирование или подгонка данных является альтернативой.

3. Смещение данных. Поскольку системы машинного обучения заинтересованы в прогнозировании пороговых значений, а не правильности, они не будут знать, содержат ли наборы данных смещение. Например, наборы данных для выявления заболеваний могут иметь неизвестное смещение в отношении женщин, если они будут содержать только результаты МРТ мужчин Среднего Запада. Соответственно, клиент аудита должен объяснить аудитору, как данные в модели ИИ проверяются, чтобы гарантировать, что все представительные популяции присутствуют в выборке с соответствующей частотой.

4. Хранилища данных. Мир полон неструктурированных данных. Газетные статьи, фотографии из соцсетей и корпоративные записи содержат различные элементы данных. Из-за огромности и неструктурированной природы хранилища данных не всегда известно, какие именно данные существуют, их происхождение, а также соответствие данных системе машинного обучения. Следовательно, клиент аудита должен подробно указать аудитору, какие типы данных имеются и как они контролируются системой машинного обучения.

5. Утечка данных. Из-за неструктурированной природы хранилища данных как вы можете обеспечить доступ сотрудников только к той информации, которая им нужна? Как вы гарантируете, что клиентские и конфиденциальные данные хранятся только в защищенной части и что только авторизованные пользователи имеют к ним доступ? Учитывая это аудитор должен всегда выяснять природу и степень защиты данных клиента и осуществлять постоянный мониторинг его модели машинного обучения для надлежащего управления данными.

6. Дрейф данных. Обновление и сокращение наборов данных для обеспечения свежести вызывают интересное явление, известное как дрейф данных. Модели машинного обучения, обученные на наборах данных в прошлом месяце, могут вести себя иначе, когда они обучаются на новых наборах данных в текущем месяце. В юридическом, кадровом, медицинском или финансовом приложениях стабильность является чрезвычайно важной. Однако в системах предсказания продаж или таргетированной рекламе, когда размеры, предпочтения и модные тенденции постоянно меняются, правильность и согласованность таких факторов менее важны, чем знание, увеличивают ли они продажи.

Еще более проблематичны новейшие технологические подходы к машинному обучению. Продвинутые модели ИИ используют свои выходные результаты в качестве входных данных на последующих этапах, сокращая возможность контроля данных человеком на различных этапах работы системы. В системах, где цель – правильность и согласованность, мониторинг результатов работы ИИ становится все труднее. Следовательно, клиенты аудита должны иметь возможность идентифицировать для аудитора методы специфического контроля датасетов, целью которых является предотвращение дрейфа данных.

Управление искусственным интеллектом включает в себя надзор за его развитием ИИ и операциями. Этот надзор особенно важен, поскольку такие приложения имеют более высокий уровень риска, чем традиционная аналитика. Существует неизбежный риск того, что разработчики будут рекламировать приложения ИИ как достаточно точные и интуитивные, но эти утверждения будут преувеличением. Явное преимущество ИИ должно быть сопоставлено с рисками неверной интерпретации результатов. Не важно, насколько хорошо управляема система ИИ, она настолько сильна, насколько сильно ее самое слабое звено. Новые подходы в приложениях ИИ требуют нового внимания к системному надзору, чтобы обеспечить высокий уровень координации между исполнителями, исследователями данных, программистами, экспертами предметной области и аудиторами. В настоящее время еще не выработан единый шаблон для управления ИИ. Тем не менее, внутренние аудиторы должны оценить уровень контроля руководителей над разработкой надежной структуры управления этих приложений, обеспечивающий уверенность в том, что риски своевременно выявляются и устраняются, начиная с проблем с данными, описанными выше.

Приложения, использующие ИИ, могут принести необычайную пользу для организации, повышая эффективность принятия решений, рентабельность деятельности, снижая издержки и т.п. С другой стороны, ИИ порождает чрезвычайно высокий уровень риска. В этой статье основное внимание уделяется рискам, связанным с использованием данных, как неотъемлемой части процесса принятия аналитических решений в приложениях ИИ. Осознание роли данных в моделях ИИ поможет внутренним аудиторам разработать план аудита, который учитывает эти риски.

С полным оригиналом статьи на английском языке с конкретными примерами и подробным перечнем аудиторских запросов клиентам аудита можно ознакомиться по этой ссылке

Искусственный интеллект. Данные – это основа

10.07.2019 Виктор Чуфистов