Machine Learning, NLP

Применение NLP в банках: возможности и кейс

Время прочтения: 7 мин.

Лидеры цифровой трансформации

Финансовый сектор сейчас является лидером цифровой трансформации в России (95% компаний).  Это связано с тем, что здесь в текущий момент идет борьба за клиентов, а значит компании смотрят сторону внедрения новых технологий, которые позволяют оптимизировать работу, привлекать новых клиентов, мониторить риски.

 Хотелось бы сказать и про текущую ситуацию с пандемией, во время которой любые цифровые каналы (новые алгоритмы, программы, системы) стали основным способом внутренней и внешней коммуникации с клиентами, поэтому вопрос технологической трансформации в финансовом секторе стоит особенно остро.

Источник: Digital Leader, PwC, IDC, КРОК “Тренды и технологии 2030”, 2020 Опрос проводили среди 160 сотрудников из ведущих компаний по цифровой трансформации: Intel, PwC, Pure Storage, VMWare, КРОК и др.

Использование ИИ в фин.секторе

По анализу Вusiness insider можно сделать короткий вывод о том, что банки могут сэкономить $447 млрд к 2023 году, если будут внедрять ИИ. Наибольшая экономия встречается в Middle-офисе и речь идет о борьбе с мошенничеством и управлением рисками (извлечение индикаторов, обнаружение паттернов на многих данных), а также процедуре «KYC», где также применяется ИИ для анализа текста, больших массивов информации, для поиска закономерностей и неочевидных вещей, которые позволяют оптимизировать бизнес-процессы.  Далее идут Front-овые сценарии, связанные с коммуникацией с клиентами: биометрия / распознавание лиц с помощью Computer Vision и цифровые каналы (персональные предложения для клиентов, которые рассчитываются на основании алгоритмов, чат-боты, умные рассылки). В бэк-офисе возможная экономия является самой низкой, по прогнозам источника. Рассмотрим процесс кредитного андеррайтинга, который вовлекает в себя большое количество человеческого труда. ИИ — как раз такая технология, которая позволяет оптимизировать данный процесс — один человек работает более эффективно, когда у него есть умный помощник, который умеет анализировать текстовую информацию и работать большими данными. С распространением технологии Blockchain Smart-контракты выполняются при автоматическом анализе соблюдения определенных условий. В этом ключе также можно применять AI технологии, которые анализируют текст в документе на наличие определенных условий. Результат анализа используется для автоматизированного принятия решения по контракту: выполнен ли он или нет.

Востребованность ИИ-технологий в финансовом секторе

По данным opentext, наиболее массовым в банках является внедрение машинное обучение и NLP, далее следует чат-боты, которые имеют отношение к текстовой аналитике. Следующей технологией является роботизация процессов, которая обусловлена тем фактом, что в банках существует много систем, которые не так дешево между собой сынтегрировать (например, при наличии старых АС). И завершает рейтинг востребованных ИИ технологий в банках – технологии создания текстов на естественном языке (NLG). Также на графике видно, что фин. компании закладывают бюджет на реализацию проектов в этой сфере.

Технологии NLP расширяют возможности извлечения данных

Кроме распознавания структурированной информации (формы, бланки) NLP позволяет обрабатывать неструктурированные документы (текст, написанный понятным, связанным языком: письма, запросы, договоры, уставы, доверенности), а так же информацию, которая создается в Интернете (новости). Ведь каждый журналист пишет на одну и ту же тему по-разному, использует совершенно разные слова, при описании одно и того же события. Задача НЛП – обнаружить, что здесь идет речь об одном и том же. Преимущество технологии НЛП состоит в том, что она может обработать любой тип информации (структурированный/ неструктурированный). Например, при анализе актов (структурированный документ), где по позициям расписано за какие конкретно работы нужно провести расчет, происходит разбор таблицы на тексты, и далее уже можно более детально анализировать сложные услуги/работы в интересах клиента.

Возможности NLP

В первую очередь, это конечно же классификация документов. Например, банки получают ежедневно множество запросов от ФССП, при этом они все разные, к каждому документу необходим собственных подход к анализу качества классификации. 

Далее, извлечение именованных сущностей (NER) -это люди организации адреса. Совершенные современные движки идут дальше этого набора, здесь появляются финансовые показатели, даты, разделение организаций по видам, разделение людей по видам (должности и т.д.).

Следующей возможностью является машинное обучение + NLP. NLP – это способ представления информации, которая написана на естественном языке в виде некоторой структуры. Связка с машинным обучением дает хорошие возможности, так как любое решение на машинном обучении требует признакового пространства (набор параметров/ признаков/ особенностей, которые мы договариваемся выделять в тех объектах, которые мы подвергаем машинному обучению). Имея ML+NLP, мы создаем признаковое пространство автоматически, на основании NPL технологии, которая позволяет протегировать документы: отделить каждое слово, определить часть речи, его род, число. Тем самым каждое слово обрастает большим количеством признаков, которые могут быть применены в ML. И самый высокий уровень, который предлагает NPL технология, это извлечение фактов. Можно просто извлечь части текста (как- будто маркером выделить в тексте), а с определением фактов мы можем делать выводы. Например, при анализе новостей нам недостаточно просто обнаружить предложения, в которых написано, что произошел пожар на складе и произошло затопление какого-то помещения, нам важно сопоставить эти два события поставить и сопоставить с организацией, где это произошло. И сделать вывод, что произошло снижение стоимости активов у компании, т.е. возникли финансовые риски. Еще пример, имеется десяток статей в Интернете с фактами: президент Х посетил страну Y, компания Z была оштрафована на млн, произошел конфликт акционеров банка, вмешался регулирующий орган, и у банка отозвали лицензию. NLP позволяет проанализировать информацию из несвязанных между собой статей и сделать вывод о том, что у конкретного банка завтра отзовут лицензию.

Взаимосвязь ML+NLP

Как ранее упоминалось, NLP позволяет каждое слово в тексте пометить большим количеством признаков: какую роль оно играет в предложении, к какому классу оно относится, какое значение оно означает конкретно в этом контексте (курс акции, курс лекций или курс корабля). Потом использовать эти признаки в машинном обучении. Это позволяет прямо из коробки начинать уже с очень небольшого количества размеченных сэмплов. Когда мы говорим о финансовой информации, то нельзя забывать про такую важную вещь как конфиденциальной банковская тайна. Передавать, например, внешнему подрядчику, участвующего в совместном проекте большой размеченный массив документов довольно проблематично. С помощью ML, применяемого в NLP, мы можем существенно сократить эту выборку. Не нужно размечать огромное количество документов, т.к. признаковое пространство создается с помощью NLP.

Если банк готовит обучающую выборку, может разметить несколько документов, которое перед этим может обезличить. Согласитесь, есть разница в трудозатратах между обезличиванием десятка тысяч документов и разметка десяти документов. Вот одна из приятных особенностей союза NLP и ML.

Мониторинг кредитных рисков. Пример использования NLP (реализовано в крупном Банке).

Данный кейс будет полезен как внутреннем аудиторам, которые ищут новые риски для своей компании, так и сотрудникам корпоративного блока, потому что здесь речь пойдет об автоматизации поиска в новостях негативных событий с участием контрагентов Банка, сокращении трудозатрат на обработку этих сообщений и оценки фактов риска в реальном времени. Это решение пришло на смену поиска по ключевым словам-триггерам, использования которого создавало много шума в данных (очень много информации не являлось релевантной). Применение технологии NLP позволило повысить полноту и точность поиска информации, а также свести события, которые сформулированы в Интернете по-разному, к некоторому перечню из риск-факторов (конфликт акционеров, снижение стоимости активов, отзыв лицензии, мошенническая деятельность, несоблюдение обязательств), т.е получить вывод

Здесь можно искать связь: новость о том, что у контрагента в отношении банка были начаты определенные процедуры (не очень приятные). Нас интересует, не то, что здесь упомянут конкретный банк (т.к. в конце статьи м.б. написано: « а вот с этими банками такого никогда не случалось и не случится»). Нас интересует только тот банк, в отношении которого эта санкции были применены – мы обнаруживаем не только факт, что что-то неприятное случилось, но и находим связь с определенным банком.

В качестве итогов реализации данного проекта банк смог оперативно реагировать на значимые события с точностью 92% и полнотой 88%. Была получена полная и точная информация о потенциальных заемщиков банка как на этапе выдачи кредита, так и для мониторинга текущих заемщиков. В итоге качество процесса оценки рисков повысилось.

Подробнее здесь: https://habr.com/ru/company/abbyy/blog/487074/

Советуем почитать