Время прочтения: 4 мин.

«Эмоциональный банк»

Не всё в банке зависит от роботизированных алгоритмов финансовых систем. Не нужно забывать, что клиенты банка это обычные люди, также как и сотрудники. Человек – эмоциональное существо, и как бы ни была строга система и высока степень обдуманности действий, эмоции оказывают непосредственное влияние на принятие решений не только здесь и сейчас, но и в будущем. Данное мнение не является открытием в нейробиологии и социокультуре. Это давно обоснованный и доказанный факт учеными всего мира. Природу человека изменить практически невозможно, об этом пишут даже литературные деятели в произведениях, описывающих безэмоцинальное утопическое общество. Таким образом, необходимо мириться с данным фактом и применить его себе на пользу.

Рассмотрим, чем же могут быть полезны эмоции для банка. Во-первых, анализ эмоционального фона клиентов может помочь в увеличении продаж продуктов банка, а также объективной оценке сервиса и услуг. Во-вторых, анализ эмоций сотрудника может помочь в выявлении проблем в бизнес-процессах, а также в предотвращении принятия фатальных решений в управлении системой. В-третьих, зная эмоции человека, можно спрогнозировать возможную чрезвычайную ситуацию связанную как с обычной безопасностью, так и с кибербезопасностью банка, и принять соответствующие меры по их предотвращению.

Так как же понять какую эмоцию испытывает человек, не прибегая к найму огромного штата психологов? В решение этой задачи помогают новые технологии глубокого обучения нейронных сетей (deep learning). Человек может попытаться скрыть свои эмоции, но их практически всегда выдает мимика лица. При помощи технологий deep learning возможно считывать мимику лица человека через видеокамеру и создать некий «детектор эмоций».

Однако эта задача далеко не так проста. Как показали исследования нейробиолога Лизы Фельдман Барретт, при распознавании эмоций человек использует контекстную информацию: голос, действия, ситуацию. А значит, требует дополнительно анализа аудио потока.

«Эмоциональный Data Science»

Итак, а теперь поговорим о технической составляющей. Для того чтобы построить нейросетевой классификатор достаточно взять какую-нибудь сеть с базовой архитектурой, предварительно обученную на ImageNet, и переобучить последние несколько слоев нейросети. Так можно получить хорошее базовое решение для классификации различных данных, но учитывая специфику задачи, более подходящими будут нейросети, используемые для крупномасштабных задач распознавания лиц. Мгновенные снимки лица не совсем точно отражают истинные эмоции, которые испытывает человек в данной ситуации. Поэтому для повышения точности системы необходимо анализировать последовательность кадров.

Сделать это можно двумя путями. Первым способом является подача высокоуровневых признаков, полученных от CNN (свёрточная нейросеть), классифицирующей каждый отдельный кадр, в рекуррентную сеть для захвата временной составляющей.

Второй способ заключается в непосредственной подаче последовательности кадров, взятых из видео с некоторым шагом, на вход 3D-CNN. Подобные CNN используют свертки с тремя степенями свободы, преобразующие четырехмерный вход в трехмерные карты признаков. Эти два подхода можно объединить и получить более эффективную модель.

На основе визуальных данных можно с высокой точностью предсказывать знак эмоции, но при определении интенсивности предпочтительнее использовать речевые сигналы. Для применения нейросети в распознавании аудио, звук представляют в виде спектрограмм в линейной или mel-шкале, после чего с полученными спектрограммами оперируют как с обычными двумерными изображениями. При этом проблема произвольного размера спектрограмм по временной оси элегантно решается при помощи статистического пулинга или за счет включения в архитектуру рекуррентной сети.

Остался заключительный этап в решении данной задачи – объединение классификаторов изображения и голоса для вывода окончательного решения. Простейшим способом является непосредственное объединение их оценок. В этом случае достаточно взять максимум или среднее. Более сложным вариантом является объединение на уровне эмбеддингов для каждой модальности. Для этого часто применяют SVM (метод опорных векторов), но это не всегда корректно, так как эмбеддинги могут иметь различную норму. В связи с этим были разработаны более продвинутые алгоритмы, например: Multiple Kernel Learning и ModDrop. Стоит упомянуть и о классе так называемых end-to-end  решений, которые могут обучаться непосредственно на сырых данных от нескольких датчиков без всякой предварительной обработки.

В целом задача распознавания эмоций средствами deep learning не имеет пока что идеального решения, однако в настоящее время исследования и разработки в данной сфере активно ведутся. И, несомненно, эти наработки имеют высокую применимость к банковской сфере.

Ссылки на ресурсы, используемые при создании статьи:

  1. https://habr.com/ru/company/speechpro/blog/418151/
  2. http://www.diva-portal.org/smash/get/diva2:1174434/FULLTEXT01.pdf
  3. https://arxiv.org/pdf/1705.07871.pdf