Представьте, вы нашли банковскую карту. И желая помочь людям разместили фото находки в VK, Facebook и т.п…
А какую информацию мы выкладываем в интернет желая помочь? Как правило, это фото лицевой стороны карты. Но проблема в том, что этого фото достаточно для покупки в ряде интернет магазинов. На фото есть вся необходимая информация — № карты, срок действия, имя владельца.
Оценили уровень данного «бедствия» в сети VK используя машинное обучение.
Для этой цели, отлично подошла технология Mask R-CNN, основанная на глубоких нейронных сетях. Она побеждает последние несколько лет почти на всех соревнованиях по определению объектов на картинках.
Итак, выгрузив 400 фотографий с картами размещенными в сети VK за месяц, обучили нейронную сеть находить карты на изображении.
Но это было только начало – нужно было научиться распознавать номера карт. Из-за особенностей шрифта (Ocr A Std Regular, OCR medium, Halter, Crabon) и рельефа не удавалось сделать ни одним из готовых и распространенных решений. Путем недолгих экспериментов пришла мысль – «Цифры- это такие же объекты на картинке, будем их распознавать с помощью Mask-RCNN». И это сработало. Разметили каждую цифру на изображениях и натренировали модель. Это позволило распознать номер карты на изображении.
Разработанное решение может быть полезно во всех подобных задачах распознавания символов на изображении.
Подробнее о технологии Mask R-CNN можно узнать по ссылкам ниже:
Ссылка на статью на портале Habr
Ссылка на репозиторий на GitHub
Благодарим за Ваше внимание.