Превью для статьи

Нечеткое сравнение строк с помощью rapidfuzz

В публикации расскажу, как при решении задачи нечеткого сравнения строк, среди разных инструментов сравнения (по косинусному сходству, по сходству Левенштейна, по сходству Джаро‑Винклера) был выбран лучший вариант нечеткого сопоставления. Сравнение инструментов производилось исходя из скорости выполнения, правильности сравнения и простоты реализации, с помощью библиотек rapidfuzz и sklearn

Превью для статьи

Мечты о хорошем спеллчекере без лишних заморочек

Всем привет! Сегодня расскажу про свой опыт обработки текста. Я провела небольшое исследование альтернатив исправления ошибок для построения качественного дополняемого алгоритма, и сейчас я хочу поделиться его результатами

Превью для статьи

Нечеткий поиск по документам

Передо мной стояла задача провести поиск по распознанным OCR документам с целью нахождения в них ключевых слов из списка. Поскольку в тексте могли встречаться ошибки распознавания, решено было использовать нечёткий поиск на базе rapidfuzz – самой быстрой библиотеки для нечёткого поиска на Python