Нечеткое сравнение строк с помощью rapidfuzz

Советуем почитать

Генерация паспортных данных для обучения моделей

Я знаю, что ты делал этой ночью

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Ускоряем обучение с подкреплением на 50%

Доверительный интервал коэффициента Джини. Что это?

Создание персонажей в Python с помощью LLM: from GPT to Kandinsky

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

15.06.2023, Черниговский Антон, г. Екатеринбург

Нечеткое сравнение строк с помощью rapidfuzz

В публикации расскажу, как при решении задачи нечеткого сравнения строк, среди разных инструментов сравнения (по косинусному сходству, по сходству Левенштейна, по сходству Джаро‑Винклера) был выбран лучший вариант нечеткого сопоставления. Сравнение инструментов производилось исходя из скорости выполнения, правильности сравнения и простоты реализации, с помощью библиотек rapidfuzz и sklearn

Machine learning and neural networks Другие технологии

Превью для статьи

19.10.2022, Ирина Господарикова, г. Воронеж

Мечты о хорошем спеллчекере без лишних заморочек

Всем привет! Сегодня расскажу про свой опыт обработки текста. Я провела небольшое исследование альтернатив исправления ошибок для построения качественного дополняемого алгоритма, и сейчас я хочу поделиться его результатами

Text mining Технологии аудита

Превью для статьи

09.11.2021, Александр Лекомцев, г. Новосибирск

Нечеткий поиск по документам

Передо мной стояла задача провести поиск по распознанным OCR документам с целью нахождения в них ключевых слов из списка. Поскольку в тексте могли встречаться ошибки распознавания, решено было использовать нечёткий поиск на базе rapidfuzz – самой быстрой библиотеки для нечёткого поиска на Python

Text mining Технологии аудита