Нечеткое сравнение строк как метод обнаружения и исправления ошибок

Советуем почитать

Обработка записей разговоров на Python. Поиск пересечений в диалоге

DeepPavlov «из коробки» для задачи NLP на Python

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

Пайплайн для создания классификации текстовой информации

Поиск ошибок в логике работы чат-бота с помощью TF-IDF и DBSCAN

Оценка качества работы систем Speech to Text

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

14.02.2023, Никита Экерт, г. Воронеж

Нечеткое сравнение строк как метод обнаружения и исправления ошибок

Привет! Часто в работе аудитора приходится сталкиваться с задачей text mining, при выполнении которой приходится использовать множество инструментов, в том числе производить поиск ошибок в тексте и их исправление. Предлагаю разобраться с этой задачей.

Text mining Технологии аудита

Превью для статьи

04.03.2022, Петрова Анна, г. Екатеринбург

Python – наше всё: поиск строк в файле по ключевым словам

Устали фильтровать данные в excel? Тогда присоединяйтесь! Вы узнаете, как с помощью Python осуществить поиск строк в файле по ключевым словам в столбцах.

Data manipulation Другие технологии

Превью для статьи

13.10.2021, Андрей Старченков, г. Рязань

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Text mining Технологии аудита

Превью для статьи

22.06.2021, Кагерманов Рамазан, г. Москва

Конфигурирование SparkSession

Добрый день, друзья!
Сегодня мы продолжим рассматривать Spark, в частности расскажем о способах конфигурирования SparkSession.

Databases and big data Другие технологии

Превью для статьи

14.10.2020, Виктор Алексеев, г. Воронеж

Пишем кросплатформенный многопоточный парсер на языке Scala

Scala – развивающийся язык программирования. Его также называют улучшенной версией Java. Широкой публике он стал известен как язык разработки популярных соц.сетей: Linkedin, Twiter, WhatsApp.
Как применять его для автоматизированного сбора информации? Рассмотрим на практике: как написать парсер, используя этот инструмент.

Software Engineering Другие технологии