Превью для статьи

Нечеткое сравнение строк как метод обнаружения и исправления ошибок

Привет! Часто в работе аудитора приходится сталкиваться с задачей text mining, при выполнении которой приходится использовать множество инструментов, в том числе производить поиск ошибок в тексте и их исправление. Предлагаю разобраться с этой задачей.

Превью для статьи

Python – наше всё: поиск строк в файле по ключевым словам

Устали фильтровать данные в excel? Тогда присоединяйтесь! Вы узнаете, как с помощью Python осуществить поиск строк в файле по ключевым словам в столбцах.

Превью для статьи

Обзор токенизаторов, входящих в состав библиотеки NLTK

Одна из самых популярных на сегодняшний день python-библиотек для работы с текстами на естественном языке – NLTK (Natural Language Toolkit) – содержит большой список готовых токенизаторов.
Возникает вопрос, какой же токенизатор выбрать для решения конкретной задачи. Для ответа на него необходимо понимать, как работает тот или иной токенизатор, на какие блоки он может разбить исходный текст. В этой статье я постараюсь описать работу токенизаторов, входящих в состав NLTK, чтобы вопрос выбора стал несколько проще. Все примеры будут приведены с использованием русского языка.

Превью для статьи

Конфигурирование SparkSession

Добрый день, друзья!
Сегодня мы продолжим рассматривать Spark, в частности расскажем о способах конфигурирования SparkSession.

Превью для статьи

Пишем кросплатформенный многопоточный парсер на языке Scala

Scala – развивающийся язык программирования. Его также называют улучшенной версией Java. Широкой публике он стал известен как язык разработки популярных соц.сетей: Linkedin, Twiter, WhatsApp.
Как применять его для автоматизированного сбора информации? Рассмотрим на практике: как написать парсер, используя этот инструмент.