Превью для статьи

Применение эффективного асинхронного web-парсинга при работе с Bigdata

Многие компании и организации занимаются сбором большого объема внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором есть шанс допустить ошибки. В этой публикации мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4

Превью для статьи

Тайны виртуальных конвертов: чтение и парсинг .pst файлов

Встретить .pst файл весом в десяток гигабайт – это не такая уж редкость. Когда почтовый ящик нужен для того, чтобы прочитать подборку лучших мемов недели, можно не заметить серьезных ограничений. Не займет много времени и поиск ключевого слова или конкретного идентификатора по всему почтовому ящику средствами Outlook. Но что, если найти нужно не конкретный идентификатор, а все идентификаторы, для которых известна только их структура?

Превью для статьи

DeepPavlov «из коробки» для задачи NLP на Python

Как проанализировать текст в постах на habr.com? Примеры парсинга и поиск ответов на вопросы в тексте с помощью deepPavlov.

Превью для статьи

Мониторинг ресурсов Spark-приложений с помощью Python

Доброе утро, друзья!
Каждый пользователь создает нагрузку на кластер, и посмотреть параметры каждого работающего Spark-приложения возможно в представлении Resource manager UI через YARN.

Превью для статьи

Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Библиотеки BeautifulSoup4 (BS4) и Asyncio помогут ускорить извлечение данных с веб-страниц сайтов сети интернет. Подробнее в посте.

Превью для статьи

Агрегатор новостных лент

Возникла задача анализа цитируемости/определения эмоциональной окраски новостей о компании. Для проведения анализа нужно собрать большой массив новостей. Для решения этой задачи прекрасно подойдет библиотека «Newspaper3k»

Превью для статьи

Анализ естественного языка (NLP)

В 1913 году ученые математики, используя ручной подсчет определили, что 43% гласных и 57% согласных содержит роман А.С. Пушкина «Евгений Онегин». Основной задачей было — построить первую модель генерирования языка и доказать, что статистические свойства языка можно моделировать. Сегодня расскажу, как, используя современные методы обработки языка, научить машину определять тематику текста.