Применение эффективного асинхронного web-парсинга при работе с Bigdata

Советуем почитать

Разработка task manager при помощи библиотек Flask и psycopg2

Как управлять своими задачами с помощью телеграм-бота на JS

Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

Использование Flutter Flow для создания мобильного приложения проекта интеллектуального волонтёрства Do Nuts

Применение эффективного асинхронного web-парсинга при работе с Bigdata

Тайны виртуальных конвертов: чтение и парсинг .pst файлов

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

21.08.2023, Коробова Марина, г. Екатеринбург

Применение эффективного асинхронного web-парсинга при работе с Bigdata

Многие компании и организации занимаются сбором большого объема внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором есть шанс допустить ошибки. В этой публикации мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4

Web scraping и web разработка Другие технологии

Превью для статьи

15.08.2023, Саввин Максим,г. Воронеж

Тайны виртуальных конвертов: чтение и парсинг .pst файлов

Встретить .pst файл весом в десяток гигабайт – это не такая уж редкость. Когда почтовый ящик нужен для того, чтобы прочитать подборку лучших мемов недели, можно не заметить серьезных ограничений. Не займет много времени и поиск ключевого слова или конкретного идентификатора по всему почтовому ящику средствами Outlook. Но что, если найти нужно не конкретный идентификатор, а все идентификаторы, для которых известна только их структура?

Web scraping и web разработка Другие технологии

Превью для статьи

22.06.2023, Гончаров Петр,г. Ростов-на-Дону

DeepPavlov «из коробки» для задачи NLP на Python

Как проанализировать текст в постах на habr.com? Примеры парсинга и поиск ответов на вопросы в тексте с помощью deepPavlov.

Text mining Технологии аудита

Превью для статьи

07.02.2023, Кравченко Александр, г. Новосибирск

Мониторинг ресурсов Spark-приложений с помощью Python

Доброе утро, друзья!
Каждый пользователь создает нагрузку на кластер, и посмотреть параметры каждого работающего Spark-приложения возможно в представлении Resource manager UI через YARN.

BI and visualization Другие технологии

Превью для статьи

26.09.2022, Горюнов Дмитрий, г. Самара

Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Библиотеки BeautifulSoup4 (BS4) и Asyncio помогут ускорить извлечение данных с веб-страниц сайтов сети интернет. Подробнее в посте.

Web scraping и web разработка Другие технологии

Превью для статьи

14.04.2022, Александров Андрей,г. Тюмень

Агрегатор новостных лент

Возникла задача анализа цитируемости/определения эмоциональной окраски новостей о компании. Для проведения анализа нужно собрать большой массив новостей. Для решения этой задачи прекрасно подойдет библиотека «Newspaper3k»

Text mining Технологии аудита

Превью для статьи

17.11.2021, Егор Козин, Егор Батарчук, г. Воронеж

Анализ естественного языка (NLP)

В 1913 году ученые математики, используя ручной подсчет определили, что 43% гласных и 57% согласных содержит роман А.С. Пушкина «Евгений Онегин». Основной задачей было — построить первую модель генерирования языка и доказать, что статистические свойства языка можно моделировать. Сегодня расскажу, как, используя современные методы обработки языка, научить машину определять тематику текста.

Text mining Технологии аудита