Превью для статьи

Применение эффективного асинхронного web-парсинга при работе с Bigdata

Многие компании и организации занимаются сбором большого объема внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором есть шанс допустить ошибки. В этой публикации мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4

Превью для статьи

Scrapy – для обхода бесконечного скролла при парсинге vc.ru

Всем привет!
Обойти бесконечную прокрутку возможно!

Превью для статьи

Как парсить сайт в приложении Django

В посте буду парсить данные с сайта по поиску работы HeadHunter в приложении Django

Превью для статьи

Подходы к получению данных с сайта на примере наш.дом.рф

При оценке состояния компании-застройщика немаловажную роль играет информация, которую можно получить из открытых источников, в том числе с сайта наш.дом.рф. Однако, большой объём необходимых данных означает, что необходима автоматизация задачи. В посте я рассмотрю, с какими сложностями я столкнулся и какие подходы позволили ускорить работу программы.

Превью для статьи

Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Библиотеки BeautifulSoup4 (BS4) и Asyncio помогут ускорить извлечение данных с веб-страниц сайтов сети интернет. Подробнее в посте.

Превью для статьи

Парсинг сайта Госзакупок (ЕИС закупки)

Для оценки контрагента довольно полезную информацию можно получить с сайта «ЕИС закупки», в частности из реестра недобросовестных поставщиков. Расскажу, как быстро проверить контрагентов, имея список ИНН

Превью для статьи

THREADING. ЗАЧЕМ?

В данном материале рассматривается многопоточность, как один из подходов, который позволяет быстрее решать задачи, связанные с вводом-выводом, а также процесс написания парсера на его основе