Применение эффективного асинхронного web-парсинга при работе с Bigdata

Советуем почитать

Разработка task manager при помощи библиотек Flask и psycopg2

Как управлять своими задачами с помощью телеграм-бота на JS

Создай, оформи, опубликуй. Sphinx — незаменимый помощник в мире Python документации

Использование Flutter Flow для создания мобильного приложения проекта интеллектуального волонтёрства Do Nuts

Применение эффективного асинхронного web-парсинга при работе с Bigdata

Тайны виртуальных конвертов: чтение и парсинг .pst файлов

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

21.08.2023, Коробова Марина, г. Екатеринбург

Применение эффективного асинхронного web-парсинга при работе с Bigdata

Многие компании и организации занимаются сбором большого объема внешних данных для анализа и принятия эффективных решений. Конечно, всё это можно делать вручную, но это долгий, монотонный и нецелесообразный процесс, в котором есть шанс допустить ошибки. В этой публикации мы сравним два инструмента для автоматизации сбора данных из внешних источников Scrapy и BeautifulSoup4

Web scraping и web разработка Другие технологии

Превью для статьи

10.01.2023, Морзавченкова Евгения, г. Нижний Новгород

Scrapy – для обхода бесконечного скролла при парсинге vc.ru

Всем привет!
Обойти бесконечную прокрутку возможно!

Web scraping и web разработка Другие технологии

Превью для статьи

23.11.2022, Шевченко Демид,г. Воронеж

Как парсить сайт в приложении Django

В посте буду парсить данные с сайта по поиску работы HeadHunter в приложении Django

Web scraping и web разработка Другие технологии

Превью для статьи

07.11.2022, Милованов Максим, г. Новосибирск

Подходы к получению данных с сайта на примере наш.дом.рф

При оценке состояния компании-застройщика немаловажную роль играет информация, которую можно получить из открытых источников, в том числе с сайта наш.дом.рф. Однако, большой объём необходимых данных означает, что необходима автоматизация задачи. В посте я рассмотрю, с какими сложностями я столкнулся и какие подходы позволили ускорить работу программы.

Web scraping и web разработка Другие технологии

Превью для статьи

26.09.2022, Горюнов Дмитрий, г. Самара

Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Библиотеки BeautifulSoup4 (BS4) и Asyncio помогут ускорить извлечение данных с веб-страниц сайтов сети интернет. Подробнее в посте.

Web scraping и web разработка Другие технологии

Превью для статьи

29.06.2022, Бузулукский Дмитрий, г. Нижний Новгород

Парсинг сайта Госзакупок (ЕИС закупки)

Для оценки контрагента довольно полезную информацию можно получить с сайта «ЕИС закупки», в частности из реестра недобросовестных поставщиков. Расскажу, как быстро проверить контрагентов, имея список ИНН

Web scraping и web разработка Другие технологии

Превью для статьи

28.06.2022, Биссеринкин Андрей, г. Воронеж

THREADING. ЗАЧЕМ?

В данном материале рассматривается многопоточность, как один из подходов, который позволяет быстрее решать задачи, связанные с вводом-выводом, а также процесс написания парсера на его основе

Web scraping и web разработка Другие технологии