Библиотеки Python для парсинга объявлений с сайтов.

Время прочтения: 2 мин.

Основной модуль urllib предназначен для установления связи с сайтом и дальнейшим обращением к страницам сайта (URL-адресам). В модуле Bs4 предусмотрена библиотека Beautiful Soup, с помощью которой можно обращаться к структуре страницы сайта. С помощью модуля selenium можно имитировать работу браузера. Когда со страницы сайта требуется взять только необходимую информацию можно использовать библиотеку для работы с регулярными выражениями re. Методы библиотеки multiprocessing позволят ускорить получение данных с сайта за счет распределения процесса в несколько потоков.

При получении данных с сайта нужно также учесть, что владельцы сайтов создают препятствия от автоматического сбора данных. Для того, чтобы обходить элементы защиты сайта можно руководствоваться одним из подходов, когда программируются действия пользователя: создается задержка времени с помощью модуля time, используются разные браузеры с помощью fake_useragent с различных ip адресов. Импорт основных модулей приведен не рисунке ниже.

Таким образом, запрограммировав получение данных с использованием названных библиотек Python, можно создать инструмент для парсинга сайта. Полученные с сайта данные можно сохранить в dataframe и использовать для дальнейшего анализа.

А здесь можно найти различные ресурсы данных сайтов объявлений.

Библиотеки Python для парсинга объявлений с сайтов.

22.01.2020 Андрей Степанов, г. Нижний Новгород