Обзор мероприятий

Вебинар: Обзор некоторых приёмов парсинга интернет-страниц и RSS-лент на языке программирования Python

Время прочтения: 2 мин.
  1. Почему pip закомменчены в примере кода?
    Ответ: У меня такие библиотеки уже установлены, поэтому я написала код для вас, чтобы вы могли установить их сами, если необходимо.
  2. Подскажите, а если на сайте есть капча, как ее обойти?
    Ответ: Капча — это отдельная картинка или набор картинок. Ее специально делают сложной, чтобы партеры вроде нашего не смогли обойти. Необходимо использовать библиотеку для работы с картинками (например pillow), и уже обрабатывать графическую информацию. Это больше задача машинного обучения — распознавание
  3. Леонарда, а как действовать, если сайт засек, что мы используем парсер, и выдал капчу? Есть ли какие-то приемы для обхода этого?
    Ответ: Капча — это отдельная картинка или набор картинок. Необходимо использовать библиотеку для работы с картинками (например pillow), и уже обрабатывать графическую информацию. Это больше задача машинного обучения — распознавание
  4. Скажите где материалы можно посмотреть?
    Ответ: Все материалы можно будет увидеть на newtechaudit.ru
  5. Что будет если страница не загрузится? (слишком медленное соединение с сетью, или сайт начал банить из-за большого количества вопросов)?
    Ответ: Если медленное соединение — то ждать, данные вам нужны, а сами они не придут по своему желанию. Если сайт банит, то попробуйте ставить таймер time.sleep(1) и посылать запросы раз в 1 секунду.
  6. Почему часть букв написаны с большой буквы?
    Ответ: Регистр букв абсолютно не влияет на поиск по заданным векторам. Делается это благодаря указанием параметра flags = re.IGNORECASE в методе str.contains, когда ищем строки с заданными векторам.
  7. Леда, можешь еще сюда выложить ссылку на своей репо в гите?
    Ответ: https://github.com/Ledka17/Parsing_banki_ru
  8. По ссылке …/rss только 100 последних отзывов, как увидеть другие?
    Ответ: В RSS-лентах есть возможность увидеть только последние записи новостей сайта. Количество — определяет сам сайт. Обычно это 2 дня — неделя. Обойти это в RSS-лентах не реально. Но есть возможно самостоятельно написать парсер для определённого сайта, который будет проверять все новости сайта. Пример парсинга всей Ленты.ру можно увидеть здесь — https://github.com/yutkin/Lenta.Ru-News-Dataset
Советуем почитать