ПроАудит
Warning: Invalid argument supplied for foreach() in /var/www/u0707117/data/www/newtechaudit.ru/wp-content/themes/nta2024(2)/single.php on line 319

Warning: Invalid argument supplied for foreach() in /var/www/u0707117/data/www/newtechaudit.ru/wp-content/themes/nta2024(2)/single.php on line 340

Warning: Invalid argument supplied for foreach() in /var/www/u0707117/data/www/newtechaudit.ru/wp-content/themes/nta2024(2)/single.php on line 362

Вебинар: Обзор некоторых приёмов парсинга интернет-страниц и RSS-лент на языке программирования Python

Время прочтения: 2 мин.

Почему pip закомменчены в примере кода?
Ответ: У меня такие библиотеки уже установлены, поэтому я написала код для вас, чтобы вы могли установить их сами, если необходимо.
Подскажите, а если на сайте есть капча, как ее обойти?
Ответ: Капча — это отдельная картинка или набор картинок. Ее специально делают сложной, чтобы партеры вроде нашего не смогли обойти. Необходимо использовать библиотеку для работы с картинками (например pillow), и уже обрабатывать графическую информацию. Это больше задача машинного обучения — распознавание
Леонарда, а как действовать, если сайт засек, что мы используем парсер, и выдал капчу? Есть ли какие-то приемы для обхода этого?
Ответ: Капча — это отдельная картинка или набор картинок. Необходимо использовать библиотеку для работы с картинками (например pillow), и уже обрабатывать графическую информацию. Это больше задача машинного обучения — распознавание
Скажите где материалы можно посмотреть?
Ответ: Все материалы можно будет увидеть на newtechaudit.ru
Что будет если страница не загрузится? (слишком медленное соединение с сетью, или сайт начал банить из-за большого количества вопросов)?
Ответ: Если медленное соединение — то ждать, данные вам нужны, а сами они не придут по своему желанию. Если сайт банит, то попробуйте ставить таймер time.sleep(1) и посылать запросы раз в 1 секунду.
Почему часть букв написаны с большой буквы?
Ответ: Регистр букв абсолютно не влияет на поиск по заданным векторам. Делается это благодаря указанием параметра flags = re.IGNORECASE в методе str.contains, когда ищем строки с заданными векторам.
Леда, можешь еще сюда выложить ссылку на своей репо в гите?
Ответ: https://github.com/Ledka17/Parsing_banki_ru
По ссылке …/rss только 100 последних отзывов, как увидеть другие?
Ответ: В RSS-лентах есть возможность увидеть только последние записи новостей сайта. Количество — определяет сам сайт. Обычно это 2 дня — неделя. Обойти это в RSS-лентах не реально. Но есть возможно самостоятельно написать парсер для определённого сайта, который будет проверять все новости сайта. Пример парсинга всей Ленты.ру можно увидеть здесь — https://github.com/yutkin/Lenta.Ru-News-Dataset

Вебинар: Обзор некоторых приёмов парсинга интернет-страниц и RSS-лент на языке программирования Python

15.05.2020