Саморазвитие

Введение в парсинг для тех, кто в него уже введен

Время прочтения: 2 мин.

Решил и я вкинуть свои мысли по поводу получения данных со сторонних ресурсов и дать непрошенные советы, основанные на личных наблюдениях.  Не буду использовать какой-либо код, для понимания он не нужен, от слова «совсем», нужно только что-нибудь знать про парсинг, хотя бы отдаленно. Ну с предисловием покончено, пожалуй, можно начинать

  • Наверное, первое, что хочется сказать-ПИШИТЕ НА ЯЗЫКЕ, КОТОРЫЙ ЗНАЕТЕ!!!!

Умеете писать и предпочитаете это делать на C# — прекрасно, пишите на нем. Больше нравится Python — дерзайте, но не надо писать на незнакомом. Вы увеличите время разработки, может даже получится, что-то сделать, а может придется переписывать на знакомый или кто-то будет делать за вас, а может и то и другое.

  • Не используйте selenium!!!

Может этот совет стоило разместить в первую очередь, но начало-это выбор языка, так что, пусть это будет на втором месте. Если вы не тестируете сайт (а вы это не делаете, просто напоминаю) и есть возможность отказаться от использования selenium и иже с ним, то откажитесь. Он нам не нужен!!! Что он может нам дать?! Ну… он просто поднимает браузер, а значит увеличивает потребление ресурсов компьютера, и самое «приятное», что с ним скорее всего, будет утечка памяти, и значит больше дыр, которые надо будет закрывать, дольше времени на прогрузку страницы. Используя сие чудо, мы увеличиваем время своего труда, время отработки программы и расстроим компьютер.

  • Получая данные, удаляйте спецсимвол!

Табуляции, каретки, переносы и все, что только сознание, размещающих информацию, людей способно добавить. Даже если кажется, что уж тут-то ничего такого не должно быть, удаляйте. Оно будет в паре случаев, но будет. Обязательно будет. Точно будет. Неизбежно будет. Поверьте. Просто поверьте.

Ниже советы, как получать больше, проще и качественнее. Если все-таки цель больше не парсить, то дальше можно не смотреть, достаточно первых трех советов наоборот.

  • Используйте API

API-наш друг. Сайты не очень быстро рассказывают нам о нем, но он есть. Один из способов его найти: открыть инструменты разработчика(F12), на вкладке «сеть» смотреть запросы браузера и ответы, потыкать по кнопочкам, перейти на следующую страницу и возможно мы его найдем. А дальше используя библиотеки для Json все проще. Кстати, есть сайты, которым даешь пример Json и он возвращает построенные классы.

  • Изучите код страницы

Порой на странице есть больше, чем нам показывают визуально. Такое можно найти в json или в полях script, или еще где-нибудь. Вот тут мы начнем «извращаться» со страницей используя фантазию.

Применение этих простых советов позволит:

  • Получить чистые данные
  • Получить больше данных
  • Выигрыш по времени в долгой перспективе
  • Уменьшит ненависть к вам
Советуем почитать