Parsing / Сбор информации, Анализ данных

Немного о том, как добыть Json с сайта

Время прочтения: 2 мин.

Не так давно, при работе с проектом по сбору данных юридических лиц из Интернета, мне понадобилось извлечь информацию с сайта https://www.rusprofile.ru/. Формат Json помог быстрее и эффективнее решить эту задачу, т.к.:

  • используя формат Json мы можем получить доступ к большей части информации, чем отображается на сайте,
  • данные из Json будут чище чем из HTML,
  • нет необходимости обрабатывать скрипт (долго по времени).

Шаг 1. Зайдем на интересующий нас сайт, и нажимаем F12, в открывшейся консоли выбираем вкладку «Сеть». Проверяем отобразившуюся информацию. Я обычно ставлю фильтр по XHR и «ответ» сервера и смотрю.

Шаг 2. Когда нашли необходимую информацию, выбираем «Заголовки» и смотрим «URL запроса:»

Получили данную ссылку: «https://www.rusprofile.ru/ajax.php?&query=3327848813&action=search»

Шаг 3: Далее подставлем вместо 3327848813 любой другой интересующий нас ИНН и получаем Json.

Я рассмотрел пример получения Json с сайта www.rusprofile.ru, с другими сайтами принцип работы такой же: иногда необходимо поменять количество отображений на странице, перейти на следующую страницу и др.

Но бывает не все так идеально, иногда нужна просто фантазия и перебор. Например, найти на других страницах заголовки и пытаться менять или посмотреть в скриптах. Это уже трудозатратнее по времени, но в итоге, если поиск успешный, то будет работать быстрее. Если данный подход не срабатывает, то используйте selenium, а потом долго ждите пока он отработает.

Советуем почитать