Автоматизация, Программирование

Анонимный парсинг с помощью Tor

Время прочтения: 2 мин.

Довольно часто при парсинге, отправляя большое количество запросов для получения информации с сайта, может возникнуть проблема, связанная с блокировкой доступа по IP адресу. Одним из решений данной проблемы будет использование сети Tor.

Главными преимуществами использования сети Tor в сравнении с обычными прокси являются:

  • Сложность в определение внешнего IP адреса;
  • Tor предоставляется бесплатно.

Главным же недостатком является медленная скорость соединения в сравнении с обычным интернетом, но для парсинга сайтов данный недостаток не является критичным, так как для передачи текстовой информации сети Tor вполне хватает.

Перейдем к описанию настройки данной программы. С официального сайта Tor следует скачать архив с бинарным приложением и положить его в удобную папку (для примера положим в папку C:\tor). В этой папке создадим файл с именем torrc со следующим содержанием:

SOCKSPort 9052 # Порт, на котором будет находиться Tor
GeoIPFile C:\tor\geoip # Путь к файлу geoip, идет в месте с бинарником в архиве
GeoIPv6File C:\tor\geoip6 # Путь к файлу geoip6, идет в месте с бинарником в архиве
CookieAuthentication 1

После проделанных действий Tor настроен и можно его запускать. Открываем cmd, переходим в нашу папку, где хранится Tor, и набираем команду:

tor.exe -f torrc

Далее покажем на простом примере, как получить информацию с сайта, используя python, направляя весь трафик через Tor:

import requests

session = requests.session()
session.proxies = {'http':  'socks5://127.0.0.1:9050',
                       'https': 'socks5://127.0.0.1:9050'}
print(session.get("http://httpbin.org/ip").text)

Таким образом, в данной статье были описаны главные преимущества и недостатки, а также показан пример анонимного получения информации с сайта, используя сеть Tor.

Советуем почитать