Превью для статьи

Координатный квест: как найти координаты и расстояния без регистраций и смс

Добрый день! В этой публикации я хочу поделиться своим опытом решения одной интересной задачки, описать весь путь одинокого самурая и повысить вам настроение.

Превью для статьи

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.

Превью для статьи

Защита от парсинга: миф или реальность?

В посте рассмотрю несколько способов борьбы с «недобросовестным» парсингом.

Превью для статьи

Как парсить сайт в приложении Django

В посте буду парсить данные с сайта по поиску работы HeadHunter в приложении Django

Превью для статьи

Подходы к получению данных с сайта на примере наш.дом.рф

При оценке состояния компании-застройщика немаловажную роль играет информация, которую можно получить из открытых источников, в том числе с сайта наш.дом.рф. Однако, большой объём необходимых данных означает, что необходима автоматизация задачи. В посте я рассмотрю, с какими сложностями я столкнулся и какие подходы позволили ускорить работу программы.

Превью для статьи

Web-Scraping с применением библиотек BeautifulSoup4 + Asyncio

Библиотеки BeautifulSoup4 (BS4) и Asyncio помогут ускорить извлечение данных с веб-страниц сайтов сети интернет. Подробнее в посте.

Превью для статьи

Как выявить выгодоприобретателя с помощью pandas и json

Выявить выгодоприобретателя клиента и определить дату последнего обновления сведений о нем с помощью pandas и json

Data News