Превью для статьи

Подходы к получению данных с сайта на примере наш.дом.рф

При оценке состояния компании-застройщика немаловажную роль играет информация, которую можно получить из открытых источников, в том числе с сайта наш.дом.рф. Однако, большой объём необходимых данных означает, что необходима автоматизация задачи. В посте я рассмотрю, с какими сложностями я столкнулся и какие подходы позволили ускорить работу программы.

Превью для статьи

3 пакета Python для генерации синтетических данных

Нет данных? Сгенерируй!
Рассмотрим три способа генерации синтетических данных с помощью пакетов Python.

Превью для статьи

Анализ тональности текста с использованием фреймворка LightAutoML

При проведении аудита периодически возникают задачи анализа тональности текстов, таких как обращения клиентов. Существует множество готовых решения для определения тональности. В этой статье мы рассмотрим одно из решений, а именно LightAutoML.

Превью для статьи

Генерация синтетических табличных данных на Python

Всем привет! Сегодня речь пойдет об одной полезной области в Data Science – синтетические данные. Это данные, которые не получены напрямую из целевых источников, а являются смоделированными по набору условий или небольшому сэмплу реальных данных.

Превью для статьи

Поиск адресов в «испорченных» данных

Для проведения проверки необходимо было установить адреса нескольких сотен объектов недвижимости. Проблема в том, что адреса были написаны в разных частях документов, документы имели различные форматы, и сам адрес также мог быть написан разнообразными способами.
Да, существует возможность использовать для данной задачи различные библиотеки и сервисы, но источники данных с информацией об этих объектах должны быть упорядочены и однородны. Можно ли используя минимум ресурсов решать подобные задачи? Можно! Рассмотрим решение на основе Python 3, Pandas и нескольких библиотек для конвертации файлов в датафреймы.

Превью для статьи

Парсинг и аудит

Как немного упростить процесс извлечения и обработки данных разного формата с вебсайтов при помощи Python? Вам не досталось API? Нужно всего лишь иметь среду разработки, Python и pip