Превью для статьи

Деревья решений в pySpark: от семечка до параметрической оптимизации случайного леса

Меня зовут Клим, и сегодня я буду вашим проводником в PySpark MLlib. В этом посте я расскажу о простом для понимания, но в то же время достаточно эффективным алгоритме — дерево решений, а также его расширенной модификацией случайные леса решений.

Превью для статьи

Feature engineering и кластерный анализ клиентов на PySpark

Кластеризация клиентов является важным инструментом, так как позволяет лучше понимать клиентов и предлагать им более персонализированный сервис. Также она может быть полезна для компании в поиске решения при возникновении проблем с клиентами. Побробнее в публикации.

Превью для статьи

Microsoft Bing и ChatGPT – buddy DA/DS-аудитора

Кто такой buddy? Человек, который может подсказать решение, когда ты зашёл в тупик, подскажет, как лучше прокачать навыки, ответит, если тебе что-то непонятно. Личный buddy – мечта любого. Мы с моим коллегой DA/DS-аудиторы и решили протестировать новые инструменты: ChatGPT, чат поисковика Bing и выяснить, смогут ли они стать нашими buddy.

Превью для статьи

Примеры ООП на JavaScript с использованием jQuery – легко и просто! И немного Python-а. ЧАСТЬ 3

В третьей части поста я научу создавать микроweb-сервер с помощью Python, покажу на примерах, как можно передавать и получать данные от клиента к серверу, не перегружая страницы, используя JS и jQuery.

Превью для статьи

Функции и процедуры в Greenplum

Сегодня расскажу, как я использовал функции и процедуры в Greenplum и как мне удалось существенно оптимизировать запрос с использованием функции.

Превью для статьи

Реализация цикличного выполнения запросов с помощью Apache Beeline и командной строки

Всем привет! Ниже по ссылке один из методов автоматизации запуска SQL запросов в Apache Hadoop с помощью клиента Apache Beeline и командной оболочки Bash.

Превью для статьи

Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Благодаря концепции открытого правительства, развиваемой в России, в свободном доступе появляются данные о работе государственных органов. Одной из таких площадок с данными является сайт Единой информационной системы (ЕИС) в сфере закупок. Там есть удобный поиск информации, но гораздо больше полезного можно найти на FTP версии сайта — ftp://ftp.zakupki.gov.ru, где хранятся архивы XML‑документов с публичной частью информации о состоявшихся закупках: извещения, протоколы, сведения о договорах. В моем случае была задача проверить, а размещаются ли протоколы и сведения о договорах в соответствии с требованиями 223-ФЗ.