Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Превью для статьи

QlikView Tips and Tricks vol.1

Зачастую при разработке DashBoard в QlikView возникают нетривиальные задачи, которые по тем или иным причинам невозможно решить с помощью обычных средств. Требуется иметь долю смекалки и воображения, чтобы, используя только стандартные объекты QV, сделать то, что на первый взгляд нереализуемо. Расскажу о некоторых необычных кейсах, которые мне приходилось решать во время разработки DB и способах их реализации.

Превью для статьи

Распределение вычислительной мощности между несколькими ПК

В ходе работы возникла задач обработки огромного объема (~500 Гб) аудиозаписей в условиях ограниченного времени. На одном ПК обработка заняла бы не менее месяца, что не вписывалось в установленные заказчиком сроки. Возникла идея подключения компьютеров коллег, у которых ночью ПК «отдыхают». Весь процесс можно разбить на несколько шагов: Установка Python на рабочий компьютер. Скачивание на […]

Превью для статьи

Работа с docx c помощью bayoo-docx

Нужно найти в docx-файле определенный фрагмент и оставить к нему комментарий? bayoo-docx (форк python-docx) умеет это! В конце статьи в виде бонуса расскажем, как определить номер страницы. 😊

Превью для статьи

Выявление компрометации учетных записей с помощью нейронных сетей

Потенциал использования Computer Vision для аудита невозможно переоценить. Существует множество задач, где в силу ограниченности человеческого ресурса приходится жертвовать либо охватом (когда вместо всех ВСП анализируются лишь часть), либо временным интервалом проверки (исследование недельного архива видеозаписей вместо квартального). В этой статье мы расскажем, как модель, собранная из нескольких нейронных сетей, позволила автоматически, без огромных затрат человеческого ресурса, выявлять случаи, когда сотрудники оставляют рабочие места без блокировки ПК, или даже позволяют работать коллегам под своими учетными данными.

Превью для статьи

Создание собственных команд в GIT

Предлагаю полезный материал по созданию собственных команд GIT-а. Расскажу, как выполнять sh, curl и другие скрипты с помощью собственных команд GIT-а и, самое главное, как создавать удаленный репозиторий BitBucket-а прямо из консоли (Git Bash) на локальной машине

Превью для статьи

PyCUDA или этому коду нужно ускорение.

Как же повысить скорость в Python при недостатках:
Более низкая скорость работы;
Более высокое потребление памяти написанных программ по сравнению с аналогичным кодом, написанным на компилируемых языках ( C или C++).

Data News