Превью для статьи

Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Рассмотрим базовые методы предобработки данных для моделей машинного обучения: научимся токенизировать текст и разберем нестареющую классику — TF-IDF, Word2Vec и CountVectorizer.

Превью для статьи

Распределение вычислительной мощности между несколькими ПК

В ходе работы возникла задач обработки огромного объема (~500 Гб) аудиозаписей в условиях ограниченного времени. На одном ПК обработка заняла бы не менее месяца, что не вписывалось в установленные заказчиком сроки. Возникла идея подключения компьютеров коллег, у которых ночью ПК «отдыхают». Весь процесс можно разбить на несколько шагов: Установка Python на рабочий компьютер. Скачивание на […]

Превью для статьи

Работа с docx c помощью bayoo-docx

Нужно найти в docx-файле определенный фрагмент и оставить к нему комментарий? bayoo-docx (форк python-docx) умеет это! В конце статьи в виде бонуса расскажем, как определить номер страницы. 😊

Превью для статьи

Выявление компрометации учетных записей с помощью нейронных сетей

Потенциал использования Computer Vision для аудита невозможно переоценить. Существует множество задач, где в силу ограниченности человеческого ресурса приходится жертвовать либо охватом (когда вместо всех ВСП анализируются лишь часть), либо временным интервалом проверки (исследование недельного архива видеозаписей вместо квартального). В этой статье мы расскажем, как модель, собранная из нескольких нейронных сетей, позволила автоматически, без огромных затрат человеческого ресурса, выявлять случаи, когда сотрудники оставляют рабочие места без блокировки ПК, или даже позволяют работать коллегам под своими учетными данными.

Превью для статьи

PyCUDA или этому коду нужно ускорение.

Как же повысить скорость в Python при недостатках:
Более низкая скорость работы;
Более высокое потребление памяти написанных программ по сравнению с аналогичным кодом, написанным на компилируемых языках ( C или C++).

Превью для статьи

Python venv

У вас тоже случалось, что, открывая чужой python-скрипт, вы не можете его запустить? Причина может быть в отсутствии необходимых библиотек или их версионности. Данную проблему поможет решить виртуальное окружение

Превью для статьи

Применение AutoML в задачах машинного обучения

В современном мире все движется в сторону автоматизации рутинных процессов. Data science не является исключением, поэтому одним из самых активных направлений, которые развиваются на сегодняшний день в data science является AutoML. В данной статье мы рассмотрим простейшие AutoML системы и сравним их между собой.

Data News