«Пробенчмаркать уже это всё наконец» – тестирование инструментов для обработки данных на Python. Часть 1.

Советуем почитать

“Владелец подземелья” или автоматизация администрирования Hadoop кластера

«Консервируем» данные: модули pickle и dill

Из PDF в Excel, когда не все так просто…

Как привести динамически-структурированные JSON в формат Key: Value

Примеры ООП на JavaScript с использованием jQuery – легко и просто! И немного Python-а. ЧАСТЬ 3

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

08.06.2023, Господарикова Ирина, г. Воронеж, Шишова Елена и Студенников Дмитрий, г. Самара

«Пробенчмаркать уже это всё наконец» – тестирование инструментов для обработки данных на Python. Часть 1.

Это будет история о том, как мы придумали и приступили к реализации бенчмарка объективным, упорядоченным и унифицированным способом – через написание универсального инструмента.
В первой части публикации представим теоретическую часть задачи, предпосылки, а также первую попытку реализации универсального инструмента.

Data manipulation Другие технологии

Превью для статьи

30.09.2022, Сизов Андрей,г. Новосибирск

Работа с нечитаемыми символами в текстовых файлах

Как прочесть текстовые файлы с нечитаемыми символами (например, смайликами) или сохраненные в разных кодировках?

Data manipulation Другие технологии

Превью для статьи

16.12.2021, Малышкин Михаил, г. Самара

Реализация алгоритмов сегментации изображений с помощью библиотеки scikit-image для python

В данной статье будет рассматриваться реализация алгоритмов сегментации изображений с помощью библиотеки scikit-image для языка программирования python. В качестве примера будет показана реализация двух алгоритмов, а именно активной контурной сегментации («Змеиный алгоритм») и SLIC (Simple Linear Iterative Clustering).

Computer vision Технологии аудита

Превью для статьи

11.10.2021, Юрьев Константин, г. Москва

Самостоятельная разметка данных для распознавания русского рукописного текста

В данной статье я опишу наш опыт создания датасета для обучения модели распознавания рукописного текста.
Предварительный анализ работ по этой теме показал, что в публичном доступе отсутствуют размеченные наборы данных на русском языке. Доступные данные либо описывают английский текст, либо не доступны для коммерческого использования. Нам не подходило такое условие, поэтому единственным вариантом стало создание собственных данных.

Computer vision Технологии аудита

Превью для статьи

31.08.2021, Симонов Дмитрий, г. Воронеж

Pandas. Как изменить значения внутри Dataframe

В этой статье я расскажу о том, что означает предупреждение при работе с библиотекой Pandas: “SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame” и о том, как правильно присваивать значения внутри датафрейма.

Data manipulation Другие технологии

Превью для статьи

30.06.2021, Блинова Марина, Слуцкий Андрей, г. Новосибирск

Ускоряемся с GO

Анализ данных в эпоху нарастающей Big Data требует от инструментов всё большей производительности: уменьшение времени обработки при увеличении объёмов данных. Рассмотрим один из способов её увеличения.

Databases and big data Другие технологии

Превью для статьи

07.05.2021, Огурцов Иван г. Санкт-Петербург

GRAPH MINING для нематематиков

Всем привет! Сначала хотел назвать статью «Graph mining в 1 строчку кода», но это настолько неправдоподобно, что хочется дописать «без регистрации и СМС». Этого я делать, конечно же, не буду, поэтому решил немного переиначить смысл статьи, а заодно затронуть алгоритмы такого пугающего на первый взгляд слова как «графы».

Graph mining Технологии аудита