Полируем Parquet

Советуем почитать

“Владелец подземелья” или автоматизация администрирования Hadoop кластера

«Консервируем» данные: модули pickle и dill

Из PDF в Excel, когда не все так просто…

Как привести динамически-структурированные JSON в формат Key: Value

Примеры ООП на JavaScript с использованием jQuery – легко и просто! И немного Python-а. ЧАСТЬ 3

Оптимизации работы Jupyter notebook при помощи параллельных вычислений (Библиотека Joblib)

Data News

16-17 апреля 2024 года

XVI Национальная конференция ИВА «Внутренний аудит в России

26-27 июля 2024 года

PyCon Russia - конференция для python-разработчиков

Превью для статьи

02.02.2023, Новицкий Никита, г. Самара; Гершевский Егор, г. Самара

Полируем Parquet

Порой случается так, что различные данные невозможно загрузить, обработать и сохранить для передачи или дальнейшей обработки из-за их большого объема. Тем не менее эту проблему можно решить путем грамотного выбора формата их хранения.

Data manipulation Другие технологии

Превью для статьи

12.10.2022, Колков Алексей, г. Новосибирск

Parquet что это такое и зачем пригодился?

Как сделать большую выборку данных и сохранить результат для последующей обработки?

Databases and big data Другие технологии

Превью для статьи

05.10.2022, Савелов Алексей, г. Хабаровск

Ищем выбросы. Критерий Шовене

Поиск выбросов, аномалий. Эта тема актуальна если исследователь — аналитик хочет получить адекватные результаты и избежать эффекта GIGO ( garbage in, garbage out — «мусор на входе — мусор на выходе»). Рассмотрим один из способов выявления аномальных выбросов – критерий Шовене.

Databases and big data Другие технологии

Превью для статьи

11.10.2021, Юрьев Константин, г. Москва

Самостоятельная разметка данных для распознавания русского рукописного текста

В данной статье я опишу наш опыт создания датасета для обучения модели распознавания рукописного текста.
Предварительный анализ работ по этой теме показал, что в публичном доступе отсутствуют размеченные наборы данных на русском языке. Доступные данные либо описывают английский текст, либо не доступны для коммерческого использования. Нам не подходило такое условие, поэтому единственным вариантом стало создание собственных данных.

Computer vision Технологии аудита

Превью для статьи

22.09.2021, Фёдорова Валентина, г. Иркутск

Process mining текстовых чатов по сделкам с недвижимостью

Определяем логику процесса запроса документов по сделкам с недвижимостью с помощью текстовых чатов

Process mining Технологии аудита

Превью для статьи

01.06.2021, Черноскутов Евгений, г. Новосибирск

Анализ сообщений коммерческого чата на предмет игнорирования вопроса клиента на основе модели NLP

В этой статье расскажем о методе извлечения информации из текстовых сообщений чата компании. Посмотрим высоко-рисковые чаты, которые содержат случаи игнорирования клиентов и требуют дополнительного анализа и решений. Применим одну из моделей NLP

Text mining Технологии аудита

Превью для статьи

13.05.2021, Баланев Руслан, г. Хабаровск

Что выбрать, TEXT или VARCHAR(MAX)?

Какой тип данных для текстовых полей в MS SQL лучше выбрать, text или varchar(MAX)? Расскажем в этой статье.

Databases and big data Другие технологии