Превью для статьи

Что, где, откуда: извлекаем реляционный датасет из JSON

Всем привет!
В публикации разберу, как извлечь реляционный датасет из JSON

Превью для статьи

В погоне за космическим Титаником

Хочу рассказать об опыте применения разведочного анализа (EDA) для улучшения точности ML-модели, на примере задачи из соревнования Spaceship Titanic

Превью для статьи

Быстрый старт в Apache Spark ML

В рамках публикации расскажу о первоначальной обработке данных датасета, а также об обучении модели градиентного бустинга. Покажу базовые трансформации и действия, необходимые для получения результата обучения модели, что послужит хорошим и быстрым стартом для понимания работы Spark ML

Превью для статьи

Нечеткое сравнение строк как метод обнаружения и исправления ошибок

Привет! Часто в работе аудитора приходится сталкиваться с задачей text mining, при выполнении которой приходится использовать множество инструментов, в том числе производить поиск ошибок в тексте и их исправление. Предлагаю разобраться с этой задачей.

Превью для статьи

Как выбрать формат хранения данных в экосистеме Hadoop

При формировании витрин данных и датасетов в экосистеме Hadoop одним из важных вопросов является выбор оптимального способа хранения данных в hdfs. В частности, в рамках данной публикации будет рассматриваться один из важных вопросов при создании витрины – выбор соответствующего формата файла для хранения.

Превью для статьи

Как реализовать поиск в таблице Vue.JS

Хотим поделиться, как просто можно сделать поиск по таблице во Vue.JS

Превью для статьи

Как оптимизировать размер памяти при обработке крупных файлов.

Доброе утро, друзья!
Расскажу о нескольких способах эффективного решения проблем с памятью при обработке крупных файлов.

Data News