Анализ данных

7 неочевидных вопросов перед работой с данными

Время прочтения: 4 мин.
  1. Что это такое?Данные собирались из одного или нескольких источников?

Данные из разных источников зачастую требуют серьезной предварительной обработки. Зачастую есть проблемы с форматированием, например разный формат дат, разный порядок наименования населенных пунктов и т.д.

  1. Я должен угадывать?Данные полны и понятны?

Мышление человека изначально предполагает контекстную составляющую. Эффект Контекста влияет на нашу повседневную жизнь во многих отношениях, таких как распознавание текстов, способность к обучению, память и распознавание объектов. Иными словами: вещи, которые очевидны для вас, неочевдины для тех, кто собирал данные, равно как и наоборот.

  1. Кто это сотворил?Кто и как работал с этими данными?

Казалось бы, все сказано в предыдущем пункте. Но речь идет не о неоднозначно трактуемых данных, которые могут быть неверно (для вас) собраны по разным причинам, а о возможности наличия уже агрегированных результатов в ваших данных.

  1. Это точно? Вы уверены? А если подумать?Насколько точны данные?

Возможно, вам придется проверить значения и посмотреть, имеют ли они смысл. Если какие-то данные сильно «выбиваются» из общего ряда, лучше перепроверить и, возможно изменить данные – выбросы и другие сомнительные значения могут оказать негативное влияние на модель.

  1. За что мне это?! Данные чистые?

Среди ваших данных могут встретиться: пропуски значений, текст там, где должны быть числа, дубли одних и тех же записей и, честно говоря вообще все что угодно. Вы можете рассмотреть возможность замены отсутствующих значений фиктивными значениями, такими как «н / п» для категориальных данных или 0 или средние значения для числовых значений.

  1. Зачем мне столько? Сколько данных у вас должно быть?

Это частый вопрос в машинном обучении. Вам нужно много обучающих данных, но их слишком много, слишком мало или достаточно? Сколько вам нужно, будет зависеть от вашего проекта, но обычно использование текстов, изображений и видео означает больше данных. Однако производительность модели также может влиять на объем необходимых данных: меньшего набора данных часто будет достаточно или нормально для рабочей демонстрации, но для того, чтобы модель находилась в производстве, требуется больше данных.

Не зная контекста того, для чего кто-то использует данные, вы должны стремиться к нескольким тысячам образцов, но не менее чем к нескольким сотням. В идеале, большинство задач моделирования должны иметь от десятков до сотен тысяч, а более сложные задачи глубокого обучения должны иметь миллионы.

  1. Что я вообще хотел? Какую задачу мы решаем?

Что вы надеетесь извлечь из этого набора данных? Какой столбец или строка наиболее важны? Какой метод вы собираетесь использовать? Для чего?

  • Регрессия  предсказывает числовое значение, и проблема, связанная с этим, может заключаться в прогнозировании.
  • Классификация  предсказывает метку, и проблемы включают двоичные задачи типа «да или нет», такие как «это изображение собаки или тортика», а также задачи множественной классификации, такие как «это хорошо, плохо или средне». При классификации правильные ответы должны быть помечены, чтобы ваш алгоритм мог учиться на них.
  • Проблемы кластеризации также предсказывают метку. Они группируют набор наблюдений в подмножества (кластеры), так что наблюдения одного и того же кластера имеют общие аспекты.

Попробуйте ответить на эти вопросы в следующий раз, когда соберетесь работать с очередной порцией предоставленных данных и, возможно, решение следующей задачи дастся вам проще.

Советуем почитать