Что это такое?Данные собирались из одного или нескольких источников?
Данные из разных источников зачастую требуют серьезной предварительной обработки. Зачастую есть проблемы с форматированием, например разный формат дат, разный порядок наименования населенных пунктов и т.д.

Я должен угадывать?Данные полны и понятны?
Мышление человека изначально предполагает контекстную составляющую. Эффект Контекста влияет на нашу повседневную жизнь во многих отношениях, таких как распознавание текстов, способность к обучению, память и распознавание объектов. Иными словами: вещи, которые очевидны для вас, неочевдины для тех, кто собирал данные, равно как и наоборот.

Кто это сотворил?Кто и как работал с этими данными?
Казалось бы, все сказано в предыдущем пункте. Но речь идет не о неоднозначно трактуемых данных, которые могут быть неверно (для вас) собраны по разным причинам, а о возможности наличия уже агрегированных результатов в ваших данных.

Это точно? Вы уверены? А если подумать?Насколько точны данные?
Возможно, вам придется проверить значения и посмотреть, имеют ли они смысл. Если какие-то данные сильно «выбиваются» из общего ряда, лучше перепроверить и, возможно изменить данные – выбросы и другие сомнительные значения могут оказать негативное влияние на модель.

За что мне это?!Данные чистые?
Среди ваших данных могут встретиться: пропуски значений, текст там, где должны быть числа, дубли одних и тех же записей и, честно говоря вообще все что угодно. Вы можете рассмотреть возможность замены отсутствующих значений фиктивными значениями, такими как «н / п» для категориальных данных или 0 или средние значения для числовых значений.

Зачем мне столько?Сколько данных у вас должно быть?
Это частый вопрос в машинном обучении. Вам нужно много обучающих данных, но их слишком много, слишком мало или достаточно? Сколько вам нужно, будет зависеть от вашего проекта, но обычно использование текстов, изображений и видео означает больше данных. Однако производительность модели также может влиять на объем необходимых данных: меньшего набора данных часто будет достаточно или нормально для рабочей демонстрации, но для того, чтобы модель находилась в производстве, требуется больше данных.
Не зная контекста того, для чего кто-то использует данные, вы должны стремиться к нескольким тысячам образцов, но не менее чем к нескольким сотням. В идеале, большинство задач моделирования должны иметь от десятков до сотен тысяч, а более сложные задачи глубокого обучения должны иметь миллионы.

Что я вообще хотел?Какую задачу мы решаем?
Что вы надеетесь извлечь из этого набора данных? Какой столбец или строка наиболее важны? Какой метод вы собираетесь использовать? Для чего?
- Регрессия предсказывает числовое значение, и проблема, связанная с этим, может заключаться в прогнозировании.
- Классификация предсказывает метку, и проблемы включают двоичные задачи типа «да или нет», такие как «это изображение собаки или тортика», а также задачи множественной классификации, такие как «это хорошо, плохо или средне». При классификации правильные ответы должны быть помечены, чтобы ваш алгоритм мог учиться на них.
- Проблемы кластеризации также предсказывают метку. Они группируют набор наблюдений в подмножества (кластеры), так что наблюдения одного и того же кластера имеют общие аспекты.
Попробуйте ответить на эти вопросы в следующий раз, когда соберетесь работать с очередной порцией предоставленных данных и, возможно, решение следующей задачи дастся вам проще.