Анализ данных, Кластеризация

Как разбить все данные по группам или признакам

Время прочтения: 3 мин.

Отвечаю: если вы непродвинутый пользователь, уделите 5 минут и вы узнаете:

  • что такое кластеризация (доступным языком),
  • как от Excel  перейти на DATA MINING,
  • что может «маленькая мышка»

Например, захотелось вам разбить все данные по группам, по нескольким признакам. Да так, чтобы было наглядно! Конечно, можно воспользоваться Visual Basic, который встроен в Excel, и написать простую надстройку. Но это долго, требует знаний алгоритма и языка программирования. Так можно и приуныть…

Но можно пойти другим путем!  Для начала поговорим о том, как можно поделить множество данных на группы. Эта процедура называется кластеризацией. Более подробно об этом вы сможете узнать из вот этого видео

Теперь возникает вопрос: а где мы кластеризацию проводить будем? Программ для работы с данными много, но одной из самых простых в освоении является Rapid Miner Studio. Пробной версии хватает на 2 недели, а интуитивно понятный интерфейс не будет вызывать сложности! Что бы познакомиться с её интерфейсом вы можете посмотреть вот это видео

Сам кластерный анализ в Rapid Miner Studio можно сделать в 10 кликов мышкой. Проще всего это можно сделать, перенеся данные на рабочую область, выбрать операторы Normalization и k-Means и все это соединить с выходом. В итоге у нас получится вот такая простая схемка как на рисунке 1

После отработки программы у нас появится возможность просмотреть графики и диаграммы, которые дадут нам представление о тех группах, что у нас имеются, их численности, распределении внутри группы и другие. Пример графика по численности группы приведен в рисунке 2.  

Более подробно о процессе кластеризации в Rapid Miner Studio вы сможете посмотреть вот на этом видео

Тут графически очень понятно объясняется, о том, где взять данные, где находятся операторы и как запустить программу. А главное, где искать итоговые графики!

Как видите, данные представлены в очень удобном виде. А главное, эту красоту мы получили, нажав мышкой меньше 10 раз!

Но что делать, если что-то пошло не так? Тогда на помощь нам приходит академия Rapid Miner! Перейти туда вы сможете по ссылке. Там есть специальный курс для новичков с подробными видео, где все действия качественно проиллюстрированы. Английский Вам не понадобиться!

А ещё, у этой чудной программы очень дружное и хорошее сообщество, которое живет по адресу. Там же можно найти и русскоязычный сегмент.

Rapid Miner очень простая в освоении и будет очень полезна тем, кто только начинает осваивать такие технологии как Data Mining и нейросети!

Сохраняйте, практикуйте, делитесь с коллегами!

Советуем почитать