Время прочтения: 6 мин.
Добрый день, коллеги!
В настоящее время существует определенный пул Business Intelligence и Data Science инструментов, которые позволяют исследовать и визуализировать данные.
Microsoft Analysis Services – часть системы управления базами данных Microsoft SQL Server. Включает в себя набор служб, связанных с бизнес-анализом и исследованием данных. Службы Analysis Services предоставляют алгоритмы для использования в решениях интеллектуального анализа данных.
Структуры используются для выборки источника данных. В качестве источника данных могут выступать OLAP кубы, базы данных и файловые таблицы.
Алгоритмы используются внутри контейнеров моделей Analysis Services, которые в свою очередь создаются на основе структур Analysis Services.
Для работы с алгоритмами нам потребуются:
- В качестве серверной части:
- MS SQL Server с установленными службами Analysis Services
- В качестве клиентской части:
- MS Excel с активированной надстройкой “Интеллектуальный анализ данных”
- MS Visual Studio с установленным Microsoft SQL Server Data Tools Business Intelligence
- Microsoft SharePoint
- Дополнительно потребуется:
- Доступ к Analysis Services с разрешением на создание файлов в разделе Analysis Services
В MS Office 2013 и выше данные инструменты встроены в корпоративные версии MS Excel (достаточно активировать надстройку «Интеллектуальный анализ данных» в настройках MS Excel).
В MS Office 2010 надстройку необходимо устанавливать отдельно ссылка.
- Подключение к службам Analysis Services.
После активации надстройки в MS Excel появится вкладка «Интеллектуальный анализ данных».
В MS Excel последовательно выбираем — Интеллектуальный анализ данных > Соединение > Создать.
Заполняем настройки подключения со службами Analysis Services, проверяем соединение и выбираем – ОК.
2. Создание структуры интеллектуального анализа.
В MS Excel последовательно выбираем — Интеллектуальный анализ данных > Дополнительно > Создать структуру интеллектуального анализа данных.
В Мастере задачи последовательно выбираем – Внешний источник данных > Имя источника данных.
Заполняем поле «Запрос» и выбираем «Далее».
3. Выбор типов данных.
В нашем случае Наименование должности (поле DOLJ) является дискретной величиной (Discrete), а размер выплаты (поле ZARP) непрерывной (Continuous).
Указываем типы данных и выбираем «Далее».
4. Выбор процента проверочных данных.
Процент проверочных данных устанавливает соотношение качества анализа от качества проверки.
Указываем процент проверочных данных и выбираем «Далее».
На этом создание структуры интеллектуального анализа завершается.
5. Добавление модели к структуре.
В MS Excel последовательно выбираем — Дополнительно > Добавить модель к структуре.
6. Алгоритм «Дерево принятия решений».
Analysis Services содержит несколько алгоритмов интеллектуального анализа. Выбираем «Алгоритм дерева принятия решений».
6.1 Выбор входных и прогнозируемых полей.
В нашем случае, в таблицу была добавлена зависимость выплат от должности. Поэтому входными данными является «Должность(DOLJ)», а прогнозируемыми «Зарплата (ZARP)» Устанавливаем соответствия столбцов таблицы с их назначением и выбираем «Далее».
6.2 Результат работы алгоритма – «Дерево принятия решений».
Каждый алгоритм интеллектуального анализа данных, выводит результаты в виде собственной схемы или графика.
На данной схеме слева направо отображены наиболее сильные из выявленных зависимостей.
Результат полностью удовлетворяет входным данным. При заполнении поля с выплатами действительно имелось правило, которое добавляло к выплатам для должностей с идентификаторами 13, 17, 15, … около 30%.
В качестве минуса стоит отметить, что алгоритм не может сгруппировать идентичные закономерности. В нашем случае должности 17,15 имели одинаковый добавочный процент.
7. Результат работы алгоритма – «Классификация».
Данный алгоритм предоставил наиболее полезное графическое представление данных. Присутствует корректная группировка данных и окно с вероятностями.
8. Результат работы алгоритма — «Оценка».
Данный алгоритм предоставил полезное графическое представление данных. Присутствует корректная группировка данных.
9. Результата работы алгоритма – «Кластеризация».
В исследование было включено только поле с выплатами, так как алгоритм поддерживает лишь непрерывные данные.
Данный алгоритм предоставил полезное графическое представление данных, что будет применимо для задач дискретизации непрерывных данных.
10. Результат работы алгоритма – «Прогноз».
Особенностью данного алгоритма является необходимость использования временных меток. В нашем случае используется дата транзакции «INDATE».
Результат работы алгоритма представлен в интерактивном окне, где можно варьировать соотношение исследуемого и прогнозируемого диапазона данных.
Для тестирования работы алгоритма по всему временному диапазону была добавлена постоянная зависимость, увеличивающая на 40% значение каждое 15-е число месяца. Как видно из графика, алгоритм сохранил данную закономерность.
Резюмируем
Алгоритмы интеллектуального анализа данных применимы и могут быть полезны в работе аналитика.
В качестве преимуществ отмечаем:
- Интерактивный графический интерфейс и как следствие низкий порог входа.
- Служба Microsoft Analysis Services не требует отдельной лицензии. Входит в дистрибутив MS SQL server.
- В качестве клиента Microsoft Analysis Services могут выступать широко используемые в банке MS Excel, MS Sharepoint, MS Management Studio, MS Visual Studio.
- Клиент-серверная архитектура Microsoft Analysis Services производит ресурсоемкие аналитические задачи на стороне сервера.
В качестве недостатков отмечаем:
- Малое число моделей (алгоритмов).
- Ограниченное число настроек алгоритмов.
- Часть алгоритмов в качестве вывода результатов предоставляет лишь график без возможности экспорта табличных результатов.