SQL, Анализ данных

Обзор алгоритмов интеллектуального анализа данных Microsoft Analysis Services

Время прочтения: 6 мин.

Добрый день, коллеги!

В настоящее время существует определенный пул Business Intelligence и Data Science инструментов, которые позволяют исследовать и визуализировать данные.

Microsoft Analysis Services – часть системы управления базами данных Microsoft SQL Server. Включает в себя набор служб, связанных с бизнес-анализом и исследованием данных. Службы Analysis Services предоставляют алгоритмы для использования в решениях интеллектуального анализа данных.

Структуры используются для выборки источника данных. В качестве источника данных могут выступать OLAP кубы, базы данных и файловые таблицы.

Алгоритмы используются внутри контейнеров моделей Analysis Services, которые в свою очередь создаются на основе структур Analysis Services.

Для работы с алгоритмами нам потребуются:

  1. В качестве серверной части:
    • MS SQL Server с установленными службами Analysis Services
  2. В качестве клиентской части:
    • MS Excel с активированной надстройкой “Интеллектуальный анализ данных
    • MS Visual Studio с установленным Microsoft SQL Server Data Tools Business Intelligence
    • Microsoft SharePoint
  3. Дополнительно потребуется:
    • Доступ к Analysis Services с разрешением на создание файлов в разделе Analysis Services

            В MS Office 2013 и выше данные инструменты встроены в корпоративные версии MS Excel (достаточно активировать надстройку «Интеллектуальный анализ данных» в настройках MS Excel).

            В MS Office 2010 надстройку необходимо устанавливать отдельно ссылка.

  1. Подключение к службам Analysis Services.

            После активации надстройки в MS Excel появится вкладка «Интеллектуальный анализ данных».

            В MS Excel последовательно выбираем — Интеллектуальный анализ данных > Соединение > Создать.

Заполняем настройки подключения со службами Analysis Services, проверяем соединение и выбираем – ОК.

2. Создание структуры интеллектуального анализа.

В MS Excel последовательно выбираем — Интеллектуальный анализ данных > Дополнительно > Создать структуру интеллектуального анализа данных.

В Мастере задачи последовательно выбираем – Внешний источник данных > Имя источника данных.

Заполняем поле «Запрос» и выбираем «Далее».

3. Выбор типов данных.

В нашем случае Наименование должности (поле DOLJ) является дискретной величиной (Discrete), а размер выплаты (поле ZARP) непрерывной (Continuous).

Указываем типы данных и выбираем «Далее».

4. Выбор процента проверочных данных.

Процент проверочных данных устанавливает соотношение качества анализа от качества проверки.

Указываем процент проверочных данных и выбираем «Далее».

На этом создание структуры интеллектуального анализа завершается.

5. Добавление модели к структуре.

В MS Excel последовательно выбираем — Дополнительно > Добавить модель к структуре.

6. Алгоритм «Дерево принятия решений».

Analysis Services содержит несколько алгоритмов интеллектуального анализа. Выбираем «Алгоритм дерева принятия решений».

6.1 Выбор входных и прогнозируемых полей.

В нашем случае, в таблицу была добавлена зависимость выплат от должности. Поэтому входными данными является «Должность(DOLJ)», а прогнозируемыми «Зарплата (ZARP)» Устанавливаем соответствия столбцов таблицы с их назначением и выбираем «Далее».

6.2 Результат работы алгоритма – «Дерево принятия решений».

Каждый алгоритм интеллектуального анализа данных, выводит результаты в виде собственной схемы или графика.

На данной схеме слева направо отображены наиболее сильные из выявленных зависимостей.

Результат полностью удовлетворяет входным данным. При заполнении поля с выплатами действительно имелось правило, которое добавляло к выплатам для должностей с идентификаторами 13, 17, 15, … около 30%.

В качестве минуса стоит отметить, что алгоритм не может сгруппировать идентичные закономерности. В нашем случае должности 17,15 имели одинаковый добавочный процент.

7. Результат работы алгоритма – «Классификация».

Данный алгоритм предоставил наиболее полезное графическое представление данных. Присутствует корректная группировка данных и окно с вероятностями.

8. Результат работы алгоритма — «Оценка».

Данный алгоритм предоставил полезное графическое представление данных. Присутствует корректная группировка данных.

9. Результата работы алгоритма – «Кластеризация».

В исследование было включено только поле с выплатами, так как алгоритм поддерживает лишь непрерывные данные.

Данный алгоритм предоставил полезное графическое представление данных, что будет применимо для задач дискретизации непрерывных данных.

10. Результат работы алгоритма – «Прогноз».

Особенностью данного алгоритма является необходимость использования временных меток. В нашем случае используется дата транзакции «INDATE».

Результат работы алгоритма представлен в интерактивном окне, где можно варьировать соотношение исследуемого и прогнозируемого диапазона данных.

Для тестирования работы алгоритма по всему временному диапазону была добавлена постоянная зависимость, увеличивающая на 40% значение каждое 15-е число месяца. Как видно из графика, алгоритм сохранил данную закономерность.

Резюмируем

Алгоритмы интеллектуального анализа данных применимы и могут быть полезны в работе аналитика.

В качестве преимуществ отмечаем:

  • Интерактивный графический интерфейс и как следствие низкий порог входа.
  • Служба Microsoft Analysis Services не требует отдельной лицензии. Входит в дистрибутив MS SQL server.
  • В качестве клиента Microsoft Analysis Services могут выступать широко используемые в банке MS Excel, MS Sharepoint, MS Management Studio, MS Visual Studio.
  • Клиент-серверная архитектура Microsoft Analysis Services производит ресурсоемкие аналитические задачи на стороне сервера.

В качестве недостатков отмечаем:

  • Малое число моделей (алгоритмов).
  • Ограниченное число настроек алгоритмов.
  • Часть алгоритмов в качестве вывода результатов предоставляет лишь график без возможности экспорта табличных результатов.

Советуем почитать