Меню

Пример построения модели предсказания курса рубля к доллару с использованием инструментов предсказательной аналитики SAP

|

Пример использования SAP Predictive Analytics для построения модели предсказания курса рубля к доллару.

Оглавление

Вместо введения

Постановка задачи

Источники данных

Подготовка данных

Отбор признаков

Реализация в Data Manager

Построение модели

Вместо заключения

Аннотация: Пример использования SAP Predictive Analytics для построения модели предсказания курса рубля к доллару

Целевая аудитория: Консультанты по хранилищам данных, консультанты по предиктивной аналитике, функциональные консультанты.

Вместо введения

3 октября 2017 года Gartner обновил свое видение технологических трендов будущего и опубликовал прогноз на 2018 год.  Технологии искусственного интеллекта продолжают быть самыми перспективными и востребованными. Область математики, связанная с оптимизацией и предсказаниями, перестала быть просто «вещью в себе», и начала приносить реальную пользу людям.

Несколько лет назад аббревиатура AI (artificial intelligence – искусственный интеллект) была чем-то непонятным для большинства. А сегодня никого не удивить приложениями с элементами искусственного интеллекта. Технологии, использовавшиеся для оптимизации производственных процессов, оценки кредитных заемщиков, предсказания поломок оборудования, оптимизации работы транспортных компаний стали доступными для массового рынка. Для обычных потребителей.

Машинное обучение – это подраздел AI. Одним из определений машинного обучения может быть: «класс методов искусственного интеллекта, которые позволяют улучшить результаты работы компьютеров путем обучения на известных данных», — Berkeley. Изучая то, что происходило в прошлом, можно предсказать будущее. Люди, процессы ведут себя похоже под воздействием повторяющихся факторов. Выделяя, изучая эти факторы, становится возможным строить прогнозы. То, что раньше делали аналитики, теперь делают компьютеры. Если раньше аналитик мог проверить десяток гипотез о взаимосвязи явлений, то использование методов машинного обучения позволяет оперировать сотнями тысяч величин и вылавливать из пула данных закономерности для анализа.

Рост процессорных мощностей, удешевление памяти, новые быстрые алгоритмы векторных вычислений позволили перенести обработку информации с серверов прямо в устройство, которое пользователь носит в кармане. Уже никого не удивляют приложения с функцией распознавания голоса и лиц.

Теперь диалоги голосовых помощников вызывают улыбку, но не удивление. За несколько лет подобные технологии стали ближе к человеку, затронули многие сферы жизни.

Рис. 1 Кадр из видеоролика про общение голосовых помощников

Прогнозы стали доступнее и точнее. В этом году Яндекс улучшил прогноз погоды, использовав нейронные сети и наложив карту движения облаков. Теперь прогноз стал доступен с точностью до городского квартала и до 10-минутного интервала, что позволяет перемещаться по городу без зонта в летний день с частыми ливнями. Новый сервис быстро стал частью новой информационной культуры. Стал причиной появления новых мемов и шуток.

Рис. 2 Форма дождевого облака – стимул для творчества

Иногда прогнозы ошибаются, но все чаще сбываются. Люди привыкают строить свои планы с учетом прогнозной информации. Простые массовые технологии делают жизнь чуть удобнее.

Торговля на бирже уже превратилась из соревнования трейдеров в соревнование компьютеров.  2 июля 2015 года CME Group закрыла больше половины биржевых площадок с многолетней историей в Нью-Йорке и Чикаго. Теперь торговля соевыми бобами, свининой, кукурузой и множеством других товаров будет выполняться только через компьютеры без физического присутствия трейдеров на бирже.

Рис. 3 Часть биржевых площадок уже осталась в прошлом (фото MANUEL MARTINEZ)

Gartner также вводит понятие «The Intelligent Digital Mesh» - цифровая интеллектуальная сеть, которая объединяет людей, устройства, контент и услуги. Синергия цифровых моделей, бизнес-платформ и интеллектуальных услуг для поддержки цифрового бизнеса. Элементы AI проникают во множество технологий и позволяют создавать более динамичные, гибкие и потенциально автономные системы.

Сейчас лаборатории технологий машинного обучения и технологий искусственного интеллекта появились практически у всех игроков на рынке.

Компания SAP сфокусировалась на машинном обучении, обработке больших данных и развитии интернета вещей. Это три важнейших технологических направления, которые компания развивает в своих решениях. SAP сфокусировалась не только на развитии инструментов, но и на применении этих технологий на практике. Наличие большого числа клиентов, автоматизировавших свои бизнес-процесса на продуктах SAP, позволяет анализировать клиентские потребности комплексно, предлагать новые подходы в использовании клиентских данных для увеличения эффективности бизнес-процессов.

Постановка задачи

Давайте посмотрим, как выглядит анализ данных с использованием инструмента предиктивной аналитики от SAP.

Попробуем применить настольную версию SAP Predictive Analytics применительно для анализа курса рубля по отношению к доллару. Попытки такого анализа делались неоднократно и с использованием различного инструментария. Но это не мешает повторить анализ еще раз на новом инструментарии с целью продемонстрировать возможности ПО.

Источники данных

В качестве источника данных для моделирования используем данные Финам по инструменту USDRUB_TOM. Котировки этого инструмента показывают курс валютной пары RUBUSD с «поставкой на завтра». Поставщик информации Finam.

Загруженные котировки имеют такой вид:

Рис. 4 Данные торговых котировок. Информация загружена с сайта Финам

Данные имеют 15-минутную гранулярность. Open, High, Low, Close, соответственно цена начала 15-минутного интервала, максимальная цена за промежуток времени, минимальная цена и цена закрытия. Volume – объем торгов.

Данные для моделирования загружены за год и имеют более 14 тыс. строк.

Подготовка данных

Можно просто загрузить временной ряд в инструмент анализа данных. Но без предобработки данных полученная модель будет невысокого качества. При подготовке данных необходимо выполнение двух этапов обработки данных. Data Engineering – сбор, понимание, очистка и первоначальная обработка данных. Feature Engineering – этап формирования описательных признаков к данным, описывающих различные аспекты поведения объекта, модель которого строится.  С точки зрения методологии CRISP-DM эти этапы аналогичны Data Understanding и Data Preparation.

Рис. 5 Шаги методологии CRISP-DM с возможными направлениями перехода между этапами

Визуализация информации о котировках имеет форму коротких штрихов, размер и положение которых отражает то, как двигалась цена за указанный промежуток времени.

Рис. 6 Так выглядит визуализация ценового ряда (верхний график). Красные линии – экспоненциальное сглаживание. Другие три графика – отображают изменение различных индикаторов технического анализа

Что будем предсказывать? Ценовой ряд содержит много шума. Для того, чтобы увидеть достаточно сильное изменение цены, необходимо подождать несколько часов.  Поэтому предсказание того, куда двинется цена в следующие 15 минут, имеет мало смысла. Полезный сигнал утонет в шуме. Что же делать?

Специалисты по техническому анализу придумали индикатор ZigZag. Он показывает то, как надо было торговать, чтобы получить максимальную прибыль. Это похоже на Грааль, но для того, чтобы его рассчитать, необходимо знать будущее изменение цены. Выглядит он примерно так:

Рис. 7 Индикатор ZigZag. Линия проводится между крайними точками изменения цен

Хотя с точки зрения торговли ZigZag бесполезен, но он может дать информацию о том, как надо было торговать в прошлом. Также он используется для генерации целевого ряда. Если цена росла, то значение целевой функции в этот отрезок времени принимает 1, если снижалась, то 0. В результате получается разметка для временного ряда цен.

Дополнительно к цене можно вычислить набор значений индикаторов технического анализа. К примеру, простое скользящее среднее SMA14 усредняет цену последних 14-ти отсчетов. И отношение текущей цены к скользящему среднему показывает то, выше или ниже находится текущая цена в отношении средних 14-ти отсчетов.

Детальное описание различных индикаторов оставим за рамками этой статьи – это отдельная предметная область. Для более детального погружения в эту тему можно начать отсюда

Если обобщить, то индикаторы Технического анализа – это цифровые фильтры, накладываемые на временной ряд. Вычисление значений индикаторов технического анализа для ряда цен рубля выполнено при помощи языка R, где присутствует библиотека для расчета индикаторов технического анализа. Кроме того, аналогичную информацию позволяют получить платформы для проведения технического анализа. Процесс расчета значений индикаторов также опустим. Детально описание этого процесса можно найти в этой статье.

В результате подготовки и обработки получен следующий набор значений индикаторов технического анализа.

Таблица 1 Перечень индикаторов технического анализа, рассчитанных для задачи предсказания валютного курса

Пусть вас не пугает цифра в 62 рассчитанные величины. В реальных задачах автоматически могут генерироваться сотни и даже тысячи признаков. Для современных методов машинного обучения их число становится не важным. Для каждого признака автоматически рассчитывается значимость – достоверность того, что изменение величины влияет на прогноз целевой переменной.

Если хотите прочитать статью полностью и оставить свои комментарии присоединяйтесь к sapland

У вас уже есть учетная запись?

Войти