Меню

Архитектура взаимодействия SAP HANA с Hadoop

Технология Hadoop продолжает активно развиваться. В экосистеме Hadoop многие компании и организации разрабатывают новые методы и новые технологии, дополняющие основную инфраструктуру Hadoop и расширяющие ее функции.

И в этом отношении важной задачей является использование Hadoop в программном ландшафте SAP.

Архитектура взаимодействия HANA с Hadoop поддерживает традиционные для любого хранилища данных процессы, такие, как хранение данных, процедуры обмена и управления данными.

Так, SAP Data Services предоставляет полноценный набор средств интеграции данных, позволяющих реализовывать следующие задачи:

• получать доступ к данным любых типов – структурированным, частично структурированным и неструктурированным;

• загружать данные в любые целевые сегменты: Hadoop, хранилище данных или базу данных в памяти;

• перемещаться по источникам данных, расположенным на внутреннем ресурсе или в облаке;

• работать в пакетном режиме или в реальном времени.

SAP Data Services предоставляет собой средство разработки для моделирования данных и рабочих пространств. С помощью этих средств разработчики средств извлечения, преобразования и загрузки данных могут создавать и устанавливать последовательность шагов, необходимых для создания соответствующих функций. Средства SAP Data Services позволяют извлекать, загружать, разбирать, интегрировать, очищать и согласовывать данные в Hadoop. Программный код для модели MapReduce, выполняющий эти действия, генерируется автоматически.

Средства SAP Data Services интегрируются с Hadoop тремя основными способами:

• Таблицы базы данных Hive: продукты технологии SAP Data Services генерируют и выполняют инструкции HiveQI для запроса, выборки и загрузки данных в таблицы Hive.

• Распределенная файловая система Hadoop (HDFS) – средства технологии SAP Data Services могут работать с файлами операционной системы Linux самостоятельно или же с помощью сценариев Pig.

• Преобразование обработки текстовых данных – задания с источниками данных в файловой системе HDFS и алгоритмом преобразования текста выталкиваются на платформу Hadoop средствами SAP Data Services с помощью сценариев Pig. Анализ текста выполняется непосредственно в HDFS как задания модели MapReduce. Среди этих данных могут быть результаты анализа веб-журналов, опросов, поля содержимого, данные интернет-порталов и географических информационных систем.

SAP IQ поддерживает федеративные запросы для доступа к Hadoop. Эта поддержка включает:

• Федерации данных, в которых структуры файлов в файловой системе HDFS определены в SAP IQ и используются ею как собственные внешние таблицы;

• Федерации запросов, в которых запросы раздельно выполняются c помощью сценариев Hive на платформе Hadoop, а полученные результаты объединяются с результатами запросов, выполненных обычным образом в SAP IQ.

При федерации данные копируются из Hadoop в базу SAP Sybase IQ и анализ выполняется уже там. Соответственно при больших объемах данных этот процесс занимает больше времени, чем федерация запросов, которая возвращает результаты каждого отдельно выполненного запроса.

В качестве источников данных для Hadoop могут выступать

Если хотите прочитать статью полностью и оставить свои комментарии присоединяйтесь к sapland

У вас уже есть учетная запись?

Войти

Обсуждения Количество комментариев2

Комментарий от  

Павел Сидоров

  |  14 марта 2014, 21:06

К сожалению, картинка не кликабельна, а при имеющемся размере невозможно ничего на ней прочитать.

Комментарий от  

Вадим Табаков

  |  31 марта 2014, 21:29

К сожалению, картинка не кликабельна, а при имеющемся размере невозможно ничего на ней прочитать.

Павел, добавил картинку в более читабельном разрешении.