Комментарии по теме

«Архи­те­кту­ра вза­и­мо­де­йствия SAP HANA с Hadoop»
Вадим Табаков:
Павел, добавил картинку в более читабельном разрешении.
«Архи­те­кту­ра вза­и­мо­де­йствия SAP HANA с Hadoop»
Павел Сидоров:
К сожалению, картинка не кликабельна, а при имеющемся размере невозможно ничего на ней прочитать.

База знаний

Большие данные в SAP Leonardo*

*Оригинал (англ.): SAP Leonardo. Введение в интеллектуальное предприятие. Пьер Эразмус, Вивек Винаяк Рао, Амит Синха, Ганеш Вадавадиги. Издательство SAP PRESS. Глава 3. 2019.

Данные — это валюта современного цифрового предприятия. Для успешного перехода в цифровой формат компании важно уметь эффективно переносить, преобразовывать и интегрировать данные, а также повышать их качество. Причём важно уметь это делать с данными любого типа, из любого источника и с любой периодичностью. Чтобы получать из больших данных ценные сведения, требуется готовое распределённое вычислительное решение уровня предприятия.

Большие данные характеризуются высоким объёмом, скоростью и разнообразием. Под высоким объёмом подразумевается большое количество данных, измеряемое терабайтами и петабайтами. Высокая скорость относится к скорости создания данных, особенно это характерно для данных потоковой передачи из нескольких источников, например, с датчиков в Интернете вещей (IoT). Высокое разнообразие предполагает, что здесь можно выделить данные самых разных типов: структурированные, неструктурированные и полуструктурированные. Сейчас компании собирают данные по всем измерениям. В отличие от прошлого, когда большая часть данных имела транзакционный характер, реляционные базы данных не отвечают современным требованиям в реальности больших данных в вопросах хранения, обработки и использования данных.

ИТ-стратегия компании должна отражать современные технологические тенденции: сокращение объёмов и объединение разрозненных данных, управление облачными и гибридными стратегиями развёртывания, эффективное применение новых вариантов архитектуры данных (например, так называемых озёр неструктурированных данных) и обработка данных новых типов (например, пространственные и потоковые данные IoT).

В этой главе мы сначала рассмотрим общее понятие больших данных. Вы узнаете, что собой представляют большие данные и для чего они нужны. Далее мы познакомимся с инструментами и продуктами SAP, поддерживающими эту технологию, и изучим ряд примеров из разных отраслей и направлений бизнеса, важную роль в которых сыграли эти инструменты и продукты.

Что представляют собой большие данные (раздел 3.1)

Данные заняли центральное место во многих компаниях, особенно с наступлением эпохи больших данных и появлением новых источников данных: потоковая передача, социальные сети и другие типы неструктурированных данных. Мы по-прежнему можем пользоваться транзакционными базами данных при выполнении базовых бизнес-процессов, но новые источники занимают всё более важное место и проявляют себя абсолютно новыми способами. Универсальная структура данных — подход к созданию архитектуры и набор сервисов данных для предоставления непротиворечивых возможностей и сервисов для локальных и мультиоблачных сред, который помогает упростить управление интеграцией данных и реализовать переход компании в цифровой формат. Эта универсальная структура данных даёт ответы на вопросы, возникающие в процессе работы:

  • Нужно ли иметь различные специализированные базы данных для разных типов данных?
  • Должна ли каждая база данных работать в собственной среде?
  • Как избежать задержек в результате интеграции различных сред?

Такая архитектура также отвечает следующим требованиям.

  • Производительность

Инфраструктура, которая предоставляет данные с высокой скоростью для удовлетворения потребностей пользователей, эффективного выполнения процессов и решения бизнес-задач.

  • Свобода

По мере создания данных пользователями, системами (облачными и локальными) и всевозможными внешними сторонами необходимо обеспечить их свободное и неограниченное перемещение в потоках.

  • Модели данных

Вам потребуется моделировать данные для достижения определённых бизнес-целей. При работе с большими данными критическое значение приобретает обнаружение данных для выявления взаимосвязей и скрытых ценных сведений.

  • Независимость

Важно обеспечить возможность масштабирования. Доступные вычислительные мощности не должны ограничивать данные, а данные не должны ограничивать вычислительные мощности.

  • Низкое значение задержки

Несмотря на то, что данные создаются с беспрецедентной скоростью, чтобы обеспечить выполнение всех потребностей компании, данные должны быть доступны для включения в транзакции, автоматизированные процессы и аналитику сразу же после создания.

  • Управление

При обеспечении доступности данных и возможности их использования не следует пренебрегать их целостностью и безопасностью.

  • Беспрепятственное выполнение

Необходимо обеспечить полную совместимость и согласованность для объединения структурированных данных и новых источников данных, поскольку данные создаются без представления степени сложности различных типов данных.

Кроме того, с течением времени типичный ландшафт компании для управления данными развивается в соответствии с описанными ниже бизнес-потребностями.

  • Корпоративные хранилища данных

Обычно для поддержки всего предприятия используется одно хранилище данных. Эта потребность вырастает из необходимости обеспечить подключение процессов в транзакционных приложениях с последующей интеграцией транзакционных процессов с бизнес-аналитикой предприятия.

  • Информационные витрины

Инфо-витрины позволяют собирать данные из нескольких источников для оптимизации и поддержки бизнес-целей или бизнес-потребностей. Часто инфо-витрины проходят оптимизацию для того, чтобы оперативно предоставлять ответы на бизнес-вопросы для принятия решений о выполнении действий.

  • Озёра данных

Обычно так называют платформу больших данных (Hadoop или Spark), которая используется для хранения и изучения всех потоков необработанных данных IoT с разных датчиков в нескольких местоположениях внутри компании и за её пределами. Далее данные переносятся из озера в хранилище или инфо-витрину для организации и уточнения, чтобы их можно было применять в процессе принятия решений на всех уровнях организации.

Эти задачи выполняет решение SAP HANA Data Management Suite, которое позволяет собирать и объединять данные всех типов в реальном времени и на одной платформе. С помощью SAP HANA Data Management Suite можно остановить беспорядочное разрастание объёмов данных, выполнять мгновенный анализ данных и устранять неразрешимые бизнес-проблемы, в значительной мере упрощая путь компании к интеллектуальному предприятию. Как показано на Рис. 3.1, SAP HANA Data Management Suite предоставляет безопасные и управляемые корпоративные приложения и средства аналитики в открытом гибридном пакете решений с несколькими облаками, с помощью которых вы сможете гармонизировать достоверные данные и эффективно организовать их в едином ландшафте.

Рис. 3.1 Пакет решений для управления данными на базе SAP HANA для интеллектуальных предприятий

Перевод надписей на картинке:

Решение SAP HANA Data Management Suite обеспечивает сквозное управление данными от регистрации, получения и обработки до гармонизации, вычисления и потребления. В рамках этих процессов SAP HANA Data Management Suite может выступать как фабрика принятия решений, очищая необработанные данные и преобразуя их в доверительный формат для последующего использования в приложениях, средствах аналитики, машинном обучении и других функциях. Одновременно это платформа разработки для приложений, которым требуется получать результаты аналитики по транзакциям в реальном времени, для управления данными, их обезличивания и направления в потоках по защищённым каналам для дополнительного уточнения в ландшафте. С помощью этой платформы можно выполнять моделирование по всем направлениям бизнеса, обрабатывать различные типы данных и технологических архитектур, выполнять анализ данных в оперативной памяти с применением нескольких моделей, а также обрабатывать данные в распределённой вычислительной структуре.

Как показано на Рис. 3.2, SAP HANA, SAP Data Hub, и SAP Cloud Platform Big Data Services являются ключевыми инструментами SAP HANA Data Management Suite для работы с большими данными. В следующих разделах мы познакомимся с ними поближе.

Рис. 3.2 Пакет решений для управления данными на базе SAP HANA

Перевод надписей на картинке:

Универсальная платформа для управления данными (раздел 3.2)

SAP HANA, как показано на Рис. 3.3, предоставляет архитектуру обработки данных, разработанную специально для решения задач вывода данных в соответствии с современными требованиями и стандартами, что позволяет компаниям с лёгкостью получать все преимущества применения новых технологий. Вы можете выполнять аналитику по актуальным транзакциям в режиме реального времени без тиражирования данных виртуально или физически, подключаясь ко всем данным из любого источника. По сути, SAP HANA делает следующий шаг и предоставляет гибридную платформу следующего поколения для транзакционной и аналитической обработки (HTAP) с уникальной способностью не только выполнять задачи операционной аналитики с неструктурированными данными (например, в бизнес-операциях), но и применять расширенные возможности аналитической обработки: прогнозное машинное обучение или обработку структурированных и неструктурированных данных на естественном языке (сюда относятся графические данные, пространственные данные, текст, хранилища документов, средства поиска и потоки данных в реальном времени).

Вы хотели бы увидеть полную версию статьи?

Если вы являетесь подписчиком журнала SAP Professional Journal, пожалуйста, авторизируйтесь на сайте.

Если вы хотите подписаться на SAP Professional Journal, пожалуйста, обратитесь в редакцию или сделайте заказ на сайте.

Правила получения тестового доступа к статьям SAP Professional Journal


Любое воспроизведение запрещено.
Копирайт © «Издательство ООО «Эксперт РП» Copyright © 2010 Wellesley Information Services. All rights reserved.