亚马逊云_免费的虚拟主机_0元

时间:2022-05-11 16:40       来源: 微辰云

亚马逊云_免费的虚拟主机_0元

SAP Hana Vora 1.3上周发布。它比上一个版本有一些重大改进。您可以在这里阅读所有这些改进。我想更详细地介绍一下这些功能之一—引入专门的分析引擎

Hadoop的一个关键好处是能够存储任何类型的数据

结构化、半结构化和非结构化—在您的数据湖中。例如,这意味着您可以将从物联网应用程序流式传输的时间序列数据与web日志、从面向客户的网站和应用程序收集的clickstream数据以及用户配置文件一起存储,从您的移动和网络应用程序请求和使用数据。

为什么收集这些数据?有几个原因。在某些情况下,通常需要在需要遵守法规和法律要求的情况下保留这些数据,在其他情况下,收集这些数据是为了特定的目的(例如机器学习或安全跟踪),在其他许多情况下,收集这些数据是为了一些未知的未来目的—企业选择存储这些数据,直到他们能够找出如何从中提取价值为止。当需要根据法律要求实际查询数据时,或者只是探索数据以寻找趋势、解决问题、测试新算法或以其他方式尝试时,就会出现问题从it中获取一些价值。企业面临着巨大的it投资和学习曲线,以便能够分析每种类型的数据。在许多情况下,执行此分析所需的技术需要单独的硬件、不同的(有时相互冲突的)库和服务集来安装和配置,并且支持不同的操作系统版本。所有这些都使it团队从基础设施的角度进行设置和管理成为一场噩梦。即使使用云服务,所需的不同客户端工具和编程语言也会给您的开发团队带来许多新的、通常意义重大的学习曲线。

这就是新的Vora分析引擎出现了。Vora 1.3的一个主要新特性是,引入了不同的数据分析引擎,可以扩展Vora可以接收和分析的数据湖中的数据范围,无需成倍增加IT团队的管理要求或开发人员的编程知识。所有新引擎都作为Vora服务运行,可以部署到现有的Hadoop和Spark基础设施中,所有引擎都可以通过最常见的数据查询语言之一SQL访问。

此外,需要注意的是,所有引擎都是分布式的。您可以在任意多个节点上运行引擎,以提供加载和分析数据所需的资源,并定义您希望在多个节点上划分数据的方式这些节点。Vora事务协调器提供分布式查询处理功能,以确保查询到达正确的节点,并从您的查询返回完整的结果集。

与新引擎相关的Vora基本架构如下:

简而言之,将要使用的引擎服务部署到集群中的节点,并通过与现有内存中关系引擎相同的Vora访问层访问它们。Vora分布式处理层负责路由查询,收集结果并将其发送回客户端。

我们在此版本中引入了4个新引擎。

时间序列引擎

时间序列引擎为时间序列数据提供特定的处理和功能,时间序列数据是按固定时间间隔进行的任何测量。该引擎在内存中提供了重要的数据压缩,即使时间间隔不必等距(以完全相同的时间间隔进行),这意味着您通常可以分析比预期多得多的原始时间序列数据。此外,时间序列引擎还提供专门的功能来检查数据中的相关性和趋势,用于填充或外推序列、组和计数值,甚至更改时间序列测量粒度的近似值。

要使用时间序列引擎,请使用Vora管理器服务将其部署到群集中的一个或多个节点。一旦部署,行业大数据分析,您可以通过您最喜欢的开发工具使用SQL来访问它,以创建分区和定义时间序列表(https://help.sap.com/hana\u vora),但下面是一个示例,使用预定义的分区规则和显式声明序列定义

创建后,您可以使用标准SQL和我们提供的特定于时间序列的函数自由访问表,但是时间序列引擎目前还没有完全集成到Spark SQL中,因此要执行您的语句,云 服务器,您必须将其作为"原始"数据源进行访问。这意味着您必须将针对时间序列引擎执行的任何语句括在后引号(`,ascii 0x60)中。例如,这是您可能在spark shell中发布的select语句。

图形引擎

图形引擎提供分析功能,用于检查和分析实体之间的关系。图形分析中使用的数据类型示例包括网络拓扑、社交网络和知识图。典型的图形分析功能graph engine提供的数据包括一个节点的度(有多少个连接)、两个节点之间的距离(最短)以及两个节点是否连接。

与时间序列引擎类似,淘客公众号,您将graph engine服务部署到集群中的一个或多个节点,然后使用SQL访问它。例如,以下是如何创建表(有关语法的详细信息,请参阅Vora开发人员指南):

与时间序列一样,图形引擎没有完全集成到Spark SQL中,因此必须使用"原始"SQL语法进行访问。此外,在Vora 1.3中,为了使图形引擎能够加载图形数据,它必须以JSG格式提供(JSG是一种常见的基于JSON的半结构化文件格式,用于描述图形数据)。下面是一个可能从spark shell执行的示例查询:

文档存储引擎