巴克莱银行亦在运行查询的计算节点与Teradata数据存储库之间采用Alluxio软件,从而将原本需要数小时的Spark任务加速至仅需要数秒。

参考文献:

来源:ZDNet存储频道(编译)

图 4. Alluxio

转载自:ZD至顶网 作者:孙斌

图 2. Kyligence Analytics Platform

FusionStorage
则属于华为公司旗下的分布式软件定义存储系统。其最新FusionStorage
6.0支持分布式块、文件与对象存储,同时可对数据进行分类、加密与重复数据删除。

从上图可以看出,本地 HDFS 在 5 个场景中,有 4
个场景的性能是最佳的。Azure Blob Store
的执行时间在所有场景中是最长的。Alluxio 的性能介于 HDFS 和 Blob Store
之间,但与 HDFS 非常接近。平均而言,与直接读取 Azure Blob Store
相比,Alluxio 可助力 KAP 提升 3 至 4 倍的性能。

听起来确实很有搞头。我们认为华为公司及其物联网/云战略确实能够与Alluxio实现良好配合。感兴趣的朋友亦可点击此处与此处分别查看Alluxio项目及其演示材料。

在本地部署的集群中,HDFS 是 Hadoop 和 Spark
最广泛采用的文件系统。由于数据存储在本地磁盘,且操作系统会对文件块做缓存,因此
HDFS 的访问性能很出色;另外,HDFS的文件副本默认为
3,提供了相当高的可靠性。

Alluxio公司的软件产品是一套以内存为中心的虚拟分布式存储系统。其功能相当于为HDFS节点集合等远程存储系统提供一套本地缓存。其基于本地节点集群运行,而各本地节点则供运行有大数据分析与查询任务的计算节点进行访问。

云端面临的挑战

Alluxio此前曾名为Tachyon Nexus,是一家由Andreessen
Horowitz资助的初创企业。

编辑:Sammi

澳门新葡亰游戏网址 1

图 5. 采用 Alluxio 后的 KAP

Alluxio支持多种不同底层(远程)存储系统,具体包括HDFS、Gluster、S3、OpenStack、GCS、NFS、OrangeFS、IBm
Spectrum Scake、Ceph、Isilon等等。

澳门新葡亰游戏网址,Kyligence 公司 [1] 成立于 2016
年,是一家专注于大数据分析领域的科技公司。 Kyligence 的产品基于 Apache
Kylin 的开源技术。

百度公司在Alluxio的帮助下将Spark查询速度提升了30倍。原本需要15分钟才能完成的批量查询如今不到30秒即可搞定,而且一套1000用户Alluxio集群能够提供超过50
TB内存空间。

图 1. Apache Kylin 架构

澳门新葡亰游戏网址 2

Alluxio 可以通过使用其透明的命名和挂载
API,跨不同存储系统有效管理数据。采用 Alluxio 后,KAP
可以在云端,在性能、成本和管理之间实现良好的平衡。

澳门新葡亰游戏网址 3

在大数据生态系统中,Alluxio 介于计算框架或任务(如 Apache Spark、Apache
MapReduce、Apache HBase、Apache Hive 或 Apache
Flink)与各种存储系统(如Amazon S3、Google Cloud Storage、OpenStack
Swift、GlusterFS、HDFS、MaprFS、Ceph、NFS 和 Alibaba OSS)之间。Alluxio
显著提升了大数据生态系统的性能。Alluxio 与 Hadoop
兼容。现有数据分析应用程序,如 Spark 和 MapReduce
程序,可以不修改任何代码,直接在 Alluxio 上运行。

该软件提供:

总结

华为Alluxio

图 9. WASB vs HDFS vs Alluxio

澳门新葡亰游戏网址 4

样例查询如下:

华为公司近日宣布将利用自家FusionStorage产品与Alluxio开源软件实现大数据分析加速;此举相信能够为令人昏昏欲睡的缓慢数据分析流程带来一股新风。

Apache Kylin [2] 是一个开源 OLAP 引擎,可为 Hadoop 上的 PB
级数据场景提供交互式分析(Apache Hadoop
是对大型数据集进行分布式存储和处理的开源软件框架)。Apache Kylin 使用
Hadoop 的并行计算技术,将超大数据集构建到 OLAP Cube 中,通过 ANSI-SQL
查询接口提供亚秒级低延迟响应。

  • 配合自动数据放置的分层式存储机制(包括内存、闪存与磁盘)。

  • 配合透明化命名机制的单一命名空间。

  • 可集成原生S3、谷歌Cloud
    Storage、OpenStack Swift、阿里巴巴OSS、微软Azure
    Blob等存储方案。

  • Fuse Connector,采用键-值接口。

  • 一条命令即可完成集群部署。

  • 具备指标报告功能。

自上世纪以来,联机分析处理 (OLAP) 技术已被企业广泛采用;企业运用 OLAP
分析其业务数据,生成报表,从而帮助业务人员制定商务决策。在当今的大数据时代,OLAP
越来越重要,且面临诸多挑战;而云计算使这种情况更加复杂化。本文介绍了大数据智能科技公司
Kyligence 如何在云上利用 Alluxio 提升其OLAP引擎的性能。

尽管云存储服务的扩展性和持续性好于
HDFS,但其性能受到所租用的虚拟机网络带宽的限制。此外,S3
等云存储服务不是一个真正意义上的文件系统;其元数据操作如 ‘list’
会比较耗时,’rename’ 操作实际上是
‘copy’,对于大数据场景来说难以接受。所有这些都使其整体性能差于 HDFS。

图 6. 在 S3上运行SSB

为了克服云端的存储限制问题,我们决定在存储服务上为 KyStorage
添加一个缓存层,而Alluxio很好地满足了这个需求。

作者:史少锋 (shaofeng@kyligence.io),Kyligence 高级架构师

借助 Alluxio,KAP不需要进行代码或架构更改。将 Alluxio 安装在 Spark
运行的每个节点上,将 S3 存储桶或 Azure Blob Store
映射为Alluxio的底层文件系统。然后,配置 KAP 通过 Alluxio 来读取S3 或
Blob Store 中的 KyStorage 文件。首次加载时会有点慢,因为 Alluxio
需要将数据读取到内存中。但此后的访问速度会快很多,因为 Alluxio
会智能地从 Spark executor 运行的本地工作机中返回数据块。

[3]Alluxio

在对比所有查询的平均查询延迟后,我们得到以下结果:

网站地图xml地图