格子作文网,小学生作文,初中作文,高中作文,优秀作文大全!

登录 注册 手机版 作文库 专题

时间:2021-06-12 小学六年级 话题 稿费: 0 阅读:103

2020年将与大数据相关的项目清单升级为ApacheTLP9cn

原始标题:将在2020年升级到ApacheTLP的大数据相关项目的清单

在过去的一年中,许多Apache孵化项目已成功地升级为顶级项目(顶级项目,简称TLP)。在这里,我将向您提供与大数据相关的项目的清单,这些项目将在2020年升级到ApacheTLP。到2020年,总共有四个与大数据相关的项目将成功地升级为顶级项目,主要是ApacheShardingSphere?,Apache此处按毕业顺序介绍了Hudi?,ApacheIceberg?和ApacheIoTDB?。

对于过去几年已逐步过渡到TLP的大数据项目,请参阅和。

ApacheShardingSphere:开源分布式数据库中间件解决方案的生态系统

ApacheShardingSphere是开源分布式数据库中间件解决方案的生态系统。它由JDBC,代理和Sidecar(已计划)组成,这三种产品彼此独立,但可以混合在一起部署。它们都提供标准化的数据分片,分布式事务和数据库治理功能,并且可以应用于各种多样化的应用程序场景,例如Java同构,异构语言和云原生。其体系结构如下:

ApacheShardingSphere已定位因为关系数据库中间件旨在在分布式方案中充分合理地利用关系数据库的计算和存储功能,而不是实现全新的关系数据库。它通过关注不变来把握事物的本质。关系数据库今天仍然占据着巨大的市场,并且是每个公司核心业务的基石。将来将很难动摇。在这一阶段,我们将更多地关注原始基础上的增长,而不是颠覆。

ApacheShardingSphere是由JD.com领导的项目,由多家公司贡献。这是JDGroup进入ApacheFoundation的第一个开源项目,也是ApacheFoundation的第一个开源项目。分布式数据库中间件项目。该项目于2018年11月进入Apache孵化器,并于2020年4月16日成为Apache软件基金会的首要项目[1]。有关ApacheShardingSphere的更多信息,请访问官方网站:https://shardingsphere.apache.org/。

ApacheIceberg:一种用于跟踪超大表格的数据湖解决方案

ApacheIceberg最初是由Netflix设计和开发的,用于解决耗时大量的分区列表,以及元数据和HDFS数据一种轻量级的数据湖解决方案,专为诸如不一致之类的问题而设计。这是一种用于跟踪超大型表的新格式。它是专门为对象存储(例如S3)而设计的。其核心思想是跟踪时间轴上表中的所有更改。Iceberg中一个更重要的概念是快照。快照代表完整的表数据文件集。每个更新操作都会生成一个新的快照。

ApacheIceberg主要具有以下功能:

优化数据存储过程:Iceberg提供ACID事务处理功能,可以在不影响当前数据处理任务的情况下看到上游数据写入,从而大大简化了ETL;Iceberg提供upsert并合并为功能,可以大大减少数据存储延迟;支持更多分析引擎:出色的内核抽象使其不受特定计算引擎的束缚。目前,Iceberg支持的计算引擎包括Spark,Flink,Presto和Hive。统一的数据存储和灵活的文件组织:提供基于流的增量计算模型和基于批处理的全面计算模型。批处理和流任务可以使用相同的存储模型,并且数据不再隔离。Iceberg支持隐藏分区和分区演进,这有助于企业更新数据分区策略。支持存储格式,例如Parquet,Avro和ORC。增量读取处理能力:Iceberg支持以流方式读取增量数据,并支持StructedStreaming和FlinktableSource。

ApacheIceberg于2018年11月16日进入Apache孵化器,并将从20号顶级Apache项目成功毕业。奇怪的是,我还没有看到Apache正式宣布它是一个顶级项目。本文主要指:https://incubator.apache.org/projects/iceberg.html和https://incubator.apache.org/projects/iceberg.html。

有关ApacheIceberg的更多详细信息,请访问其官方网站:https://iceberg.apache.org/

ApacheHudi:大数据增量处理框架

ApacheHudi(HadoopUpsertDeleteandIncremental)是Uber,目的是解决需要在大数据生态系统中插入更新和增量消耗原语的摄取管道和ETL管道效率低下的问题。它是为分析和扫描而优化的数据存储抽象,可以在几分钟之内将更改应用于HDFS中的数据集,并支持多个增量处理系统来处理数据。通过自定义InputFormat与当前Hadoop生态系统(包括ApacheHive,ApacheParquet,Presto和ApacheSpark)的集成使该框架对最终用户无缝。

Hudi的设计目标是快速,逐步地更新HDFS上的数据集。它提供了两种更新数据的方式:写时复制和读时合并。写入时复制模式是在更新数据时,我们需要通过索引获取更新数据中涉及的文件,然后读取数据并合并更新的数据。这种方式更新数据比较简单,但是当涉及的数据更新时,当它比较大时,效率很低;“读取时合并”是将更新写入一个单独的新文件,然后我们可以选择将更新后的数据与原始数据同步或异步合并(可以称为合并),因为更新后的文件仅在时间,因此此模式的更新速度会更快。

借助Hudi,我们可以实时收集MySQL,HBase和Cassandra中的增量数据并编写在Hudi中,Presto,Sp炒股秘籍ark和Hive可以快速读取这些增量更新的数据,如下所示:

ApacheHudi项目的开发始于2016年。当时,Uber的内部代号为Hoodie。它于2017年开源,并于2019年1月进入Apache孵化器。到2020年,它于6月4日正式成为顶级项目[2]。

有关ApacheHudi的更多信息,请参阅过去的MemoryBigData的“”和“”介绍以及ApacheHudi的正式文档:http://hudi.apache.org/

ApacheIoTDB:物联网数据库

ApacheIoTDB(物联网数据库)是一个集成了IoT时间序列数据的收集,存储,管理和分析的软件系统。ApacheIoTDB采用高性能,功能丰富的轻量级架构,并与ApacheHadoop,Spark和Flink等进行了深度集成,可以满足工业中海量数据存储,高速数据读取和复杂数据分析的需求。物联网领域。

ApacheIoTDB套件由几个组件组成,它们共同构成了一系列功能,例如“数据收集-数据写入-数据存储-数据查询-数据可视化-数据分析”。其体系结构如下:

用户可以访问数据从设备上的传感器收集的时间序列数据中,将系统状态数据(例如服务器负载和CPU内存),消息队列中的时间序列数据,应用程序的时间序列数据或其他数据库中的时间序列数据导入本地或远程物联网数据库用户还可以将以上数据直接写入本地(或在HDFS上)TsFile文件。您可以将TsFile文件写入HDFS,然后在Hadoop或Spark的数据处理平台上实现数据处理任务,例如异常检测和机器学习。对于写入HDFS或本地的TsFile文件,可以使用TsFile-Hadoop或TsFile-Spark连接器来允许Hadoop或Spark处理数据。分析结果可以写回到TsFile文件中。IoTDB和TsFile还提供相应的客户端工具,以满足用户以SQL,脚本和图形格式查看和写入数据的需求。

ApacheIoTDB是由清华大学自行开发的时间序列数据库。它于2014年启动,于2018年11月18日正式进入Apache孵化器。这是中国大学进入Apache孵化器的第一个项目,2020年。他于9月23日正式毕业,成为Apache顶级项目[3]。

参考链接

[1]到2020年4月16日,它将成为ApacheSoftwareFoundation的顶级项目:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces60

[2]将于2020年6月4日正式成为顶级项目:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces64

[3]于2020年9月23日正式毕业,成为Apache顶级项目:https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces68返回搜狐以查看更多信息

负责编辑:

+1 31
分享:
作文本