2024CTIS-文章详情页顶部

新Zero-ETL更丝滑的数据应用融合之旅,亚马逊云科技今日投产

Zero-ETL,一条载着亚马逊云科技与客户一同迈入生成式AI时代的“方舟”。

图片来源:视觉中国

图片来源:视觉中国

AI还未改变一切,但一切都在为AI而开始激变。

2023 re:Invent 大会上,亚马逊云科技CEO Adam Selipsky长达两个半小时的演讲,围绕芯片、云、数据库、集成服务多个领域不断强化这一底色。

在数据服务领域,这一现象前所未有地突出。从信息化到数字化,从数字化到智能化,数据要素重要性不断提升的同时,面向数据的服务也从后端走向前台。

信息时代的门面是大型企业管理系统与机房,数字时代的门面是云与SaaS,那么数据与业务的深度锚定,将企业各种各样的数据应用和业务场景捆绑集成在一起,就是AI时代最新的门面。

然而时代的更替,也给用户带来新的挑战与困难,尤其是数据工程师的痛苦与日俱增。面对企业或个人过往长期积累的数据总和,以及当前日均PB级别的数据增长,在一些BI、AI的项目中,ETL环节就会占用30%的项目时间,而70%的ETL构建和维护工作量也成为数据工程师的常驻梦魇。

ETL就像一个黑洞,在无休止吞噬项目资源。

天下苦ETL久矣,亚马逊云科技Zero-ETL打通云上云

这里有必要解释一番ETL,即提取、转换、加载(Extract、Transform、Load),将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。ETL也是BI项目重要的一个环节,将直接决定BI项目的成败。

虽然ETL随着数据技术不断迭代发展进入成熟阶段,但也因为其积累足够久远,造成当前ETL工具种类繁多,如Informatica PowerCenter、Microsoft SQL Server Integration Services(SSIS)、IBM InfoSphere DataStage、Apache NiFi等产品各有不同,第一道选型大门就令许多数据工程师不得不反复切换。

千辛万苦选型之后,摆在面前的是ETL任务量随项目复杂度“指数级正相关”。数以千计的ETL任务、调度、排查、维护则成为通往项目成功路上的各种地雷、荆棘。

组织或个人想要在数据中挖掘价值,获得数字化转型的果实,就不得不死磕ETL,正是一种明知山有屎,偏向屎山行的无奈。

如何能够相对轻松解决ETL问题,不仅是数字化转型的痛楚,也是攻克更有效使用AI技术的关键。在时代的推动、客户需求的爆发下,亚马逊云科技在2022年re:Invent全球大会上发布了Zero-ETL服务,正式开创了“零ETL时代”。

亚马逊云科技希望通过Zero-ETL解决方案,把从数据仓库到数据湖的鸿沟填平,令数据工作者用最低的成本,高效完成不同服务间的数据迁移和转换工作,帮助企业实现数据“无感知”、“更自由”的流动能力,从而更好地管理和利用数据。

亚马逊云科技数据库、分析和机器学习副总裁Swami Sivasubramanian表示:“借助Zero-ETL,无论企业和数据的规模有多大,复杂度有多高,通过为客户消除ETL和其它数据迁移任务,助力客户专注于分析数据,面向业务获取新的洞察。”

为此,亚马逊云科技发布两个主要功能:Amazon Aurora与Amazon Redshift的Zero-ETL集成,以及适用于Apache Spark的Amazon Redshift集成。

用户可以在将数据写入Aurora数据库后的几秒钟内对Redshift运行复杂的分析查询。开发人员跳过将数据导入S3,才能在EMR或SageMaker上使用Spark作业的中间数据阶段,就能直连Redshift以创建机器学习应用并处理近乎实时的数据。这极大地减少处理数据并为表示层做好准备所需的时间。

很显然,亚马逊云科技的愿景是希望通过Zero-ETL的方式,把企业或个人从繁杂的基础数据处理事务中解脱出来,令所有人能够将更多的时间和精力聚焦于业务和项目本身,强化客户在业务端的竞争力。

经过一年的锤炼,在2023年亚马逊云科技对Zero-ETL进行了进一步深化。

Adam Selipsky表示:“如今新的Zero-ETL集成可以把事务处理、数据分析集成在一起。在亚马逊云科技不同的云服务之中,通过Zero-ETL能够更好地实现数据在不同服务之间的打通。使工作效率快速而便捷。”

主要表现在5项新的Zero-ETL集成功能,使客户能够快速、轻松地连接和分析数据,而无需构建和管理复杂的提取、转换和加载(ETL)数据管道:Amazon Aurora PostgreSQL、Amazon DynamoDB、Amazon RDS for MySQL与Amazon Redshift数据库的集成,以及Amazon DynamoDB与Amazon OpenSearch服务的Zero-ETL集成,Amazon S3与Amazon OpenSearch服务的Zero-ETL集成。

具体表现为:

  • Amazon Aurora和Amazon Redshift的Zero-ETL集成,用于实时分析。并且亚马逊云科技云上的服务之间建立了集成,使分析和机器学习变得更容易,而个人无需深入研究ETL的复杂性。
  • Amazon DynamoDB 与Amazon OpenSearch 服务的Zero-ETL集成,不用自定义代码或者基础设施,就能自动复制和转换DynamoDB数据来执行搜索任务;通过与Amazon Athena和Amazon Redshift的联合查询,可对存储在操作数据库、数据仓库和数据湖中的数据运行查询,从而在不移动数据的情况下提供对多个数据源的洞察力。
  • Amazon S3与Amazon OpenSearch服务的Zero-ETL集成,在Amazon S3和基于S3的数据湖中查询操作日志的新方法,而无需在服务之间切换。用户可以分析云对象存储中不经常查询的数据,并同时使用OpenSearch Service的操作分析和可视化功能。
  • Zero-ETL已经连接100多个数据源,包括SaaS、企业内部和其他云,可对所有数据采取行动。如使用AppFlow将数据湖和数据仓库连接到50多个SaaS应用程序;使用Data Wrangler,在Amazon SageMaker上使用来自40多个数据源的数据一键建立模型;利用QuickSight,使用30多个数据源构建交互式仪表盘;还可使用亚马逊云科技 Data Exchange访问到来自300多个数据提供商和3500多个数据产品等。

这就意味着,只要在亚马逊云科技端服务中,客户即可通过Zero-ETL集成无缝将不同数据库、跨多应用的数据用近乎无消耗的方式,应用于如营销、客服、运营等不同的业务场景之中,不必浪费巨大的精力在传统ETL任务上,在理论上可以在ETL环节节省接近60%的项目时间资源,加速客户的数据应用能力成型。

可以预见,Zero-ETL短期将贯通自身各类云服务的数据转换桎梏,但亚马逊云科技更大的数据棋局也已经在与伙伴的深度合作中展开——通过Zero-ETL,实现客户多云数据的应用自如。

从2小时到10秒钟,使用数据有点“easy money”了吧

在全球范围内制造业、金融、医疗、科技等多行业的众多世界500强企业,已经通过Zero-ETL实现了卓越的数字化体验。

亚马逊云科技通过对Zero-ETL预览版的客户观察发现,客户在使用Zero-ETL之前,它们Amazon Aurora MySQL数据库每分钟产生数十万个事务,将这些数据从ETL管道移动到Amazon Redshift的过程需要超过2个小时的延迟时间。

但是通过Aurora和Redshift之间的Zero-ETL集成之后,同样的数据仅需要不到10秒的时间就已经出现在Amazon Redshift数据仓库中,几乎可以实现无缝的实时分析。

西门子股份公司专注于工业、基础设施、交通和医疗领域,并与亚马逊云科技在多个项目上有着紧密合作。出于企业战略需要,构建基于生成式AI的会话机器人“小禹”。

小禹回答内容不仅生成速度更快,其对搜索关键词的命中率也更高,整体使用体验远超传统机器人,首周就有超过4000位内部用户参与使用,超过12000个问题被提出并解答,不但解决各业务部门之间需求相似、重复开发的问题,更以云上弹性资源和托管的Amazon OpenSearch Service、Amazon SageMaker等服务节约了系统在运维和扩展方面的投入成本。

实现小禹快速高质量的实时应答,以及知识库运维托管的低成本功臣,就是背后的Zero-ETL。开发人员不需要管理集群或担心生产规模,可以快速推动部署,并且在多部门、多应用的数据仓库提出数据快速复制到Redshift中进行分析响应。

Adobe通过Amazon Redshift集成的Amazon Aurora Zero-ETL功能为不断扩大的Acrobat Sign客户群提供新的洞察和更快的分析能力,并随着他们用量的增加而同步增长,并且还免去了自己团队的日常维护工作。

Infor作为商业云软件和特定行业ERP解决方案的全球领导者,使用Amazon Redshift集成的Amazon Aurora Zero-ETL功能,它将让Amazon Aurora中的交易数据近乎实时地提供给Amazon Redshift,在不影响Aurora用作关系型数据库性能的同时,又减轻整个组织的运营负担。

高盛集团作为全球顶尖的金融机构,通过面向Apache Spark的Amazon Redshift集成功能,数据平台团队以最少的定制化操作就可以访问Amazon Redshift数据,实现零代码ETL令工程师收集完整及时的信息时,让他们更容易专注于完善其工作流。由于用户现在可以轻松访问Amazon Redshift中的最新数据,高盛将能实现更高的应用程序性能和更强的安全性。

通过不同客户对Zero-ETL的实际使用效果来看,新Zero-ETL已经为客户带来两个突出的价值表现:

  • Zero-ETL开启后对Aurora MySQL的性能几乎无影响。通过sysbench压测发现,在进行ETL前后,CPU利用率、读写IOPS以及网络流量几乎没有发生变化。
  • Zero-ETL快速进行配置,即可复制除系统表之外所有表的数据,易于使用,没有繁杂的配置整个数据库就可以全部同步到数仓。

Adam Selipsky认为:“数据集成不应该是人工工作的无底洞,你需要一个更好的服务去自动化地、轻松地去连接所有的数据,并且加以使用。”

很显然Zero-ETL已经在客户数字化转型乃至智能化转型中赢得信赖,并且开始让客户感受到ETL这个无底洞将被填平,使用数据前所未有的流畅与简单。

Zero-ETL下一步

无论是亚马逊云科技,还是微软、IBM等巨头,都对Zero-ETL寄予厚望。在打造更极致的数据应用体验同时,以更低成本、更高效方式释放数据能量。

在产品侧,云原生的技术和分布式计算架构已经成为共识,以最佳性能提高Zero-ETL的伸缩灵活性,并且基于云原生特点,Zero-ETL工具会越发注重降低开发门槛和跨平台能力,以应对更多样化、多数据源、多云环境下的数据生态系统。

同时Zero-ETL自身会变得更加智能,利用生成式模型等技术自动学习数据关系,从而减少手动配置的需要。并且更加强调实时数据处理能力,支持快速的数据流传输和处理,以满足实时分析的需求。

在市场发展侧,随着客户行业化、场景化需求的加深,不同行业客户对面向特定行业或领域的数据集成、处理等诉求不断涌现。并且随着数据隐私、数据治理合规的愈发严苛,客户业务场景也对敏感数据的脱敏、加密等环节的优化提出了思考方向。

站在生成式AI立面,Zero-ETL与其结合水到渠成。自动生成的数据和自动化数据处理,进一步提高数据集成和处理效率,从数据处理到数据使用大幅提升用户对数据应用的极致体验。

亚马逊云科技提供了完全托管的生成式AI服务Amazon Bedrock,它使用单个API提供来自AI21 Labs、Anthropic等公司的多个大语言模型,并且支持任意模型之间的任意数据交互。这意味着,通过使用Amazon Bedrock平台,企业可以更轻松地实现数据集成和处理,同时利用生成式AI技术自动生成所需的数据,从而更好地利用数据。

Zero-ETL是一条载着亚马逊云科技与客户一同迈入生成式AI时代的“方舟”。Zero-ETL深度地整合生成式人工智能技术,以进一步优化数据集成和处理的效率,有助于提高企业对数据的价值提取能力,促使数据驱动决策更加普及。

结语

2023 re:Invent 着实又惊艳了一次。从未有一场盛会既让开发者们澎湃,又让业务专家们热血,不仅是规模的惊艳,也是认知的惊艳——把对数据的认知门槛,又砍掉了一大截。

(本文首发钛媒体APP,编辑 | 杨丽)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容
  • Zero-ETL的推出,不仅体现了亚马逊云科技在数据领域的领先地位,也为其他企业提供了新的思路和方法

    回复 2023.12.03 · via h5
  • 亚马逊云科技的Zero-ETL不仅提供了高效的数据处理服务,还具有很高的灵活性和可扩展性

    回复 2023.12.02 · via iphone
  • 随着人工智能技术的不断发展,越来越多的企业开始将人工智能应用于实际业务中

    回复 2023.12.02 · via iphone

快报

更多

23:15

博鳌亚洲论坛理事会任命张军为博鳌亚洲论坛秘书长

23:02

第一种可固氮真核生物被发现,或将从根本上改变农业

22:58

COMEX期银日内大跌4%,现报26.55美元/盎司

22:56

现货钯金日内跌超4.00%,现报936.38美元/盎司

22:47

波罗的海干散货运价指数大体持稳

22:46

深交所:终止对华一股份首次公开发行股票并在创业板上市审核

22:37

布伦特原油日内跌超2.00%,现报85.41美元/桶

22:35

市场监管总局、中国人民银行:建立实施人民币现金机具认证制度,积极维护国家金融安全

22:28

欧洲央行管委维勒鲁瓦:通胀数据让欧洲央行有信心在6月降息

22:28

美国财长耶伦:不会对收入低于40万美元的人增税

22:27

恒大汽车年报:2023年营业额增超900%

22:15

陆家嘴信托被罚420万元,因以投资名义向不满足要求的房地产项目融资、信托资金挪用于缴纳土地出让金等

22:14

现货黄金失守2300美元/盎司,日内跌1.55%

22:09

山西运城车祸的问界M7 Plus,搭载了福瑞泰克的智驾系统

22:08

金融监管总局深圳监管局:应对特大降雨,各机构要启动分级响应预案

22:08

美、布两油短线走低0.7美元,布伦特原油失守86美元/桶,日内跌超1.5%

22:00

陆家嘴信托被罚420万元 因以投资名义向不满足要求的房地产项目融资、信托资金挪用于缴纳土地出让金等

21:49

阿迪达斯:一季度营收54.58亿欧元,大中华区营收同比增长7.8%

21:48

美国4月芝加哥PMI为37.9,预期45,前值41.4

21:48

中国恒大:延迟发布2023年度业绩,继续停牌

3

扫描下载App