通用增量计算DataAI在出海业务的实践分享

出海探索者2024-04-09 18:40:53  112

本文字数: 3800, 阅读完需: 19 分钟

导读

在”亚马逊云科技出海日2024”活动上,演讲者分享了”通用增量计算DataAI在出海业务的实践分享”。演讲者介绍了云栖科技与亚马逊云科技合作,共同打造了一个可托付的云上数据平台,帮助企业出海时构建数字化基础设施。该平台具有以下优势:一套平台支持多种数据场景,实现资源极致弹性、数据共享、资源共享;深度融合亚马逊云基础设施,提供安全合规保障和高可靠性;全球统一的开发体验,免运维托管服务,成本大幅降低。该平台能够解决企业出海时面临的诸多痛点,如数据时效性差、分析效率低下、架构复杂运维成本高等,帮助企业聚焦业务发展。该演讲由云栖科技公司带来。

演讲精华

以下是小编为您整理的本次演讲的精华,共3500字,阅读时间大约是18分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

亚马逊云科技助力智能设备全价值链创新

大家好,我是云栖科技的石静猛,首先感谢各位坚持到现在聆听我的分享,这代表着你们对于数字化转型和出海业务有着浓厚的兴趣。在此,我也由衷感谢前面几位亚马逊老师的精彩介绍,他们所讲解的内容,如安全合规、市场营销、弹性计算、对象存储等,我们公司的产品均有广泛应用。他们的分享为我今天的内容铺垫了基础,让大家能更好地理解我们的解决方案。

我所任职的云栖科技是一家与亚马逊联合创办的数字原生企业,我们的服务对象是有出海需求的企业。我们为客户提供数字化基础设施建设服务,属于软件行业的数字化基础设施建设企业。我们完全自主研发了一套云原生的大数据平台,这套平台将在后文中详细介绍。

作为负责解决方案的我,之前长期在阿里巴巴的计算平台事业部从事大数据产品的研发、生产以及交付等工作,可以说是一名大数据行业的从业者。今天,我将围绕着企业出海过程中所面临的数字化转型挑战以及我们与亚马逊的合作解决方案展开分享。

首先,让我们思考一下,如果一家企业想要出海,同时希望通过数据进行二次加工分析并创造价值,它将面临哪些挑战?事实上,出海意味着企业可能需要在国内外使用多个云服务,比如在国内使用阿里云或腾讯云,在海外使用亚马逊云服务。这就意味着企业需要在多个云上运行多套产品,而不同的产品往往有着不同的开发体验、运维体系,还可能带来安全合规的问题。

这些问题将给企业的业务发展带来严重阻碍。理想情况下,我们希望资源消耗成本能够与业务发展保持同步,当业务从0增长到100时,我们的成本也随之线性增长。然而,现实情况是,当业务规模还很小时,企业就需要承担较高的启动成本,这与业务发展不太匹配。另外,每增加一个新的应用场景,如离线加工、实时加工、实时分析等,企业就需要再次承担一份启动成本,导致总体成本急剧增加。由于产品差异,企业在国内的最佳实践经验很难复制到国外,开发运维成本也因此增高。最后,由于需要投入不同的运维团队,运维成本也相当可观,特别是在不同国家都需要本地化运维团队的情况下。

面对这些挑战,企业渴望能够一步到位地在海外建立数据智能化服务,聚焦于业务发展,而不被底层基础设施的问题所困扰,并且实现低成本运营。具体来说,企业希望有人能为它们提供一种企业级服务,使服务成本能够完全贴合业务发展曲线,业务量小时成本低甚至为零,随着业务增长而增长。同时,该服务需要是全托管的,免除运维负担,并确保安全合规。企业还希望能够在这个服务上复用之前在亚马逊云服务上构建的技术能力,并在一个统一的平台上支持所有数据业务应用场景,无需再分别构建多个平台。最理想的情况是,该基础设施能够跨越国内外,为企业提供全球统一的开发体验。如果能够实现这一点,无疑将是一种理想的数字化基础设施,让企业能够快速建立起支撑业务发展的数字化能力,并将注意力集中在业务本身。

正是基于这样的需求,我们与亚马逊联合共创了一个名为”可托付的云上数据平台”的解决方案。

在深入介绍这一解决方案之前,我想先强调一点,那就是在出海过程中,安全合规和业务稳定性是所有企业都头疼的问题。从业界的一项调研可以看出,影响程度最大的因素就是安全合规和业务稳定性,反映了这一点的重要性。而我们与亚马逊的合作,能够让我们的客户获得亚马逊经过充分验证的稳定性和合规管理能力,这一点在前面的分享中已经有所体现,因此我不再赘述。

那么,云栖科技和亚马逊云科技的合作到底为企业带来了哪些助力呢?首先,亚马逊云科技作为全球领先的云基础设施服务商,其实力是毋庸置疑的。而云栖科技则提供了一套完整的、纯自主研发的最新一代大数据平台架构。我必须声明,这并非是基于某个开源软件包装而成,而是我们使用C++代码从头开始自主研发的,包括存储、计算引擎、调度系统、元数据管理等模块,全部是纯自主研发。

这种自主研发的好处在于,我们可以将这套代码与云深度融合集成,充分理解并利用云的基础能力。这种深度融合将带来以下几个关键能力:

第一,更极致的资源弹性。正如前面分享中所提到的,资源弹性对于降低成本至关重要。我们能够做到零启动成本,并无限贴近业务对计算资源的实际需求进行供给。这是怎么实现的呢?当你执行一个SQL查询或数据处理任务时,你只需为该任务实际消耗的资源付费,如果没有任务运行,则不会产生任何费用。这与传统方式的根本区别在于,传统方式需要预先购买并持有一个资源集群,无论是否在使用资源,成本都在持续产生。而我们能够做到真正的资源弹性,这不仅依赖于软件本身的能力,更需要与云底座深度集成,调用云的API,利用其弹性能力。当资源水位紧张时,我们能够自动扩容;当资源富余时,也能自动缩减,实现精细化的库存管理。正因为与云深度融合,我们才能为客户提供零启动成本,并使资源消耗完全贴合实际业务需求,用多少付多少。

第二,先进的Everything架构。所谓Everything架构,是指我们的大数据平台从底层数据、集群资源、源头数据管理到上层应用,都采用了分离的架构设计。底层数据存储在亚马逊云科技的S3对象存储服务上,实现了数据共享,支持多租户等场景。资源层也被抽象出来,可由不同业务、不同用户灵活共享和调度。在安全方面,我们发挥了亚马逊云科技云基础设施的安全保障体系,可以在亚马逊的主账号体系下提供多种安全级别的部署模式,从SaaS到VPC私有环境应有尽有。数据存储的持久化、容器服务的稳定性等,都有赖于亚马逊云科技可靠的基础设施能力。此外,亚马逊云科技还提供了高可靠的服务体系,以及全域的SLA保证。所谓全域,是因为我们的SLA保证贯穿到了硬件层面,得益于亚马逊本身对底层硬件的可靠性保证。

本质上,数据平台就是如何高效利用存储和计算资源,而我们与亚马逊的深度融合,正是让这种高效利用得以充分实现的关键所在。

那么,对于企业来说,选择我们的解决方案将获得哪些优势呢?

首先,无论您是多云平台,还是在国内国外多个区域部署,您都不需要改变技术架构,就可以出海或扩展业务,我们帮您解决了底层基础设施的问题。对于开发人员和业务人员而言,无论在国内还是国外,都将获得统一的平台视角和开发体验。

其次,我们提供完全托管的服务,企业无需操心运维问题。您不需要管理运维成本,因为我们会在当地提供运维人员,为您提供企业级服务。

再次,我们的所有服务都是云原生的,具备弹性和线性扩展能力。

同时,我们已在Amazon Marketplace上架,企业可以开箱即用。

此外,我们的平台本身就具有高性能、低成本、支持多场景的特点。

最后,我们还继承了亚马逊在安全合规方面的能力,如GDPR合规认证等,为企业保驾护航。

接下来,我将介绍一下我们解决方案的整体架构。在亚马逊平台上,我们采用了纯原生的S3对象存储,并使用了EKS容器化服务,后者可以为我们提供资源极致弹性的能力。我们还使用了一些数据库系统管理元数据。在存储层面,我们自研了与开源生态兼容的存储体系,如支持POSIX文件接口、兼容HDFS标准等。基于此,我们构建了自主的元数据管理体系。在计算层面,我们基于EKS容器化服务,设计了被称为Watcher Cluster的资源管理模式,能够实现负载隔离、独立伸缩,伸缩粒度可以做到秒级、甚至毫秒级。

这种负载隔离和弹性并发的能力如何发挥呢?我举个典型的例子。假设你有一个BI报表应用,每天早晨可能有100人并发查看,因此需要100个计算资源实例;到了中午,只有10个人或更少人在查看,那么我们就只需要10个计算实例;如果当时有56个并发用户,我们就只需要56个实例。通过这种方式,我们能够根据实际并发度来动态调整资源数量,使资源消耗无限贴近真实的使用需求,避免任何资源浪费。

在应用层面,我们的平台上可以支持大数据领域的所有常见应用场景,如离线加工、流式处理、实时分析等,而传统方式则需要组合十几个开源组件才能实现。我们之所以能够在一个产品中做到这一点,是因为我们提供了一份数据、一份资源、一套元数据和统一的SQL开发体验。而开源的方式则需要为每个场景单独使用一种计算引擎,如流式处理用Flink编写Java代码、离线数仓用Hive、实时分析用Impala或Doris,每种引擎都需要独立的资源和存储,开发体验也不尽相同,造成了割裂。相比之下,我们在一个平台上实现了统一,大大简化了复杂度。

第三,我们拥有开放的引擎架构。尽管我们的产品是纯自主研发的,但我们并非闭门造车,而是与生态系统保持融合。比如在AI支持方面,我们原生支持调用第三方在线大模型服务,同时也支持自研模型的集成。我们还为客户提供了大屏运营等交互方式,用户可以通过文本或语音与模型进行交互,生成报表、图表等分析结果,极大地提高了业务人员的分析应用效率。

最后,我们提供了统一的数据管理平台,包括Web UI的Studio开发界面,支持开发构建、运维监控、数据资产和质量管理等功能。各种数据源都可以通过产品化的方案无缝集成,并对外提供数据应用能力。

总结一下,我们这一套云上数据平台的特性主要有五个方向:

第一,数据引擎统一,用一个引擎就能解决多种业务场景,避免了组件、数据、资源、开发体验的割裂,降低了冗余成本。

第二,开放且解除锁定,可以在国内外的多云多区域部署,支持全球统一的开发体验,甚至可以实现全球统一的租户体系及权限管控。

第三,弹性的按需资源模式,启动成本接近零,资源供给完全按需。

第四,支持AI与数据的融合应用,包括AI for Data和Data for AI两个方向。AI for Data是指通过AI手段来优化大数据系统本身,提高查询效率、降低成本。

第五,全托管、安全合规的多云平台,符合各类合规认证要求。

以上就是我们解决方案的全貌。接下来,我将分别介绍它为初创企业、中型企业和大型企业带来的价值。

对于初创企业而言,最大的好处是零成本启动。无论你使用多少云服务,在我们的平台上启动服务成本为零。同时,我们提供了一站式的开发平台,企业可以将注意力完全集中在业务发展上,而不必过多关注基础设施的建设。

中型企业的核心需求则是业务量的增长、降本增效以及高性能引擎的支持。由于传统架构下运维成本逐渐升高,中型企业往往需要考虑数据平台的转型,是自建还是使用企业级解决方案。我们的产品可以极大降低企业的运维和总体成本,并提供开箱即用、免运维的能力。

我们在多个中型企业客户的实践中发现,从传统的Hadoop平台迁移到我们的平台后,企业的总体成本基本可以降低1/3以上,很多甚至超过50%。这得益于我们基于增量计算技术实现的全域实时加工能力,在保证数据新鲜度的同时,也降低了成本。同时,我们可以在一个平台上灵活平衡数据新鲜度、性能和成本之间的关系,为不同企业量身定制最优方案。

对于大型企业而言,除了降本之外,还有两个核心需求,一是新业务场景的灵活建设和创新,二是查询性能的提升。我们的解决方案可以在这两个方面为大型企业带来显著收益。

总的来说,我们的解决方案能够解决企业在数字化转型过程中面临的五大业务痛点:

第一,数据时效性差的问题。以前企业只能依赖离线加工,现在业务要求分钟级、甚至秒级的数据新鲜度,我们可以以低成本实现全域数据实时能力。

第二,分析效率低下。由于数据量太大或并发场景的支持不足,很多企业面临查询性能不理想的困扰,我们可以显著提升这一点。

第三,架构复杂、运维成本高。由于组件过多、开发体系不一致等原因,传统架构的运维和开发成本都很高,我们的解决方案可以大幅简化。

第四,存储类型单一,对非结构化数据的支持能力有限。

第五,AI场景的应用。我们可以轻松支持企业的AI应用需求。

最后,我想特别强调的是,对于出海企业而言,我们的目标是让客户更加聚焦于业务发展,而不必过多关注底层基础设施的建设,为他们提供全托管的一站式服务。

具体来说,无论是在国内还是国外,企业都可以获得统一的开发体验,实现代码和人才的复用,尤其是在海外这种人才招聘成本较高的情况下,这一点尤为重要。

同时,我们提供完全托管、免运维的服务,企业可以0成本开通使用,我们支持多租户模式,可以为企业单独建立租户。

从成本角度来看,如果企业是从开源系统迁移而来,可以预期至少50%以上的成本降低,这一点在我们的多个客户实践中均有体现,主要得益于组件融合、数据冗余降低、计算资源复用等技术手段。

目前,我们已在新加坡的亚马逊云服务上开服,并将在Amazon Marketplace上架,敬请关注。

最后,我想分享一个典型的客户案例。这是一家企业,它原有的大数据平台是基于开源组件构建的,包括Hive用于离线数仓开发、Flink用于实时链路、ClickHouse用于实时分析,以及BI报表等多个组件。这种架构带来了诸多问题:

首先,组件过多,开发和运维体验并不统一。

其次,不同组件的查询性能存在瓶颈。以ClickHouse为例,它适合大宽表的分析场景,查询性能不错,但对于复杂的关联计算就力有未逮,不得不使用查询性能较慢的Hive,给业务场景的支持带来了限制。

再次,存储系统割裂。由于Hive采用存算一体的架构,通常会将较新的数据存储在HDFS中,而将一年以上的历史数据定期导出到对象存储中归档,无法做到自动化,也造成了存储空间的浪费。

最后,整个系统的运维成本也很高。

在采用我们的解决方案后,这些问题均得到了很好的解决。企业只需在亚马逊云科技上开通服务,将所有结构化和非结构化数据源导入我们的平台,无论是宽表查询还是复杂关联查询,性能都有了极大的提升,有些之前查询超时的场景,我们可以在10秒内完成。

存储方面,由于我们采用了存算分离的架构,存储直接使用S3对象存储,具备无限扩展的能力,并自带数据归档和分层存储的功能,大大简化了存储管理的复杂度。

同时,安全合规、运维等问题也一并解决,整体成本降低了50%以上。

通过这个案例,我们可以看到我们的解决方案如何助力企业数字化转型,提升性能、降低成本、简化运维的同时,还为企业保驾护航,解决合规等顾虑。

总的来说,这是一场全面介绍了亚马逊云科技与合作伙伴云栖科技如何利用云原生架构,为企业数字化转型和出海业务提供一站式数据智能化基础设施解决方案的分享。无论您是初创企业、中型企业还是大型企业,我们都有切合您需求的服务能力,帮助您顺利实现数字化转型,释放数据价值,聚焦业务发展。

下面是一些演讲现场的精彩瞬间:

云栖科技石静猛感谢亚马逊老师们的精彩介绍,为他的分享铺平了道路

亚马逊云科技提供了一站式的企业级数据智能化服务,帮助企业快速搭建数字化基础设施,专注于业务发展。

亚马逊云服务提供了经过充分验证的稳定性和合规管理能力,为企业解决了业务稳定和安全合规的头疼问题。

亚马逊云科技在安全云基础设施、数据存储持久性、高可靠服务体系和全域SLA保证方面具有深度融合优势,为企业提供了稳定可靠的云服务。

亚马逊云科技为企业提供一站式云服务,助力企业高效利用存储和计算资源,实现无缝出海

亚马逊云科技一站式大数据解决方案,统一数据、资源、元数据和开发体验,简化大数据应用落地。

Amazon S3为您提供无限扩展的对象存储服务,自带数据归档、分层存储和安全策略,全托管且成本降低50%。

总结

在这场演讲中,云栖科技的石静猛分享了他们与亚马逊云科技合作,为出海企业提供数字化基础设施建设的实践。他首先阐述了出海企业在数据智能化方面所面临的挑战,如多云环境带来的复杂性、高昂的启动和运维成本、业务场景难以复制等。接着,他介绍了与亚马逊云科技合作开发的”可托付的云上数据平台”的解决方案,该平台具有极致的资源弹性、先进的架构设计、与云深度融合、开放的AI引擎等优势,能够为出海企业提供全球统一的开发体验、完全托管的运维服务、低成本和高性能等价值。最后,他通过一个典型客户案例,展示了该平台如何解决客户的数据管理和分析痛点,实现成本大幅降低。整个演讲旨在为出海企业提供一种高效、可靠、低成本的数字化基础设施解决方案。

转载此文是出于传递更多信息目的。若来源标注错误或侵犯了您的合法权益,请与本站联系,我们将及时更正、删除、谢谢。
https://www.414w.com/read/166330.html
0
最新回复(0)