暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

许可变更、服务改变、安全威胁和成本增加、性能难以提升···一家航空公司用国产化替代一招解决开源大数据CDH所有烦恼!

249

CDH、HDP等开源大数据平台的替代,源于其开源许可协议的变更,替代不仅发生在国内,众多国外的用户也不得不走上替代之路。


自从Cloudera公司宣布从2021年1月开始把之前对外公开的CDH/HDP所有版本都拿到Paywall之下,要求所有用户都需要订阅Cloudera产品开始,用户的CDH/HDP大数据平台就面临着升级时价格不菲的收费的挑战。


中国用户的选择是选用国内自主研发的大数据平台,实现大数据平台国产化替代。作为中国自研的大数据平台,星环科技的大数据基础平台TDH成为了CDH替换的主角。


近几年来,越来越多的用户选择采用TDH,搭建自己的大数据平台,用大数据应用,创造了一个一个业务发展的奇迹。而近期TDH在性能和性价比两个维度上均获得了TPCx-BB SF3000全球排名第一,不仅代表着国产大数据平台在全球大数据领域的又一次突破,也意味着星环科技TDH对Hadoop体系大数据平台(CDH为代表)具有高兼容性,能够实现国产化平滑替代,帮助用户打造高性能、低成本、自主可控的数字底座。


作为开源CDH平台国产化替代的先行者和成功者,春秋航空的成功做法完全可以复制。春秋航空公司是国内第一家由民营资本独立经营的低成本航空公司,机队规模和国际国内航线快速发展,堪称国内低成本航空公司的典范。


春秋航空公司利用星环科技大数据基础平台TDH成功替换开源大数据平台CDH,打破了新技术与业务场景之间的隔阂,用技术为业务赋能,快速挖掘数据价值。借助星环科技TDH,春秋航空提高了数据处理规模和数据处理性能,增强了数据管控力度,为数据挖掘和数据分析提供了全面的数据支持,堪称大数据平台国产化替代的典范。



1.开源变身给用户带来诸多困惑

采用开源大数据平台CDP和CDH的用户不得不面对四个方面的挑战:


第一,必须面对开源软件许可证变更和产品服务限制的挑战。


基于Hadoop的开源软件公司Cloudera与Hortonworks于2018年10月宣布合并,并在2019年推出了结合了Cloudera原有产品CDH和Hortonworks原有产品HDP的全新的大数据平台产品CDP。


合并后的Cloudera整合了Hortonworks和Cloudera各自在之前使用的授权许可方式,对许可方式进行调整:Cloudera所有产品都将采用OSI批准的许可证,即Apache软件许可证(ASL)或Affero通用公共许可证(AGPL)。用户不得不面临许可变更带来的风险。


另一方面,Cloudera对原有产品的服务支持也做出调整。Cloudera会在2022年前继续支持CDH和HDP两条产品线,给用户一个过渡期。原有的CDH和HDP用户均可通过升级至CDP获得诸多新功能。也就是说,在2022年全部用户都将迁移到CDP上来。但新的CDP以订阅方式提供服务,用户付费成本大幅增加。


第二,开源软件CDH和HDP各种组件“各自为营”,难以适应“统一多模”大数据技术架构的发展需求。


目前,数据仓库、数据湖、数据集市协同计算融合,呈现湖仓集一体化趋势,打通了数据孤岛,拓宽了计算边界。而数据仓库和AI技术分析融合,拓宽数据模式边界,挖掘更大范围数据价值。


从企业的最终需求来看,一个可以满足多个业务部门开发管理需求的数据平台是支撑数据驱动业务的关键,不同的技术都应该有效地融入这个技术平台,同时提供良好的开发体验、性能要求、可扩展性、管理运维以及安全合规性等。


而目前开源CDH/HDP是由几十个不同的组件组成,技术栈不统一,用户需要根据组件特性拆解业务,不同场景使用不同组件,数据流转链路长且复杂,技术性要求高,能以适应用户一体化数据平台支撑企业数据驱动业务的发展的需求。


第三,用户不得不面临开源大数据平台安全性缺失所带来的挑战。


同时开源软件的安全事故迭出,影响巨大。开源软件安全方面功能的缺失或者被限制,也成为用户应用的后顾之忧。


除了面临开源协议变更的风险外,当前遵循Apache 2.0协议的开源软件系统还面临较大安全挑战。


Apache基金会上的开源软件可能受制于美国的出口管制条例,开源产品并不开放,且面临较大制裁风险。


开源组装软件可控性和安全性有限,业内“伪自主、假安全”产品鱼龙混杂,难以满足《关基安全保护要求》,继续使用开源或开源组装产品会面临较多安全审查。


第四,企业用户大数据平台面临自主可控的政策需求。


2022年9月底,国资委下发了重要的国资发79号文件,全面指导并要求央国企落实信息化系统的信创国产化改造。


国资委79号文件部署了央国企信创改造的具体量化要求和推进时间表,这也意味着信创产业将从“关键环节、部分市场”走向“全产业链、全行业”的信息技术升级,全面构建国产自主的IT标准与服务生态。


目前,大数据平台等信创发展已经进入全面替代的新时期。


如何面对许可方式的变更,产品服务方式改变所带来的成本增加,不断增加的安全威胁,以及信创的政策需求,已经成为CDP和CDH的用户不得不面对的问题。



2.除了开源,新业务需求也需要面对

期,春秋航空引入了开源大数据平台CDH,并基于该平台开展了个性化推荐、精准营销方面的工作,但在使用的过程中发现了不少问题。


对于复杂的航空业务,原平台需要大量的开发工作来适配业务,对开发人员的要求非常高,很难实现业务的快速落地和价值挖掘


面对一些跨库关联的复杂分析场景,CDH需要数据的导入导出,过程较为繁琐,费时费力。


数据分析人员需要对数据进行实时分析,以便对业务进行快速调整,而原平台只支持T+1的计算分析能力,不能满足业务分析的实时性需求,如航空飞行产生海量的数据,精细化到毫秒级别,而原平台表现出存储和处理分析能力不足。


另外,其混合架构以及开源特性使得解决问题的效率相对会比较低,给系统和业务运维带来很大的压力。


除了以上问题还,春秋航空在业务发展中,还出现新需求、新场景,CDH显然难以胜任。春秋航空是一家倡导旅客个性化消费的航空公司,提升利润和降低成本是春秋航空一直希望做的事情。而航空公司是重资产低利润的行业,节约成本在众多提高利润的因素中占很大的比重。航空公司的航油成本占了总成本的30%到40%,所以节省航油成为降低成本的关键。


节省航油却没有那么简单。首先,需要对飞机的飞行日志进行分析。飞机上的QAR(Quick Access Recorder,快速存取记录器)每1/8秒会将飞机上3000多个设备仪器的参数记录一次,飞机一天在天上要飞十几个小时,一年下来数据量非常大。每架飞机一年会产生一亿多条数据,80多架飞机一年就是80多亿条数据。因此做好节油工作首要任务是解决80多亿的数据处理问题。



3.选择自研国产大数据平台,构建强心平台

对开源大数据平台替代的可选迁移方向包括:一是升级到Cloudera CDP。显然CDP昂贵价格、兼容性、无法适配国产软硬件生态、技术方向不能自主可控等问题,制约了用户的选择。


二是国内封装的Hadoop商业版。目前国内封装的Hadoop商业版已经七零八落,难以为继,选择其后患无穷。


是国内自主研发大数据平台TDH。TDH是星环科技自主研发的企业级一站式多模型大数据基础平台,采用领先的多模型技术架构,10种存储引擎支持11种数据模型,成套的工具组件让系统的安装部署、扩容升级、安全防卫、风险告警、权限管理等工作变得更便捷。TDH不仅在技术领先性、性能、易用性、安全性、国产化生态兼容性,以及售后服务等诸多方面具有优势,同时国产自主研发的TDH对国产化生态具有高度兼容性,可以满足信创验收的要求。


基于星环科技大数据基础平台TDH技术的先进性和独特性,春秋航空采用TDH替换原先的开源CDH数据平台。借助星环科技TDH高性能批处理及关系型分析引擎Inceptor等工具,春秋航空完成各种数据清洗、业务处理等工作,提高了数据处理规模,数据处理性能更快,增强了数据管控力度,为数据挖掘和数据分析提供了全生命周期的数据支持。


星环科技TDH大数据基础平台采用先进的多模型统一架构,一体化构建服务于整个企业的统一数据资源库,彻底打破不同部门间的数据隔阂,支持数据跨部门灵活调用,有效降低开发运维成本。统一的计算引擎可以根据不同的存储引擎自动匹配高性能算法,避免数据导入导出。统一的分布式存储管理系统可以轻松实现 GB~PB级多源异构数据的高效存储和统一管理,为不同的存储引擎提供公共的存储服务,有效保障数据一致性和高可用。


基于星环科技基础大数据平台的架构设计


系统将每天产生在Oracle的数据进行T+1抽取,业务逻辑打包成各种shell脚本等脚本,通过Transwarp Workflow任务调度软件进行调度,在大数据集群内进行各种处理,完成数据清洗、业务汇总等工作。


关系型分析引擎Inceptor提供PB级海量数据的高性能分析服务,其同时支持完整的SQL标准语法,兼容Oracle、IBM DB2、Teradata方言,兼容Oracle和DB2的存储过程,可以平滑迁移应用。同时其支持分布式事务处理,保障数据强一致性。与开源方案相比,Inceptor是全球首个通过分析决策系统国际基准测试TPC-DS及官方审计的产品,TPC-DS查询性能是开源Hive的7~25倍。


实时流计算引擎Transwarp Slipstream落地即分析,提供百万级高吞吐、毫秒级低延时业务处理支撑能力,满足业务分析实时性需求,弥补之前CDH无实时分析能力的空缺。对于之前平台无二级索引和全文搜索能力,分布式搜索引擎Transwarp Scope提供PB级海量数据的交互式多维检索分析服务,能够实现高可靠、高扩展性的全文搜索与灵活查询。


4.国产大数据平台带领用户进入数据精细化运营时代

星环科技与春秋航空的合作,成功地利用国产自主可控的国产大数据平台替代国外的开源大数据平台,应用成效突出:


利用星环科技TDH强大的数据处理能力,春秋航空完成了成本指数监控。例如在上线最初的4个月中,成本指数执行率从58%上升到69%。


随后春秋航空又建立了直飞优化模型和高度优化模型,实现了飞行路线的优化。通过直飞模型可以提前分析大量的直飞机会,减少飞行距离,降低飞行成本。


通过对历史飞行轨迹及优化分析,可以寻找飞机携带油量的平衡点,从而降低航油消耗。大气层越往上越稀薄,飞机飞得越高阻力越小,意味着越节约航油。通过海量数据监控,建立高度模型对飞机飞行高度进行优化,从而达到节省航油的目的。春秋航空节油项目取得了很好的效果,据估算80架飞机每年仅燃油成本就可节省约2400万元。


目前,基于星环科技TDH的大数据平台已成为春秋航空所有数据的中心,负责所有条线营销服务、飞行安全、维护维修的数据分析。



同时,春秋航空从CDH迁移到TDH获得8大技术能力提升:


数据库能力提升:支持ANSI 92、99、2003 OLAP核心扩展;兼容Oracle PL/SQL、IBM DB2 SQL/PL和Teradata方言;支持完整的事务操作的SQL原语;统一SQL编译器灵活访问平台不同模型数据,高效开发不同模型数据业务。


多模型支持能力提升:10种存储引擎支持11种数据模型,关系型分析引擎、图数据库、宽表数据库、文档数据库、时序数据库、时空数据库、键值数据库、事件存储库、向量数据库等统一数据存储管理框架,扩展性更好,可实现多源数据的统一处理。


整体性能提升:存储层自研的针对SSD存储优化的列式存储引擎,计算层自研的分布式向量化计算引擎,可实现万亿数据关联分析秒级响应,带来极致性能体验,整体性能提升2~25倍。


国产化支持:TDH核心技术自主研发,满足信创验收要求,实现了主流信创生态厂商的适配兼容,包括国产CPU、GPU、操作系统、服务器、中间件,支持服务器、操作系统异构部署。


存储能力提升:使用Raft保证数据一致性,解决小文件爆炸和Block Report带来的元数据管理问题,支持对象存储,并发度高,操作快。相比于Kudu性能更好,可快速更改/更新/合并数据。


安全能力提升:能力提升包括:数据分类分级能力,细粒度安全管理;支持数据传输加密引入SM4等国密算法;支持数据脱密加密;提供隐私计算、联邦学习的多方加密计算能力等。


容灾能力提升:基于Raft协议数据一致性,支持故障自动迁移恢复,支持跨机房两地三中心部署,支持跨数据中心双活、多活,保障业务不中断等。


运维能力提升:提供TDH所有子产品的安装、配置、管理和监控能力、告警通知、日志生命周期管理、日志检索和可视化管理,提供用户操作审计与危险操作告警,以及多种国产芯片、系统的异构混布、容器化技术和极致的安装部署体验。


星环科技大数据基础平台TDH凭借技术的先进性,在众多行业领域完成国外产品的替代,帮助企业加速数字化转型,更全面、更便捷、更智能、更安全地运用数据,大幅降低综合成本。基于星环科技基础大数据平台构建核心商业系统,是企业实现一站式数字化转型、加速业务创新的致胜关键。



扫码关注我们

喜迎元旦

喜乐平安




文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论