暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

基于业务RTO和RPO的需求分析及实现技术分析

云存储技术交流 2018-02-04
1130

在现代企业中,数据是最重要的保护对象。据2013年第三方机构的统计,68%的中国企业,因为数据损坏,在过去的12个月内遭受了计划外宕机,数据丢失或者安全违规。造成的后果是59%的企业,遭受到了收入损失。

可见,保证业务连续性至关重要。而传统解决方案,难以构建灵活可靠的IT系统,来提升服务并降低风险。特别是随着虚拟数据中心和云计算发展趋势的到来,企业该如何保护爆发式的数据增长,在恰当的成本下进一步缩短RTO和RTP指标,这就是我们今天需要讨论的话题。

我们首先引入的一个概念是BCM(Business Continuity Management),BCM的主要作用是当灾难发生后,迅速对业务进行切换、恢复,以保证业务的连续性。其不仅包括我们目前耳熟能详的备份、容灾,还体现在整个企业的管理层面,对人在灾备发生时的作用也有清晰完整的要求。我在这里不谈关于人的管理层面操作流程方面,虽然这也是非常重要的一部分。我只谈技术层面的实现。

针对数据保护的技术实现,我们有多种多样不同层次的保护方式,比如操作系统上的LVM镜像,磁盘阵列的各种RAID方式,物理磁带库,虚拟磁带库,或者离线的长期保存。但是其中最重要的一个共性就是一份数据多份存储,最重要的一个不同点,简单来说,就在于它们能够提供不同级别的RPO和RTO。我今天就沿着这条主线,按照提供的RPO和RTO不同,来分别讨论不同的保护方式解决方案。

传统的基于业务的磁带备份方式,在业务规模不大,或者对数据的RPO,RTO要求不高,比如在以天和小时为计量单位时,能够较好的保护数据,并在发生数据丢失时,提供可操作的数据恢复方法。这里面有很多成熟的产品和技术,比如IBM的TSM,Symantec的NBU,EMC的networker,甚至还有基于虚拟化平台的备份解决方案,比如VMware vSphere包含的Avamar产品,可以搭配各种硬件备份设备,实现不同类型的备份。

但是随着公司业务的发展和数据容量的增加,这种磁带备份方式在单个业务发生数据损失时,恢复方式尚可满足要求,然而一旦多个业务同时出现数据问题,或者磁盘阵列本身发生故障造成多个或所有业务不可用时,几十TB的大数据容量,采用这种恢复方式,数据恢复时间将成倍数级的延长,预计磁盘阵列数据的恢复时间需要以数天为单位,这将会超出很多业务的SLA要求,而且数据的可恢复点受限于最近一次成功备份的时间点。

为此,针对现代企业中,那些对灾难发生时的RPO和RTO有较高要求的关键业务,需要考虑更为有效快捷的数据保护和恢复方式。

如果有一种方式,可以将RPO从以天为单位控制到以小时为单位,甚至是故障发生前的几分钟到几秒钟,而RTO也控制在同样数量级的话,对关键业务的持续可用性将有重大提升。这里引入CDP(Continuous Data Production)的概念。

持续数据保护是一种连续捕获和保存数据变化,并将变化后的数据独立于初始数据进行保存的方法。CDP系统可以基于块、文件或应用,并且为数量无限的可变恢复点提供精细的可恢复对象。在传统数据保护技术中采用的是对“单时间点(SPIT,Single Point-In-Time)”的数据拷贝进行管理的模式,而持续数据保护可以实现对“任意时间点(APIT,Any Point-In-Time)”的数据访问。

因此,CDP解决方案都应当具备以下几个基本的特性:数据的改变受到连续的捕获和跟踪;所有的数据改变都存储在一个与主存储地点不同的独立地点中;恢复点目标是任意的,而且不需要在实际恢复之前事先定义。

我们知道各个企业在长期的发展中,企业生产数据会存放在不同品牌的不同型号存储上。异构存储间的存储机头,扩展柜、硬盘,因其互不兼容性,无法利用存储设备本身的备份技术,形成相互备份的架构。在这种现状下,我们要选用的技术,它能够忽略这些不同,能支持各种存储,为此我调研了市场上比较流行的几个CDP产品,有IBM,EMC,还有飞康等。

这里主要介绍下EMC的RecoverPoint设备产品(后文简称RPA)。它可以实现本地和异地的数据复制保护,独立于应用程序,基于Block的复制,能够实现精确到秒级的历史时间点恢复,而且整个恢复过程在20分钟内就可以完成。而且选用的技术产品,应该和我后面将要介绍的更高标准的RPO,RTO实现也有紧密的结合。

它由几个主要的部分组成:

RPA应用装置,这是一个运行了 RPA软件的双节点 Intel 体系结构服务器。典型的配置需要至少两台,一是为了避免单点,二是提供负载平衡。两个设备间通过内部网络相互通信。

写操作镜像/拆分器,就是Splitter,能够把写操作拆分到不同的设备上。在RPA 4.0以前版本,有三种Splitter,分别是基于服务器,SAN交换机和存储。现在是只有两种,基于存储和VPLEX。

RPA软件在RPA应用装置上运行,通过与拆分器驱动程序和其他RPA应用装置通信来提供数据保护功能。

另外还有几个概念简单介绍一下,分别是Journal Volume,Production Volume, Replica Volume。Journal Volume是日志卷,它的大小会直接影响可以恢复的历史时间点的深度。Production Volume是要保护的生产卷。Replica Volume是生产卷的保护复制卷。

RPA有三种常见的部署模式,一种是Local的,一种是Remote的,一种是Local 和Remote相结合的。

这里简单描述一下它的工作原理,数据传入底层存储时,通过Splitter拆分器,也传一份到RPA设备上,这里需要注意的是:不管采用何种Splitter方式,都会在保证数据传到了源存储设备上,当然这个过程是同步的。在数据传到RPA设备上后,RPA设备就会发送一个写确认给源,保证后面的写操作继续进行。之后RPA设备会写数据到Journal卷上,并且增加时间戳和一些自定义的Bookmark。Journal卷写满后再写到复制卷上,数据能恢复到历史上哪个时间点,距离当前时间多久,也就是RPO最远能到哪个时间点,就取决于Journal卷的大小。

前面说的从传统备份到基于RPA的CDP解决方案,基本实现了RPO从天到小时的转换,但是一些核心业务系统,他们对RPO的要求更高,基本不允许有任何的数据丢失和业务中断,也就是说要求RPO为0,对RTO的要求也接近于0,采用之前介绍的方式,是不能满足要求的,此时我们需要一种能够在多个业务所在磁盘阵列发生故障时,可以保障生产数据不丢失,并提供无中断的数据恢复切换方式,自动的将数据挂载在无故障的盘阵上继续运行,并且性能上不受影响, 这就需要一个双活Active/Active的系统。

它可以将不同品牌的存储资源进行整合,形成存储镜像映射关系,将镜像后的逻辑磁盘分配给前台业务使用,业务在传递数据时,存储在后台自动同步备份,在发生磁盘阵列故障时,同步备份数据能够在不影响生产业务的情况下,无中断的继续使用。实现存储系统零停机,同时对主机和业务系统完全透明。

此时我们考虑使用存储虚拟化技术,对关键业务进行存储级别的Raid1镜像。这种数据保护和恢复方式,它的PRO就是0,RTO基本是接近于0,有一个存储路径切换的过程。

考察了市场上主流的存储级别虚拟化产品,比如IBM SVC ,EMC VPLEX, NetApp V系列等,分别进行了测试。实施的效果是,可以将我们的IBM DS系列存储与EMC VNX系列存储进行多个层次的镜像虚化。

这里以EMC VPLEX虚拟化设备为例,由控制台,UPS,内部交换机组成的。一个引擎内有两个控制器,每个控制器被称为一个Director。每个引擎上有64G缓存,32个FC端口。可以通过配置多个引擎,实现高可用集群。

VPLEX有4种配置模式,Local,Metro,Geo和Global,比较常见的是Local和Metro模式。而且我们选用这个技术,有一个前后的衔接关系,我们知道在前面介绍的RPO时间为小时分钟级的产品技术RPA中,有一个重要概念是Splitter,在新版本的RPA中,Splitter只能通过指定厂商存储或者VPLEX来实现,但是作为一个企业来说,它使用的存储设备很可能是多个存储厂商的设备组成的。所以我们使用VPLEX Splitter,通过一条命令开启VPLEX设备的Splitter功能,来实现数据的拆分,这样我们就可以将之前部署在各个品牌和型号的存储都纳入进来,实现RPO=0的存储保护。

经过上面的讲述,对于数据中心的业务连续性保护,我们基本上形成了这样一个金字塔形的结构,它们分别用于企业中普通IT系统,重要业务系统和核心业务系统。这样针对企业内部各种应用业务,我们都有了对应的存储连续性解决方案。但这里需要提醒的是,并不是说RPO=0的技术方案就比RPO以天为单位的技术方案好,只是不同的应用有不同的需求,根据SLA服务协议,来判断究竟使用何种方式。

未来,企业的数据中心工作负载都将转向基于消费的私有云、公共云或混合云服务模式。我们的存储必须顺势而为,与新的数据中心操作和云堆栈相协调,这样它才能作为一种服务来使用。现在已经有一些软件定义的存储来实现数据中心的转型,它可以通过将控制路径和数据路径进行分离,也就是用来设置和管理存储设备策略的控制路径,和执行实际读取、写入和数据服务的数据路径进行分离,使存储走上一个简单,可扩展和开放的体系。

而未来,数据的连续性保护,也必然会变成一种服务的形式,获得授权的用户可以选择满足其应用的工作负载存储,系统也将能自动为其分配对应的数据连续性保护方式。我们走在云的路上。

医改方向:整合医疗资源、集团化运作、推进分级诊疗

在国家继续深入进行医疗改革的背景下,政府及医疗机构自身对信息化建设投入不断增加,促进了医院信息化建设的发展。在一定的区域范围内,以大型三甲医院为核心,联合如社区医院等一些医疗机构组合成医疗联盟体,或者在全国范围内以专科特点突出的医院为核心,其他省市医院为成员成立医疗集团,是目前我国很多医院推崇的做法。这样可以很好的进行资源统一配置,诊疗信息共享,各医院之间高效协同,可以逐步建立分级诊疗体系,让病人减少流动,有序就医。这就需要信息系统提供支撑平台,通过信息化网络,提供丰富功能,将病人的电子病历资源进行安全共享,开展远程会诊等新型诊疗方法。

内外兼修 建设新型数字化医院

国家在倡导互联网+,这也意味着医疗信息化处于变革中,会更多的利用新技术,依托互联网、云计算、物联网、大数据等技术建设新型数字化医院。

基于以上医院的业务发展趋势,医疗信息化建设应该采取内外兼修战略。

所谓“内”,即是对医院原有的业务系统,如HIS、LIS、PACS、EMR等系统进行更深入的纵向改进,使其更加人性化、智能化,系统更加稳定易用。

所谓“外”,外即是打造信息集成平台,改变传统医疗系统之间高耦合信息交错传递的网状架构设计,变为统一标准输出的新型平台架构。这将有利于对大数据的整合清洗及标准化输出,同时推进移动医疗,利用好移动终端进行诊前咨询及挂号,诊中进行移动支付,诊后进行随访等医疗增值服务。发展智能穿戴设备,通过互联网将设备与病人、医院与病人、病人与病人间进行交互与连接。

Linux将逐步承担医疗IT关键业务

医疗信息系统特点为专业性强、业务逻辑复杂、厂商多。医院的信息系统要根据不同厂商善于使用的开发语言、数据库软件及操作系统进行部署,自然也就百花齐放,导致各家医院会面对市场上出现的所有操作系统、数据库软件及中间件等。目前从比例来看,Windows平台最多,随着企业拥抱开源和IT新技术,Linux系统的认知度不断增强,今后Linux系统会出现使用比重日益增大,逐步承担关键业务的趋势。

Linux将在医院互联网及集成平台相关业务上占据多数。

由于Linux系统的开源性,互联网行业对它的使用成为标配。医疗有很多基于互联网的应用系统,如手机APP、微信应用、随访APP等,以及远程诊疗系统、分级诊疗系统等,这些业务的特点是基于互联网的应用,用户范围广,随处随时进行访问,突发流量大,这些系统安装在Linux系统上非常适合,有效降低IT成本。

在医疗核心系统使用上Linux还处于初试阶段

医疗系统对稳定性要求很高,近几年考虑到IT成本以及拥抱开源趋势,今后会有更多的医院会选择使用Linux系统作为核心应用。至于中间件等应用系统往往和软件开发商有直接关系,医疗行业使用微软的产品进行开发的居多,因此未来混合架构会长期存在。Linux系统运行数据库如Oracle、Mysql等,Windows及Linux系统上根据开发语言部署适合的中间件应用,这种架构会占据主流。当然在Windows平台上部署Oracle及SqlServer也会有庞大数量,这也取决于Linux系统的管理成本及技术人员的使用习惯等因素。

Linux平台选用关键要素:稳定安全、IT成本、架构成熟度

稳定性、安全性是医疗系统第一考量要素。大型三甲医院门诊量上万人,信息系统一刻也不能停顿,系统宕机几分钟就会导致患者大量积压,医院业务无法正常有序进行,即使应急准备再充分,启动手工机制,仍然会有很多业务无法进行,上万种药物的发放,收费、医保以及住院病人的电子病历都高度依赖信息系统,无法读取就意味着业务停顿,会导致医院混乱不堪,治疗效率低下,医院的经济损失及不良的社会效应。基于Linux的基础架构平台是否具备足够的稳定性、安全性的能力是首要考虑。

IT成本考量是第二要素。医疗领域对信息化建设的投入和重视程度在逐年提高,但与金融、证券等行业的信息投入还有很大差距,尤其公立医院,信息化投入仍然捉襟见肘,最大性价比一直是医院信息部门竭力追求的。Linux系统因其开源性、开放性可以减少在操作系统方面的软件投入,这是一个有利因素,但同时也应考虑软件成本降低,带来技术人员的管理成本会增高的情况。毕竟使用Linux系统不如Windows系统直观易用,对技术人员的要求也相应提高,人员成本会增加,医院对Linux系统的管理人员需求会增大。

技术架构的成熟度及通用性是重要考量要素。医疗软件的专业性强,从业技术人员往往重视业务需求,对于系统的部署环境一般不会进行调整和改进,因此移植性和跨平台能力差,很多系统也无法向Linux系统进行迁移。主流的数据库软件Oracle对Linux支持很好,成熟度也较高,这对Linux系统起到很好的推动作用。对于一些新的医疗应用软件系统开发,在系统设计初期会更多考虑到Linux平台上的应用部署。

我们以医疗领域比较热门的集成平台为例,集成平台的建立是认识到HIS系统本身数据交换能力不足而去建立的,但要真正实现并非易事,需要理性对待。它需要对数据进行标准化处理,需要梳理好医院复杂的业务流程,原本各业务系统出现问题都会导致医院业务流程受到影响。现在大家都靠集成平台进行数据交互,无形中又增加了一个故障点,而且集成平台出现问题对业务影响会更大,因此对稳定性要求更加苛刻。如果集成平台用于院内,它会与HIS系统一样,面对院内患者,如果集成平台用于集团医院或分级诊疗,它将面对全国范围的患者,所要处理的数据及对计算能力的需求会大得惊人。在这种要求下,对于IT基础设备的服务器而言需要提供7*24小时、长期不间断的稳定运行及高速处理能力,医院需要寻求一个性价比较高、高性能的计算平台。

总体而言,国家深化医疗改革朝着整合医疗资源、集团化运作、分级诊疗的方向推进,新型数字化医院未来将依托互联网、云计算、大数据、物联网等新型IT技术。医疗与互联网结合的新型分级诊疗体系的逐步建立,会需要更多的Linux系统提供基础架构支撑。Linux系统在医疗领域的关键应用部署,需要行业一段时间的适应、学习和深入理解认识,呼吁出现医疗行业Linux关键应用的技术平台、架构方案和实践案例,推动医疗行业Linux关键应用能力的提升。

文章转载自云存储技术交流,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论