当前,应用设备智能互联、数字化转型、高性能存储和云计算等技术的发展加速了大数据相关技术的进步,而作为实现大数据价值的关键环节,数据存储与管理技术也日新月异,引领着大数据的变革。目前,大数据存储涉及介质、数据结构、数据连接控制等关键技术,存储机制正由集中式向分布式、云存储等方向转变。大数据管理涉及模型、搜索、计算和治理等关键技术,管理机制从传统关系型数据管理系统向NoSQL、NewSQL等类型转变。
一、发展现状
目前,受大数据特征和应用场景影响,大数据存储与管理技术发展多样化且具有针对性,多基于分布式和云架构。
图1 数据存储逐步向云端转移
1、分布式存储满足海量数据存储需求
分布式存储架构通过横向扩展,将分散的存储资源构成虚拟存储设备,具备多副本高可用、低成本大容量等优势,数据集依据范围、哈希、轮询等分区原则存储到不同路径。但分布式存储架构受CAP约束带来了新的风险,数据保护相对简单,安全性有待提升。目前,谷歌GFS、阿帕奇HDFS、英特尔Lustre等分布式文件系统已成为大数据存储的主流方案。
2、云端存储打破数据存储及访问壁垒
云存储通过存储虚拟化、分布式技术、集群应用、网格技术、负载均衡等技术,将网络中大量不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供在线数据存储服务。但云存储需稳定、安全的网络连接,与传统存储系统相比,云存储管理更加复杂。目前,微软Azure、亚马逊AWS、谷歌云、IBM云等是美国主流的云存储供应商。
3、非关系型管理模式提升数据存储效率
非关系型数据库管理系统可处理大量结构化和非结构化数据,具有高可扩展性和可靠性,简单的数据模型和查询语言能够满足用户对大数据管理的新需求。相对于关系型数据库,非关系型数据库管理系统对数据一致的实时性和完整性约束要求较为宽松。目前,典型非关系型数据库管理系统有文档数据库MongoDB、键值数据库ACCUMULO、图数据库Neo4J和列数据库HBase等。
图2 数据管理技术发展脉络
4、技术多样化发展满足应用需求扩展
大数据类型的多样性,使得存储和管理技术发展更有针对性。根据数据访问接口,可分为块、文件和对象存储;根据数据结构,有文档数据库、列数据库、键值数据库、图数据库等;根据数据时序,有历史数据库Altibase、实时数据库ClustrixDB、流式数据库NuoDB和时间戳数据库Spanner等。
二、发展趋势
大数据价值的利用需求,促使存储和管理技术不断变革,主要体现在数据访问效率、资源配置灵活性和数据处理智能化等方面。
1、存储模式向分层和内存存储转变,数据更贴近计算区域使得响应更及时
通过将数据“冷、温、热”分层,达到CPU、内存、磁盘之间的容量和性能平衡,把频繁访问的数据向上移动靠近内存、不经常访问的数据向下移动靠近硬盘以及未来更高访问速度的存储介质。如英特尔基于3D X-POINT(非易失性存储技术)和NVMe(非易失性内存主机控制器接口规范)开发的傲腾内存技术,具备大容量和低延时特性,同时成本比传统内存更低,使得存储级内存成为可能,将有效支撑内存数据库(如Palantir公司的Horizon)的发展。
图3 分层存储结构(红色代表“热”数据、黄色代表“温”数据、蓝色代表“冷”数据)
2、新型管理系统向多数据模型和多计算模式并存模式转变,具有更强的数据一致性和更灵活的资源配置
新型分布式数据库NewSQL(如2018年苹果公司开源的FoundationDB等)快速发展,融合了NoSQL和传统数据库的事务管理功能和存储模式。新型大数据管理系统支持多数据模型,可实现对多类型数据的组织、存储和管理,并提供统一的访问接口。复杂数据分析中批任务、流任务并行处理的需求,促使批计算、流计算、交互式计算等多种计算模式并存。
3、存储、管理和应用等功能由分离向深入融合转变,实现数据智能化处理
管理及应用层功能正不断下移到存储层面,如内存数据库推动“应用+缓存+持久存储”的架构模型向“应用+内存数据库”转变。智能化的数据安全保护、备份、压缩、修复,以及数据分析中的预处理、建模、关联、快速索引等功能以云边协同的形式与数据存储相融合。新型数据管理架构如数据编织(Data Fabric),能自动、智能、安全地汇集多数据源,智能化处理后提供统一、可信、全面的业务数据视图,减小数字障碍,如IBM已在2021年基于数据编织推出了新一代的混合云解决方案。
(蓝海星:牛高鸣)
文章推荐
1
2
3
4
5