01.成果简介
随着物联网和工业物联网的迅速发展、传感器采集数据成本的降低,使得基于传感器工况数据的工艺改进、运维服务等业务成为可能。这些传感器会产生海量的时间序列数据,如何高效地管理和分析时序数据成为一项重要的挑战。
针对工业物联网领域时间序列数据规模大、种类多、频率不一、查询分析复杂的特点,清华大学软件学院突破了多项核心技术,并自主研制了一款时间序列数据库产品IoTDB。IoTDB是支持物联网数据收集、存储、查询与分析一体化的数据管理引擎,支持“云-网-端”一体化部署与集成,适用于高端装备管理、工厂设备管理、高速网联设备管理等多种工业应用场景。
经国际顶级开源基金会Apache评估和认可,IoTDB已进入Apache孵化器,Apache IoTDB成为中国高校首个Apache项目。
IoTDB具有以下特点:
- 采用时间序列原生的列式存储与序列编码、压缩方式,支持单节点每秒数百万点的写入速度,可以有效管理万亿数据点;
- 多尺度时频融合数据存储与多维度高效索引,实现毫秒级数据查询;
- 支持原生索引支持时频变换、多分辨率数据查询、模式匹配等物联网数据分析性查询;
- 采用开放式文件结构,与Hadoop 、Spark 生态无缝集成,实现一份数据的查询分析一体化。
图1. IoTDB模块架构图
基于TsFile(底层文件格式)、IoTDB数据库引擎和第三方连接模块,IoTDB覆盖了从终端嵌入式设备、普通服务器、云端数据中心的“云-网-端”的全生命周期使用途径。用户可以轻量地使用TsFile(IoTDB的组件之一)文件格式来对时序数据进行高效的读写操作,也可以在服务器端搭建IoTDB数据库,对大规模时序数据进行管理。无论是文件形态还是数据库形态,都可以和第三方生态系统进行无缝对接。
图2. IoTDB覆盖“云-网-端”全生命周期
大量第三方测试表明,IoTDB的性能处于国际前列。相比于同类产品,IoTDB的写入速度领先并能保持稳定。在数据量不断增加的情况下表现出良好的可拓展性,在数据乱序的场景下性能优越,同时对系统资源消耗更低。IoTDB支持非常丰富的查询功能,在各种查询场景下均表现优越。
图3. IoTDB写入性能高效稳定
图4. IoTDB查询性能高效稳定
02.应用前景
本成果技术可应用于工业互联网(如新能源发电、工程装备机械)服务领域和物联网(如智能家电、可穿戴设备、智能网联汽车)等领域的大规模时序数据采集、存储、查询和分析。已在一些工业行业取得应用成效,如联想、金风科技、中车四方所、天远科技等。
03.知识产权
本成果已获得授权专利11项。
04.团队介绍
本成果团队长期研究大数据管理与分析技术,包括分布式数据存储与查询、数据质量、深度学习与迁移学习、业务过程挖掘等方向。团队课题负责人为王建民教授、博士生导师。团队在本领域发表国际学术论文100余篇,申请专利100余项,授权专利60余项。相关成果获2018年教育部技术发明一等奖、2018年气象学会科技进步一等奖、2014年国家科技进步二等奖、2013年中国电子学会科技进步一等奖。
05.合作方式
软件服务、软件实施、专利许可。
06.联系方式
电话:010-62798352
邮箱:liuyi2017@tsinghua.edu.cn
团队电话:010-62786972;13051000520
团队邮箱:huangxdong@tsinghua.edu.cn
成果编号:0141