暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

浅谈智慧城市中的数据治理及其案例

媛数据 2021-08-26
1772

2008年11月,恰逢2007年-2012年环球金融危机伊始,IBM在美国纽约发布的《智慧地球:下一代领导人议程》主题报告所提出的“智慧地球”,即把新一代信息技术充分运用在各行各业之中。进而引发了智慧城市建设的热潮。

01

   关于数据治理的国家政策支撑

    智慧城市IOC是指智慧城市智能运行中心,它通过集中化的智能,提供了对日常城市运营的洞察。由于信息不互通,数据孤岛等问题,加快智慧城市建设进程,2016年国家"三融五跨''思想提出,国家电子政务外网作为国家统一的政务网络平台的公共基础支撑作用。具体指技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。国家于2018年相继发布《大数据标准化白皮书》,其中的附件文案也制定了一系列关于数据治理的标准。

 02

 

 IOC解决方案等浅谈

      智慧城市的理念是通过普遍的感知将城市生活中的各种设施中形成庞大物联网,进而通过云计算的方式对各种信息进行数据融合和挖掘,然后向城市居民智能化优质服务,使得城市管理和服务带更富有预见性、创造性、协作性,高效和科学。为此,智慧城市需要打造泛在的物联网络、信息交换网络以及公共服务平台,从技术角度来说,总体体系架构具体包括感知层、网络层、平台层及智慧应用层4 个部分,同时包含信息安全保障、标准管理和运营与运行管理三大体系。在IOC的解决方案中,城市运营管理中心以SCP架构理念为指导思想,实现城市级资源共享、协同管理和应用聚合。以下的解决方案作为参考:

  03

 —

 智慧城市中的政务大数据

      政务数据,其实就是政府单位在执行对城市、社会、公众的服务、管理等行政职能过程中,拥有和管理的数据,如典型的公安、交通、医疗、教育等。这些数据包含了政府开展工作产生、采集以及因管理服务需求而采集的外部大数据,为政府自有和面向政府的大数据。

从数据类型来看,政务数据分为五类:

1、政府才有权利采集的数据:如资源类、税收类、财政类等;

2、政府才有可能汇总或获取的数据:如生产建设、农业总、工业总等;

3、由政府发起产生的数据:如城市基建、交通基建、医院、教育师资等;

4、政府监管职责所拥有的数据:如人口普查、金融监管、食品药品管理等;

5、由政府提供服务所产生的消费和档案数据:如社保、水电、公 安等。

从数据属性来看,政务数据又分为:

1、自然信息类:地理、资源、气象、环境、水利等;

2、城市建设类:交通设施、旅游景点、住宅建设等;

3、城市管理统计监察类:工 商、税收、人口、机构、企业、商品等;

4、服务与民生消费类:水、电、燃气、通信、医 疗、出行等。

 04

 —

 数据治理模型及其可操作的案例

      谈到数据治理,一般会涉及到治理什么、怎么治、由谁治的问题,而对于怎么治或者说数据治理落地的方案常见的治理模型,以模型主要包含三部分,即数据接入模块、数据治理模块和数据服务模块。其中数据接入需要采集、汇聚等操作,从而构建异质的大数据。其次数据治理模块主要对数据进行一系列预处理过程,从而构建更加容易建模的数据。最后的数据服务模块则通过分析与加工,为外部提供各种新的能力。

1. 数据接入

      一般而言,现实世界的数据主要分为结构化或非结构化,而这些图像、文本等各种数据都应该进行统一的接入与管理。对于数据源之上的接入模块,它主要完成不同类型的抽取汇聚任务配置,包括异构数据库之间数据传输汇聚,不同类型的文件数据和服务接口间相互传输。

2. 数据治理

      接入后的数据都是比较杂乱的,它本身带了一些冗余或缺失的信息。因此,数据治理模块主要包括对汇聚库中的数据进行数据清洗和数据规范,必要时进行主题划分和数据关联,然后进行数据集成。治理完成后的数据汇聚到数据共享中心中,并用于后续的建模。

      其中我们比较熟悉的就是数据清洗,它会对数据进行审查和校验,从而过滤不合规数据、删除重复数据、纠正错误数据、完成格式转换。

3. 数据服务

      数据治理的目标是提供一个可直接使用且方便管理的数据库,它最终还是要为各种模型提供学习基础。而模型,最终也是要提供各种智能服务,因此这一部分也应该得到规范的管理。

      基于数据治理模块,数据服务模块最开始会根据数据共享中心构建知识图谱,它不仅向使用者提供模型管理、模型探索、数据探索等数据服务,同时还向专业人员提供挖掘分析、专家建模等智能数据服务。

      其中核心的知识图谱是由节点和边组成的巨型知识网络,节点代表实体、边代表实体之间的关系,每个实体 还通过键值对来描述实体的内在特性。领域专家们可以根据知识图谱中的实体和关系等核心数据进行建模,并进行高层次的数据挖掘分析和加工。

统一数据接入、治理和服务模块,就能构造出数据治理模型,它规定了最一般的处理流程。吴信东教授说:「只有通过多维感知,利用数据治理技术,将高质量的数据连接起来,才能进行知识的智能抽取,基于知识图谱、暴力挖掘对知识进行多维度分析推理,构建决策模型,完成从数字化、网络化到智能化的跃迁。

常见的一个数据治理小案例,比如,智慧城市中教育类项目,通常会涉及到EXCEL文档数据处理,入库前要进行数据人工处理。

 案例:教育行业中EXCEL类型数据如何治理后入库

1.确定主题

2.故事线规整文件数据、字段冗余、字段合并

3.三范式问题

4.字符串类型的数据,涉及到类型的,按行业标准,统一大类,比如项目对应学校的划分,按教育局的来说,分 幼儿园、义务教育、高等学校确定好枚举值

5.度量类数据必须统一精度范围

6.缺失、异常、空值处理规则,数据清洗规则 

7.excel中日期、科学计数法数据处理成文本,特别注意,excel文件,WPS高版本才能显示6万条数据以上

8.表关系处理,比如是多个文件合并成几个文件,确定好,哪个为主表,当匹配键或者关联码出现匹配不上问题时,该怎么处理。

9.涉及特殊业务、补充、上述的规则要和对应的相应的人员进行会议确定、制定规则后再进行处理,可以先按照1~8的处理方案来定下方向与问题清单,后续会议后针对这些问题,制定一些清洗规则。

文章转载自媛数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论