元数据的治理与采集

一个软件产品存储架构是需要仔细斟酌和考虑的事情,既要保持稳定性也要保持跟上主流技术的发展趋势。元数据产品从最初主要支持关系型的数据管理到现在的大数据平台、数据湖、微服务这种新的数据架构形态的管理。原有的存储架构从分析元数据关系效率、检索速度都不能满足应用的需求了。

我们要想采集元数据首先得明白,什么是元数据,元数据都存在哪里?

元数据MetaData通俗的解释是用来描述数据的数据,实际来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。比如数据库的Schema、Table、Column信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等等。

以大数据平台为例,元数据贯穿大数据平台数据流动的全过程,主要包括数据源元数据、数据加工处理过程元数据、数据主题库专题库元数据、服务层元数据、应用层元数据等。数据治理关键就是收集信息,很明显,没有数据就无从分析,也就无法有效的对平台的数据链路进行管理和改进。所以元数据管理平台很重要的一个功能就是信息的收集,至于收集哪些信息,取决于业务的需求和我们需要解决的目标问题。

如何采集元数据?

元数据采集是指获取数据生命周期中的元数据,对元数据进行组织,然后将元数据写入数据库中的过程。不同来源的元数据获取获取方式也不大相同,在采集方式上有使用包括数据库直连、接口、日志文件等技术手段,对结构化数据的数据字典、非结构化数据的元数据信息、业务指标、代码、数据加工过程等元数据信息进行自动化和手动采集,元数据采集完成后,被组织成符合CWM模型的结构,存储在关系型数据库中。

常见的元数据管理工具架构是传统的集中式WEB应用架构,所有的功能模块都集中在一个应用程序中。

现在人们对元数据管理工具采集的元数据时效性越来越高,我们元数据管理工具会管理很多来源的元数据,配置很多采集任务定时去采集,如何高效的完成采集任务,影响着元数据管理工具存储的元数据时效性。

我们原先采集任务策略是单一采集程序串行执行采集任务,这样的策略采集效率是很低的,为了提高采集效率,我们就采用多个采集程序并发执行采集任务。

我们将元数据管理工具分为一个应用程序和N个采集程序。应用程序与采集程序是一对多关系,采集程序服务可以并行执行元数据采集任务。应用程序端包括元数据管理,元数据展现,元模型管理,元数据分析等模块。采集程序端是将目标数据源里的元数据抽取到元数据存储数据库,以供元数据管理工具使用。

我们在北京某政府城区做大数据体系建设项目时,发现该城区经过几年的建设,信息系统已基本覆盖各部门的业务,提高了各部门的信息化水平。但随着区领导对城市精细化治理、健康医疗等跨领域业务的关注,以及信息技术的发展,传统的信息系统建设方式和技术架构已无法满足新时代的需求。因此,需要对传统的技术架构进行改造,并建设大数据分析平台,对全区政务资源进行全面的梳理,完成政务数据的汇聚,适度引入互联网数据资源,以重点领域为示范,开展大数据创新应用。

针对客户面临的挑战,东软大数据体系建设方案提供以下能力应对:

专业的咨询规划团队,给客户的顶层设计规划提供咨询指导服务

东软作为国内政务大数据体系建设、政务资源共享、放管服等领域的知名厂商,在该行业深耕多年,拥有专业的政务咨询规划团队,为客户提供过数千大型政务服务项目的咨询规划工作,包含国家人口库建设、工商总局法人库建设、国家信用库建设等大型国字头项目的咨询、规划、指导、业务梳理以及参与相关标准制定等工作,积累了丰富的政务项目经验,加之东软参与了多个国家级、省市级政务数据标准的制定,从项目的交付上,既能保证政务项目通常交付时间紧、高标准高要求的快速落地,又能保障项目的交付质量和所遵循的各类政务规范标准。东软政务大数据体系建设,已然成为行业的领军者。

东软专业大数据支撑平台,涵盖大数据每个环节的支撑能力

东软大数据支撑平台的定位是一个专业的综合技术支撑平台,提供各类政务数据采集服务(接口采集、关系型数据库采集、Nosql数据库采集、僵尸系统数据采集、网络爬虫采集、日志数据采集)、数据共享交换服务(数据交换、数据比对)、数据计算存储服务、数据治理服务(主数据、元数据、数据清洗转换、数据质量校验)、大数据分析服务、数据展现服务、数据对外开放共享服务、数据安全管控服务等,并通过持续不断的优化,满足各单位对大数据分析的需求。每个环节既可以独立支撑大数据体系中的一部分与其它友商的总体方案进行集成,也可以以体系化的综合服务平台方式支撑整个大数据体系的稳健运行,为上层政务大数据业务的开展奠定基础。

相关产品

2019-10-11T17:41:14+00:00