2019年9月5日,成都高新区管委会、中国标准化研究院主办,成都高新区市场监督管理局承办的第一届全国工业数据、知识和创新管理标准化大会在菁蓉汇隆重召开。东软集团平台产品事业本部先行产品研发事业部副总经理刘长虹,出席工业数据分论坛并发表演讲《工业大数据价值创造最后一公里-工业知识图谱》。

刘长虹提出,当前在工业领域更多还是依靠专业人员的知识经验去解决问题。他认为工业大数据在发现分析问题之后,只有提出解决方案才能真正的形成数据价值闭环。
工业领域体系庞杂,知识关系异常复杂,远远超过人脑的处理能力,且知识多以非结构化的形式存储,企业在面临海量非结构化数据的情况下往往存在着技术能力不够、投入成本高昂、以及知识处理能力不够等挑战。
未来,工业企业若想在激烈的市场竞争中持续发展,必然需要积累并应用知识与经验,工业知识图谱正是为助力工业企业向知识密集型企业、信息科技型企业转型而产生。
东软知识图谱的由来
刘长虹介绍,东软在7年前就开始进行医疗领域的知识图谱构建,从电子病历结构化着手,涉及到自然语言处理、深度学习等人工智能技术。目前,SaCaDeepCogni医疗健康知识图谱覆盖112个专业科室,1.6万种ICD-10编码疾病,200余种症状和千余种其他临床表现,106个身体部分,76种主要体检与辅检手段等医疗健康信息,节点规模16万以上。同时构建了面向疾病诊疗过程的知识图谱,支持800余种常见疾病,并正在构建面向专科专病的知识图谱。在电子病历分析,自诊分诊机器人、医疗过程辅助决策及电子病历智能质控等医疗人工智能认知服务与应用的研发工作中起到重要支撑作用。
工业知识图谱的应用
刘长虹认为,相比医疗行业,我国工业领域的知识图谱还是处于一个相对初级的阶段,我们在医疗领域自主研发的知识图谱构建工具,经过学习迁移,结合工业领域业务知识和数据能进行有效的应用。
知识图谱在工业领域的主要应用是知识发现和辅助决策。工业数据来源于企业IT系统、企业内部电子文档以及外部文档和网络资源等,将所有数据进行知识分类,如设备知识类、缺陷、检修、安全类、流程类、政策规定类。根据业务进行知识图谱的构建,并服务于各部门员工。工业知识图谱并非意图取代人类工作,而是为了更高效的协助人工操作和决策,例如让新员工在系统的协助下,拥有和老员工同等的专业经验,减少由于经验不足导致的误判和误操作等。

知识图谱构建与应用示意图
关于SaCa DeepCogni
SaCa DeepCogni是基于自然语言处理、机器学习等技术的知识服务平台。提供包括分词、分类、概念抽取、实体识别、情感分析、关系抽取、自动摘要等各种语义分析服务,可以分析各种非结构化数据,如社交媒体、互联网文章、企业内部文档、邮件等,帮助企业快速构建基于语义分析的人工智能应用。