CCF数据库专委走进高校/企业系列活动第10期 ——走进华为洛书院

阅读量:12
2021-07-07

 2021年630日,中国计算机学会(CCF)数据库专委走进华为洛书院,以北京分会场、深圳分会场、线上国际分会场线下+线上的综合形式,开展了大数据技术研讨会。本次会议由大数据系统软件国家工程实验室与华为联合主办,数据库专委会产学研工作组协办,来自华为、清华大学、北京大学、中国人民大学、西北工业大学、华东师范大学、中山大学、北京理工大学、复旦大学、武汉大学、国防科技大学等专家和老师们聚焦大数据场景下前沿数据库及数据管理技术展开交流分享。会议由专委委员、产学研工作组副组长清华大学王晨老师和华为张巍研究员共同主持。大数据系统软件国家工程实验室执行主任王建民老师在开幕式上做了致辞,鼓励高校与企业代表利用此次机会进行深入交流,未来争取做好产学研合作。

 华为洛书院成立于2019年, 是以“大数据库”竞争力构筑为目标的专家圈子。 圈子集结了华为跨团队跨领域的专家90余人,围绕大数据业务组织行业和前沿技术洞察,以及华为集团数据平台UniDB 20年大数据和数据库实践,激发专家们的技术热情,提供技术交流和观点碰撞的平台以促进大颗粒的交叉创新。


图片1-1-2


 华为鲲鹏大数据技术首席架构师Ken Zhang首先介绍了华为数据库和大数据融合的技术与产品研发总体情况,重点围绕openLooKeng的整体架构和关键竞争力技术点展开。并分享在构筑高性能跨源跨域融合分析引擎的过程中,从哪些方面借鉴了数据库领域的经典知识和技术点。然后提出一个思考未来数据库和大数据怎么样走向融合,如何相互取长补短。

 华为研发工程师廖登宏紧接着详细介绍了数据库领域技术在大数据引擎openLooKeng的融合应用:openLooKeng作为大数据领域高性能的查询分析引擎,在结合Hadoop分布式技术的基础上,借鉴融合了数据库领域常用的索引、ACID、动态过滤等相关技术,进一步提升了数据处理的能力。报告阐述了openLooKeng对这些技术的设计与实现原理,激发了大家对数据库与大数据技术融合的讨论。


图片2-2


 西北工业大学潘巍副教授进行了强事务语义键值存储系统与关键技术的报告:随着数据密集型应用的快速发展,在十数年的时间里,以经典的关系数据库为起点,数据存储和管理经历了新一轮迭代式的发展并涌现了大量面向不同领域和应用需求的软件系统和关键技术。数据处理软件栈愈发丰富,其中,大规模分布式键值型存储系统,以其灵活的数据组织形式和高可扩展、高吞吐、高可用的能力,成为构筑数据管理平台不可或缺的重要组件和基石。但是弱化了严格ACID事务语义的各种键值存储系统在某些场景下难以满足关键应用的内在需求。事务键值存储系统在此发展背景下成为新的研究热点。本次报告,以FoundationDB和TiKV两种事务键值存储系统为对象,通过分析两种系统的系统架构、并发控制、事务读写流程、分布式授时机制等关键技术,探讨事务键值存储系统的设计理念、权衡策略和一些衍生思考。

 中国人民大学张峰副教授做了一种基于压缩技术的高校大数据管理与分析的报告:大数据的重要特征之一就是数据容量大而且增长快,对大数据管理系统的数据存储和计算带来了空间和时间上的巨大压力。本研究组提出了在数据压缩状态下直接进行数据管理与分析的方法,主要思路是利用可解释性语法规则对数据进行描述,并将对数据的管理与分析操作转化为对语法的解释与修改。本次报告围绕在非结构化数据压缩的基础上进行数据管理与分析这一主题所具有的挑战、洞察、方法、及解决思路展开讨论。


图片3-3-2


 华为研发高级工程师李铮做了OmniRuntime发展趋势及应用前瞻的报告:OmniRuntime尝试将不同数据分析引擎的优化点提取出来,形成一个完整的底座,繁荣大数据引擎生态。OmniRuntime北向可以减少重复的各个引擎的优化工作,南向可以充分挖掘通用、异构算力。对于不同的应用场景,如何将OmniRuntime应用于大数据、数据库以及AI应用,同时如何实现鲲鹏、昇腾等硬件垂直优化,最终繁荣OmniRuntime生态是值得探讨的问题。                   

 华为研发高级工程师张景芳做了OmniRuntime关键技术报告:当前,主流数据分析引擎的数据处理过程可分为三个阶段,数据加载、数据处理、数据交换,不同的引擎对于这三个阶段提出自己的优化方法,由于各引擎的独立特征,形成了现在烟囱式优化现状。如何利用统一的runtime底座,南向结合同构、异构算例,北向支撑异构计算引擎,做到一处优化,多处计算引擎均能收益,是OmniRuntime的目标。报告阐述了OmniRuntime项目的一些关键技术和后续规划。


图片4-4-2


 华东师范大学徐辰副教授做了面向分布式迭代矩阵运算的混合计算策略的报告:矩阵计算广泛存在于机器学习等应用中,在ALS、GNMF等迭代式矩阵运算中,迭代矩阵的各个元素的收敛速度往往不同,但是系统执行计划反复计算其中收敛的元素。针对该问题的解决思路是增量计算,即在运行过程中重用数值不变的项的计算结果,仅计算数值发生变化的项。然而,增量计算需要额外的操作(如提取增量),导致在部分情况下增量计算会降低执行效率。因此,在增量计算策略的基础上,我们进一步研究混合计算策略,在迭代计算过程中交替使用全量计算和增量计算,从而提升性能。我们通过修改SystemDS实现了HyMac原型系统,在Spark上部署HyMac执行迭代计算与SystemDS相比可达8倍的性能提升。

报告分享之外,CCF专委王建民教授、崔斌教授、陈跃国教授、王鹏教授、袁野教授、张志威教授、陈志广副教授、宋韶旭副教授、胡卉芪副教授、刘军高工、彭煜玮副教授、王晨副研究员、黄向东助理研究员等老师在索引、压缩、JIT技术等方面均发表了观点。来自华为的50余名专家出席了研讨会。


图片5-5

线下北京分会场的参会专委与华为专家合影


 本次走进企业活动针对数据库技术在大数据产品中的应用进行了充分的探讨,线上、线下的专家和老师们展开了热烈的讨论。华为的专家们表示期待能够从高校吸收更多的先进技术,专委老师们也表示期待能与华为开展更紧密的合作,实现技术验证与应用。