1. 论坛组织机构
论坛主席: 詹剑锋(中科院计算所)
                    陈跃国(中国人民大学)
论坛成员:鲁小亿(俄亥俄州立大学)
                    曹政(阿里巴巴集团)
                    程华 (56所)
                    武彤(中国计量科学院)
                    张蓉 (华东师范大学)
                    高婉玲(中科院计算所)
                    覃雄派(中国人民大学)
2. 论坛简介
    基准评测与性能优化是系统研发的重要驱动力量。本论坛致力于对复杂系统进行基准测试,测量和优化,包括(但不限于)大数据,AI,区链块,数据中心,云计算,高性能计算,移动机器人,边缘计算和雾计算,科学数据,物联网和其他各种各样行业系统如教育系统,金融系统和电力系统等。本论坛力图结合一些评测基准的研发和使用经验,围绕系统优化的目标,从多应用领域展开讨论。以期从事基准研发和性能优化的学术界和产业界人士共同探讨、共同进步。
    论坛的研讨主题包括:
(1)大数据基准研发
(2)大数据系统基准评测
(3)系统性能优化策略
(4)大数据系统研发
3. 论坛日程
4. 论坛特邀报告
特邀报告1:High-Performance Datacenters and Clouds Need RDMA Networks and Systems
特邀报告摘要:
The increasing demands of high-performance computing and communication have been driving the networking speed increase from 1Gb/s to 100Gb/s or higher. The traditional Sockets-based TCP/IP protocols can no longer keep up with the increasing performance demand. Consequently, the advanced capabilities of RDMA (i.e., Remote Direct Memory Access) enabled networks are paving the way for designing novel high-performance communication and I/O protocols in data centers, blurring the boundary between local and remote data access. However, fully utilizing RDMA-capable networks for the end applications is still full of challenges. In this talk, I will first examine the challenges in designing RDMA-based communication and I/O protocols over high-speed networks (e.g., InfiniBand, RoCE). Then, I will discuss how we co-design different components with RDMA in a broad range of systems from the areas of HPC Cloud (MPI-on-Cloud), Big Data Analytics (Hadoop/Spark/Memcached), and Deep Learning (TensorFlow) to overcome these challenges. In-depth case studies will show that how RDMA-based designs can benefit not only performance, but also other aspects such as scalability, fault-tolerance, and availability in these systems. All these findings demonstrate that High-Performance Datacenters and Clouds Need RDMA Networks and Systems!
特邀专家简介:
Dr. Xiaoyi Lu is a Research Assistant Professor of the Department of Computer Science and Engineering at the Ohio State University, USA. His current research interests include high performance interconnects and protocols, Big Data Analytics, Parallel Computing Models, Virtualization, Cloud Computing, and Deep Learning frameworks. He has already published more than 100 papers in major International conferences, workshops, and journals with multiple Best (Student) Paper Awards or Nominations. He has delivered more than 100 times of invited talks, tutorials, and presentations worldwide. Recently, Dr. Lu is leading the research and development of RDMA-based accelerations for Apache Hadoop, Spark, TensorFlow, HBase, and Memcached, and OSU HiBD micro-benchmarks. These libraries are currently being used by more than 285 organizations from 34 countries under the HiBD and HiDL projects. He is also leading the research and development of the MVAPICH2-Virt (high-performance and scalable MPI for HPC cloud) project. More details about Dr. Lu are available at http://www.cse.ohio-state.edu/~luxi.
特邀报告2:应用驱动阿里巴巴基础架构演进
特邀报告摘要:
数据中心设计的关键问题之一,就是如何在一定的成本功耗边界下,拿到更高的有效性能。进入后摩尔定律时代,实现系统架构与应用需求的最优匹配,也就是领域定制成为这一问题的重要答案。而这一切的基础就是理解应用需求,从数据中心基础设施的角度出发,就是要让应用“白盒化”。应用的白盒化就是做Benchmarking,抽象阿里巴巴业务的典型特征,然后依据这些特征进行设计,这样基础设施设计既能做到业务驱动,又能与生产系统一定程度解耦,不需要部署完整生产系统。本报告将介绍阿里巴巴基础架构在Benchmarking领域的工作计划和进展,期待与学术界有更紧密的互动。
特邀专家简介
曹政,阿里巴巴集团基础设施事业群(AIS),任资深技术专家,负责下一代阿里巴巴数据中心架构的研发,为指导阿里巴巴基础架构的设计,目前正在开展体现阿里巴巴业务特征的Benchmarking工作。曾获得中科院计算所计算机系统结构方向博士,加州大学戴维斯分校博士后;2009~2016年就职于中科院计算所,副研究员,青促会会员,主要负责曙光系列高性能计算机的研发工作,研究领域包括高性能互连网络、异构计算架构和光互连网络,骨干承担了曙光5000、曙光6000等系统的硬件架构设计和核心芯片开发。
特邀报告3:面向云计算的计算性能基准计量测试工具研究
特邀报告摘要:
本研究从计量学的角度研究了基准开发工具的原则和方法学,并在此指导下开发了云计算计算单元计算性能计量测试工具和服务器能效评价计量测试工具,包含计算负载,内存和存储负载。同时还有不同负载水平下的测试包括空闲模式。云计算单元计算性能计量测试工具的测试重复性优于1%,服务器能效评价计量测试工具的空闲模式测量不确定度优于1%,服务器能效的综合测试不确定度优于3%。研究的成果有利于统一云计算服务提供商的不同云主机的计算性能,服务器能效评价计量工具有利于服务器能效标准的制定和实施,为服务器的节能评价提供技术基础。
特邀专家简介:
武彤,中国计量科学研究院,一直从事数据中心基础设施及云计算领域的计量、测试和认证工作。
特邀报告4:Enormous Test Database Generation
特邀报告摘要:
Synthetic data generation is an essential and highly challenging task, important for database manage- ment system (DBMS) testing, database application testing and application-driven benchmarking. Prior studies on data generation suffer common problems of limited parallelization, poor scalability, and excessive memory consumption as well as exhaustive test ability, making these systems unsatisfactory to terabyte scale data generation. In order to fill the gap between the existing data generation techniques and the emerging demands of enormous test databases, we focus on designing and implementing new data generators supporting for DB testing, with the characteristics of fully parallel data generation, linear scalability and austere memory consumption.
特邀专家简介:
张蓉,华东师范大学数据科学与工程学院,教授,博导。自2004年起,一直致力于分布式系统方面的研究工作,包括:分布式数据流系统、分布式数据库、数据库评测等。作为第一作者或者通信作者在国内外期刊杂志和学术会议上发表四十余篇学术论文,包括分布式系统或数据库领域顶级会议USENIX ATC、SIGMOD、ICDE 等,系统领域顶级杂志TPDS,KAIS等。主持或参加多项国家自然基金(重点)项目以及国家重大项目(973,863)。曾获上海市科技进步一等奖(排名第四)。
特邀报告5:BigDataBench: 基于Data Motif的大数据和AI评测基准
特邀报告摘要:
Benchmark是指导系统设计和优化的基础。大数据和AI的蓬勃发展催生了相关基准测试的研究,然而,应用领域的广泛性、数据类型的多样性和数据操作的复杂性使得大数据基准测试集的设计面临很大的挑战。考虑到评测的可扩展性、可移植性、可重复性以及结果的可解释性,如何理解大数据和AI负载,挖掘其典型的操作模式(data motifs)显得尤为重要。另外,为了评测的公平性和不同领域间的一致性,评测基准需要考虑多样的数据集和领域中新兴的技术和算法。报告首先介绍大数据和AI的基本操作抽象data motif,然后介绍基于datamotif组合构建的大数据和AI评测基准—BigDataBench4.0 (http://prof.ict.ac.cn). 它涵盖了13种不同类型的数据集,47个大数据和AI负载,总共覆盖7种负载类型以及16种不同的软件栈。
特邀专家简介:
高婉玲,中科院计算所博士研究生,从事大数据基准研究、大数据分析方面的研究工作。
特邀报告6:TS-Benchmark时序数据库评测基准与系统评测对比分析
特邀报告摘要:
本项研究结合风力发电厂的传感器监控应用场景,抽象出数据模型,并对负载进行了深入分析,负载涵盖了为监控目的服务和为问题诊断服务的数据查询要求,在此基础上开发了时序数据库基准评测工具TS-Benchmark。该Benchmark具有良好的扩展能力,可以通过可插拔的适配器的方式,实现对目标数据库的评测。我们测试和对比了InfluxDB、IoTDB、 OpenTSDB、Druid、TimescaleDB 、Riak TS等目标数据库,并对各系统性能与实现原理加以深度对比。
特邀专家简介:
覃雄派,男,博士,中国人民大学信息学院讲师、硕士生导师,目前主要从事高性能数据库、大数据分析、信息检索等方面的研究工作,主持1项国家自然科学基金面上项目,参与多项国家“863”计划、“973”计划及国家自然科学基金项目,在国内外期刊和会议上发表论文20余篇。
论坛主席:詹剑锋
        詹剑锋,国科大岗位教授,中科院计算所系统结构国家重点实验室研究员。主要研究基准测试、并行与分布式系统、领域相关的软硬件系统和医学大数据。创建了基准测试领域跨学科国际会议 Bench、担任国际期刊TPDS副编委。代表性的研究工作有:Big Data/AI Data motif、大数据和AI基准测试BigDataBench;集群和云计算管理软件(已转移到上市公司曙光);数据中心节点操作系统(已转移到华为公司);先后获得国家科技进步二等奖、中科院杰出成就奖,IISWC 2013 最佳论文奖和华为技术贡献奖。
论坛主席:陈跃国
        陈跃国,中国人民大学信息学院教授,博士生导师,中国计算机学会数据库专委委员、中国通信学会云计算与大数据专委委员、FCS青年编委。2009年在新加坡国立大学获博士学位,2010年和2014年MSRA访问学者,2017年UIUC高级研究学者。主要从事大数据实时分析系统、大数据系统基准评测、语义搜索、知识图谱等方面的研究工作。在SIGMOD、SIGIR、WWW、ICDE、AAAI、TKDE等国内外学术期刊和学术会议上发表论文40余篇。目前主持国家自然科学基金广东大数据科学中心联合基金重点项目一项《政府治理大数据行为知识图谱关键技术研究》,承担广东省重大科技应用项目一项《高通量大数据实时商业智能系统产业化实现》,获得教育部科技进步一等奖一次。