当前位置: 首页 > news >正文

通过调研开源基准测试集,解读大数据的应用现状和开源未来

论文导读: 这篇综述论文解读了2006大数据系统兴起以来代表性应用和开源基准测试集。近年来,随着大数据系统的快速发展,各式各样的开源基准测试集被开发出来,以评测和分析大数据系统并促进其技术改进。然而,迄今为止,还没有就这些基准测试集进行系统调研。因此,本文对当前最前沿的开源大数据基准测试集进行全面总结,阐述其历史、现状并展望下一步研究方向。首先,我们从大数据系统的角度对大数据基准测试集进行了定义和分类。随后,我们回顾了基准测试技术的三个重要方面——工作负载生成技术、输入数据生成技术和系统评估指标。最后,论文从这三个方面对现有基准测试集进行归类,并重点描述其中具有代表性的测试集,进而讨论未来研究方向,以推动该领域工作的持续发展。

大数据开源基准测试集

1. 大数据系统及开源基准测试简介

大数据系统通常被分为三个阵营,如图1所示:
(1)Hadoop相关系统;
(2)数据库管理系统(DBMSs)和NoSQL数据库;
(3)针对图数据、流数据和复杂科学数据的特殊处理需要的专用系统。

\"image\"

图1. 大数据系统分类与总述

总结归纳了当前流行的开源基准测试集,图2显示了这些基准测试集的词云图,其中词的大小和流行度成比例。

\"image\"

图2. 开源大数据基准的词云云

2. 大数据基准测试分类及发展历史

大数据基准测试集的类别:
(1)微基准测试集。这类基准测试集被用于评估单个系统组件或特定系统行为(或代码的功能);
(2)端到端基准测试集。这类基准测试集的目的是使用典型应用场景评估整个系统,每个场景都对应一个工作负载的集合。
(3)基准测试集套件是不同的微基准测试集或端到端基准测试集的组合,这些套件的目标是提供全面的基准测试解决方案。

发展历史:大数据基准测试是一个活跃的研究领域,许多基准测试集在最初发布之后仍在发展,图3显示了它们的初始发布年份。

\"image\"

图3. 大数据基准测试集发布时间轴

3. 工作负载生成技术

工作负载实现技术:我们将大数据工作负载划分为三类:
(1)I / O操作。这些操作在输入数据或文件上执行(例如,读、写、移动数据或新建、删除文件)。
(2)算法操作。当作为一种算法实现时,一个工作负载由一个或多个对输入数据的独立操作组成。
(3)基本操作(EO)。这些操作要么是标准的SQL操作符[102],要么是具有类似语法的操作符(如Pig Latin)。图4显示了代表性负载和操作的词云图。

\"image\"

图4. 代表性大数据工作负载的词云图

工作负载提交技术:我们将本文回顾的基准测试集的提交策略分成三类:
(1)预先指定。在许多基准测试集中,工作负载的输入数据、提交速率和顺序都是在执行前指定的。
(2)参数控制。这类基准测试集允许用户使用参数控制工作负载的执行。
(3)真实日志驱动。通过使用这种提交策略,基准测试集可以根据真实世界的日志来真实地复现工作负载。

开放性挑战:已有的大数据基准并不能完全符合以上三个准则:(1)相关性。鉴别被测系统的典型行为是实现高度相关性负载的先决条件。(2)可移植性。我们首先从软件系统(即软件栈)的角度讨论这个准则。(3)伸缩性。为了评估不同规模的系统,基准测试集应该能够调整工作负载的规模,同时保证其提交和混合的真实性。

4. 输入数据生成技术

大数据基准测试中的数据生成器:
(1)现有数据集:许多大基准测试提供固定大小的数据集作为其工作负载的输入;
(2)基于合成分布的数据生成器;
(3)基于真实数据的数据生成器;
(4)混合数据生成器。

开放性挑战:考虑大数据的数据量和速度,以及不同的数据类型和来源(数据种类),此处有两个具有挑战性的关键问题:第一个问题是现有的基准测试集可以构建模型来提取某些数据类型(如表格,文本和图数据)的真实数据集的特征,但是很少关注其他数据类型,如流、图、视频和科学数据。第二个同时也是更具挑战性的问题是如何评估产生的合成数据的真实性水平。

5. 评估中的指标和性能参数

评估中的指标和性能参数:
(1)通用性能指标包括响应时间、吞吐量、可靠性、可用性;
(2)体系结构指标包括执行周期划分、处理器计算强度;
(3)价格和能耗指标包括性价比指标、能耗指标。

大数据系统性能参数:
(1)系统配置参数。大数据系统中大量软件栈和多种编程语言的使用会带来大量的配置参数。
(2)资源分配参数。当数据中心中部署大数据系统时,计算和网络资源由不同系统的工作负载共享。

论文原文:2018年发表于服务计算领域顶级期刊TSC: (http://ieeexplore.ieee.org/document/7990174/),图5显示了英文原文导读图。
中文技术报告:https://mp.weixin.qq.com/s/qW2UPheanJcda_lfuTXyMw

\"image\"

图5. TSC英文原文导读图

相关文章:

  • 如何保证以太坊DApp本地存储localStorage的安全性?
  • 数据库做分表查询
  • mount时候遇到mount: /dev/sdd1 写保护,将以只读方式挂载。mount: 未知的文件系统类型“(null)”...
  • 阿里云开发者工具上手体验
  • 5_添加购物车 B+M
  • 阿里云—Gartner 2018 亚太区WAF魔力象限唯一云WAF提供商
  • DES算法,JAVA,遇到的问题
  • 服务器发送数据到另一个服务器上中文出现乱码
  • REST 规范
  • SAP CRM里Lead通过工作流自动创建Opportunity的原理讲解 ...
  • 能够在Linux系统中运行的5款大型耐玩游戏
  • ASP.NET Core 入门教程 1、使用ASP.NET Core 构建第一个Web应用
  • 第二周总结
  • THUSC 2017 D1T2 杜老师
  • JAVA企业级应用TOMCAT实战
  • 【跃迁之路】【669天】程序员高效学习方法论探索系列(实验阶段426-2018.12.13)...
  • Docker下部署自己的LNMP工作环境
  • ES6简单总结(搭配简单的讲解和小案例)
  • Invalidate和postInvalidate的区别
  • js操作时间(持续更新)
  • Linux编程学习笔记 | Linux IO学习[1] - 文件IO
  • MySQL的数据类型
  • Python利用正则抓取网页内容保存到本地
  • React Native移动开发实战-3-实现页面间的数据传递
  • 全栈开发——Linux
  • 融云开发漫谈:你是否了解Go语言并发编程的第一要义?
  • 如何邀请好友注册您的网站(模拟百度网盘)
  • 扫描识别控件Dynamic Web TWAIN v12.2发布,改进SSL证书
  • 一道闭包题引发的思考
  • ​​​​​​​Installing ROS on the Raspberry Pi
  • ​低代码平台的核心价值与优势
  • #QT(串口助手-界面)
  • #我与Java虚拟机的故事#连载01:人在JVM,身不由己
  • ${ }的特别功能
  • (11)工业界推荐系统-小红书推荐场景及内部实践【粗排三塔模型】
  • (原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)
  • (轉貼) 2008 Altera 亞洲創新大賽 台灣學生成果傲視全球 [照片花絮] (SOC) (News)
  • (轉貼) 寄發紅帖基本原則(教育部禮儀司頒布) (雜項)
  • .aanva
  • .h头文件 .lib动态链接库文件 .dll 动态链接库
  • .net core webapi 部署iis_一键部署VS插件:让.NET开发者更幸福
  • .net 写了一个支持重试、熔断和超时策略的 HttpClient 实例池
  • .net(C#)中String.Format如何使用
  • [【JSON2WEB】 13 基于REST2SQL 和 Amis 的 SQL 查询分析器
  • [C#][DevPress]事件委托的使用
  • [C#]C#学习笔记-CIL和动态程序集
  • [CSS]CSS 字体属性
  • [Eclipse] 详细设置护眼背景色和字体颜色并导出
  • [GXYCTF2019]BabyUpload1 -- 题目分析与详解
  • [HackMyVM]靶场 Quick3
  • [HOW TO]怎么在iPhone程序中实现可多选可搜索按字母排序的联系人选择器
  • [KMP求最小循环节][HDU1358][Period]
  • [LeetCode]剑指 Offer 42. 连续子数组的最大和
  • [MySQL]数据库基础
  • [NOIP2000] 乘积最大