当前位置: 首页 > news >正文

《大数据管理概论》一第2章‖大数据融合2.1 引言

本节书摘来自华章出版社《大数据管理概论》一书中的第2章,第2.1节,作者 孟小峰,更多章节内容可以访问云栖社区“华章计算机”公众号查看

第2章‖

大数据融合

2.1 引言

大数据时代人们面临的最根本挑战是从数据中凝练可领悟的知识[10,11],
其关键技术是数据的集成或融合[12]。进入21世纪以来,这些技术已经取得了重大进展,如深网(Deep Web)数据集成技术[13]、知识库(Knowledge Base,KB)技术[14,15]、关联数据(Linked Data)集成技术[16]、大数据集成技术[17]等。这些技术在结构化、半结构化、非结构化等各种类型的数据处理上已形成优势,并广泛应用于各个领域:①商业领域,如Google搜索引擎借助Google知识图谱[14]、微软的必应搜索引擎借助知识库Satori[18]提高检索质量和检索效率;②科学领域,如IBM的Watson问答系统借助DBpedia[15]、YAGO[19]、Freebase[20]提供语义感知的问答服务;③专业领域,如生命科学利用Bio2RDF[21]、Neurocommons [22]等知识图谱作问答和决策。
然而,在使用这些已有技术获取知识时出现了如下问题:①获取的知识规模宏大,但缺乏可理解性和可实用性。以知识库为例,如Google知识图谱[14]目前包含多于5亿实体和350亿条实体间的关系信息,至少囊括几千种谓词,这些谓词还在不断增加和变化。要想让用户掌握这些谓词和模式不太现实,所以,当他们面对这些千丝万缕的关系时,很难从本质上理解和消化这些知识,从而降低了大数据应有的价值。②得到的知识品质有差别[17],存在不一致性甚至冲突,尤其是时态型数据,知识的品质更难以有效甄别。并且融合的结果缺乏可解释性,从而导致其可靠性受到质疑。③缺乏与领域知识的结合,并且获取的知识只处于表层理解,导致融合结果与实际应用需求存在鸿沟,例如,一些已被发现的表层现象、规律等没有进一步形成普适机理,使得这种规律性的发现不能有效反馈给融合
过程。
经研究发现,引发这些问题的关键是大数据在不断动态演化,并且需要从多个维度、多种粒度进行解释。此外,数据的组织方式不同得到的知识品质也会有差异,犹如碳原子既可以构成钻石,也可以构成石墨。所以我们认为当下面临的一个突出问题是如何有效地融合知识使大数据的价值最大化,此即大数据融合问题,其关键是突破上述局限——需要把目标聚焦于大数据新的特征和融合方式。
为此,2.2节给出了大数据融合的概念,并分析了融合需求和融合对象的独特性。2.3节总结归纳了现有融合范式,并分析对比了这些融合范式的共同点和各自的优缺点,以及面对大数据,这些融合范式存在的共同缺陷,提出适合大数据的新型融合方法论——动态演化的数据融合与多维度、多粒度的知识融合双环驱动的大数据融合。2.4至2.6节分别探讨大数据融合中数据融合、知识融合和驱动枢纽的内涵、实现方法和技术
难点。

相关文章:

  • 重磅启动!翻译斯坦福大学课程:深度学习与自然语言处理
  • 《Android传感器开发与智能设备案例实战》——第2章,第2.2节安装JDK
  • Machine Learning in Action -- Support Vector Machines
  • Linux 内核测试与调试(3)
  • 《微信公众平台开发:从零基础到ThinkPHP5高性能框架实践》——3.5 本章小结...
  • 《Adobe Illustrator CS5中文版经典教程》—第0课0.15节创建和编辑渐变
  • 《鸟哥的Linux 私房菜 基础学习篇(第三版)》——1.4 重点回顾
  • 《贝叶斯方法:概率编程与贝叶斯推断》——1.2 我们的贝叶斯框架
  • 《Wireshark网络分析就这么简单》—从一道面试题开始说起
  • jobs 命令示例
  • 《Haskell并行与并发编程》——第2章,第2.4节Deepseq
  • 《C++ AMP:用Visual C++加速大规模并行计算》——3.5 array_view T,N
  • 《用友ERP-U8(V8.72)模拟实战----财务、供应链和生产制造》一1.4 系统管理注册和导入演示账套...
  • 《Unreal Engine 4蓝图可视化编程》一导读
  • 《Splunk智能运维实战》——3.8 使用散点图根据大小和响应时间标识离散的请求...
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • [case10]使用RSQL实现端到端的动态查询
  • 《网管员必读——网络组建》(第2版)电子课件下载
  • 08.Android之View事件问题
  • Android Studio:GIT提交项目到远程仓库
  • CentOS从零开始部署Nodejs项目
  • FineReport中如何实现自动滚屏效果
  • IP路由与转发
  • JavaScript 基本功--面试宝典
  • JavaScript-Array类型
  • Java多态
  • js面向对象
  • Linux快速复制或删除大量小文件
  • Making An Indicator With Pure CSS
  • Octave 入门
  • 分布式任务队列Celery
  • 力扣(LeetCode)357
  • 前端代码风格自动化系列(二)之Commitlint
  • 如何邀请好友注册您的网站(模拟百度网盘)
  • 小程序开发之路(一)
  • 容器镜像
  • ​520就是要宠粉,你的心头书我买单
  • ​软考-高级-信息系统项目管理师教程 第四版【第19章-配置与变更管理-思维导图】​
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • #免费 苹果M系芯片Macbook电脑MacOS使用Bash脚本写入(读写)NTFS硬盘教程
  • $var=htmlencode(“‘);alert(‘2“); 的个人理解
  • (1)(1.19) TeraRanger One/EVO测距仪
  • (C#)获取字符编码的类
  • (PyTorch)TCN和RNN/LSTM/GRU结合实现时间序列预测
  • (附源码)ssm户外用品商城 毕业设计 112346
  • (原+转)Ubuntu16.04软件中心闪退及wifi消失
  • (转)清华学霸演讲稿:永远不要说你已经尽力了
  • ./configure,make,make install的作用(转)
  • .NET Core 2.1路线图
  • .NET Standard 的管理策略
  • .Net 垃圾回收机制原理(二)
  • .NET和.COM和.CN域名区别
  • @javax.ws.rs Webservice注解
  • @value 静态变量_Python彻底搞懂:变量、对象、赋值、引用、拷贝
  • [] 与 [[]], -gt 与 > 的比较