MATLAB算法实战应用案例精讲-【人工智能】暗数据(概念篇)
目录
前言
知识储备
大数据领域常见核心术语
算法原理
暗数据的定义和类型
暗数据的来源
暗数据的潜在风险
为什么有暗数据
暗数据改变数据分析的几种方式
暗数据解决方案
多维度
价值维度
可操作性维度
风险维度
暗数据的价值和应用案例
暗数据带来的挑战和解决方案
前言
暗数据指的是存在于组织内部但尚未被充分利用或分析的数据。这些数据通常未被结构化或整理,可能散布在各个部门或系统中,难以被直接访问或理解。暗数据可能包括未经处理的文本文件、未使用的图像或视频素材、未被分析的日志文件等。对企业来说,通过有效的数据分析和挖掘技术,如数据清洗、整合、分析和可视化等步骤,可以转化这些未被利用的数据为有用的信息,从而确保数据的准确性和可理解性,从暗数据中获取新的价值,进而支持决策制定、改善流程效率等。
IDC的调研报告显示:暗数据占数据总量的68%以上,且占比在逐年攀升。根据行业的不同,企业的暗数据在其数据总量中的占比从40%到90%不等。充分利用暗数据将为企业带来巨大的利润,但现阶段,暗数据如同不能丢弃的垃圾,会加剧数据ROT(冗余,过时和琐碎),降低数据发挥价值的效率与能力,不仅会给企业带来巨大的维护开销,同时会对企业造成潜在的风险和损失。根据Veritas公司的数据显示,平均每家公司每年要花费4650万美元来存储从未使用过或使用频率极低的数据,但却无法按需使用这些数据。目前,国内的大部分相关部门和企业并未意识到暗数据的存在,也不了解处理暗数据的意义和价值。想要做好暗数据处理,面临三个行业痛点:
· 检索难 缺乏针对暗数据的检索技术;
· 评估难 缺乏一套针对暗数据的价值量化标准和价值评估技术;
· 挖掘难 缺乏针对暗数据的存储技术。<