当前位置: 首页 > news >正文

终于有人把数据、信息、知识讲明白了

bf61eec0f117bd29d324bb115caf6041.gif

97bffffa53b75b0cbfad6148c887489e.png

导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结出来的一门学科,专门研究有关信息处理和可靠传输的一般规律。这一理论对计算机技术的发展具有重要意义。为了更好地阐述这一理论,让我们先来讨论几个大家耳熟能详的词:数据、信息、知识。

8b9d03269f34cd50cdc66884dca8043d.png

作者:徐晟

来源:大数据DT(ID:hzdashuju)

d84803a5c7b96dd55be9a798bc8d42f6.png

01 数据是一组有意义的符号

数据无处不在,只是它们没有实体。

过去,人们习惯把数字的组合称为数据。但在今天,这样的理解显然不够全面。那么是否可以把数字、字符、字母的集合称为数据?也不准确。

在今天“大数据”的语境中,数据是可以被记录和识别的一组有意义的符号,一般可通过原始的观察或度量得到。数据是对客观事物的逻辑归纳,可以用来表示一个事实、一种状态、一个实体的特征,或一个观察的结果,有些是用于描述某个对象的事实性数据,有些则是通过观察、分析、归纳得到的总结性数据。

数据可以是连续的,比如无线电通信时在空气中传输的电磁波,它们是模拟数据;数据也可以是离散的,比如在计算机中存储的文档和照片,它们是数字数据

承载数据的形式有很多,不仅包括文字、数字、符号、图像、语音、视频,也可以是对某个事物的属性、数量、位置、关系的抽象表示。大气的温湿度、汽车的行驶路线、学生的档案记录、商务的合同,这些都是数据。

我们平时用电子设备看新闻、拍照片、买东西、打游戏,本质上都是在和数据打交道。在计算机中,它们是一连串包含有0和1的二进制数的组合。

76e325015679e05e2c1d051d0c7ee243.png

02 信息是用来消除不确定性的

现在我们来明确一下什么是数据,什么是信息。当人们在研究甲骨文时,上面记录的符号仅仅是一些数据。要读懂这些数据,就必须了解数据背后要表达的含义。一旦对数据做出解释,我们就能得到甲骨文上的信息。

数据与信息既有联系,又有区别。数据是信息的载体,信息则需要依托数据来表达。它们是形与质的关系,两者密不可分。

信息由数据加工得来,它可以由数字和文字表达,也可以表现为其他具有意义的符号,其承载形式不重要,重要的是信息能让我们了解一些事情、鉴别一些真伪、佐证一些观点。也就是说,尽管数据存在的形式多种多样,但我们真正想要获得的是信息。

“信息”作为科学术语最早出现在哈特莱1928年撰写的论文《信息传输》中,在该论文中他首次提出了将信息定量化处理的设想。1948年,信息论创始人、美国数学家香农发表了一篇有着深远影响的论文—《关于通信的数学原理》,他明确指出了“信息是用来消除随机不确定性的东西”

在香农看来,一旦我们想要对信息进行量化和比较,我们就不要去关注这些信息到底承载了什么内容,而是要看这条信息出现后,是否改变了某些不确定性事件的概率。今天这一定义已经被看作是对“信息”的经典定义,在各种场合不断被人引用。

无论是数字、字符或它们的组合,如果我们无法解读,就不能称其为信息。有一个重要的判断标准是,看它是否承载了有用的内容。无论是石头上刻的画、纸上写的字、墙上的涂鸦还是电脑中的文件,只要它们能表达确切的含义,就能认为是信息。

一串11位数字的号码,如果它是随机数字,则谈不上是信息。如果我告诉你,这串数字是我的手机号,它就消除了不确定性,它便是一种信息。信息是把人们不清楚的给说清楚的那些内容,如果已经知道了,就不能算作新的信息。

举例来说,今天任何一个小学生都知道地球是圆的,地球自转产生了白天和黑夜。这在今天看来是一个基本常识,但我们的祖先并不知道。如果我们把发明文字作为人类文明的起点,那么大约经过5000多年,也就是直到15世纪,人们才开始接受地球是一个大圆球的观点。

虽然“地球”对于今天的小学生来说不算是新的信息,但是对于古人来说,它不仅是信息,而且信息量巨大。

你或许已经发现了,信息会因场景而定,因每个人的主观认识而定。同一条信息,对一些人是有用的,对另一些人或许就没用了。

ec363eec516549ee553fb3afeb94135b.png

03 知识是对信息的总结和提炼

随意给出3个数字:68、21、192。这3个数字仅仅是数据。现在给它们加上一些说明,比如:衣服的价格是68元,今天的气温是21摄氏度,小明爸爸的体重是192斤。这些数据有了明确表达的含义,它们就是信息。

不仅如此,我们还能基于这些信息给出一些判断:衣服不是很贵,天气有点凉爽,男人该去减肥了。做出这些判断,需要依赖我们平时生活中积累的经验和常识,即知识。

知识是对信息的提炼和概括,它是高度概括的信息。如果说信息可以解答一些简单的问题,比如“谁”“在哪里”“做什么”,那么知识可以回答一些更具深刻认知的问题,比如“怎样”“为何”。

日常生活中最基本的知识是常识。比如明火不能碰、热油不能遇水、人有生老病死、月有阴晴圆缺,它们大部分来自生活,是大家认为都该懂得、不言自明的知识。今天很多约定俗成的常识,是由我们的祖辈口口相传、代代相承而来。人并不是天生就有常识,知道火为何物、火可伤人、火可熟食。很多道理都是从生活实践中总结而来的。

现如今,对于人工智能来说,要解决的核心问题是让计算机具有常识。很多常识背后有着复杂的知识体系,机器必须真正“理解”知识,而不是“记忆”它们。

举例来说,计算机或许能通过数据样本学习,知道人类有头、手、脚等身体部位,但它很难理解既然这些部位都长在人体上,为何只有头上有眼睛,手和脚上却没有?又比如,计算机学会并知道了“人有2只眼睛”,但它无法判断这个世界上是否存在“有1只眼睛的人”和“有3只眼睛的人”。

如今的人工智能只能从数据中学习到数据之间的联系,它还不能很好地处理有关常识的问题,这方面人们还有很长的研究之路要走。

以上讨论的“知识”,指的都是人脑中的知识。它和计算机要处理的“知识”是不同的。从本质上讲,计算机只是模仿人类的知识,它们并没有真正掌握这些“知识”。计算机只是通过一些特定方法把人类知识表达出来。而这个特定方法是基于图技术

图是一种表示知识的工具,是描述知识的状态、关系、路径距离等相关要素的最自然的数学表达。它擅长存储和处理复杂的网状关系,所以在知识图谱、社交网络、用户关系分析等领域有着广泛的应用。

近年来,基于图技术的知识图谱是十分热门的研究领域。比如大众熟知的维基百科就是一个知识图谱应用。知识图谱可以用来描述各种实体以及它们之间的关系。它是一个庞大的图形网络知识库。在这个网络中,每个节点是一个实体,比如人名、地名、事件、活动,任意两个节点之间的边表示它们之间存在关系,如图3-1所示。

97d6331db2ab82b04ca5d756d7de4544.png

▲图3-1 基于图形结构的知识图谱示意图

知识图谱的基本组成是“实体–关系–实体”的三元组,它不仅能把与关键词有关的知识系统化地展示给用户,也可以基于知识进行推演。比方说,从〈东方明珠,坐落在,浦东〉和〈浦东,属于,上海〉这两个组合,就能推测得到〈东方明珠,位于,上海〉。

知识图谱还会不断更新迭代,用户搜索的次数越多,范围越广,这个知识库就能获取越多的信息和内容。

知识并不是与生俱来的,获取知识通常有两种途径。

途径一是亲身体验。比如,刚出生的婴儿什么都不懂,将一杯热水放到他面前,他会想要去拿杯子,结果喝水被烫到了。第二次他再看到杯子,有了上次被烫的经验,他会观察杯口是否冒烟,摸摸杯子的温度,再决定是否拿杯子喝水。在这个过程中,婴儿通过自己的亲身体验,逐渐掌握了有关“热水”的知识。

南宋理学家、思想家朱熹曾说:“所谓致知在格物者,言欲致吾之知,在即物而穷其理也。”他要表达的意思是,获得知识的途径在于认识世间万物,并彻底研究它们的原理。就是说,要亲身体验这个世界来获得宝贵的知识。每个人有不同的人生和经历,这些会成为我们独有的知识。

亲身体验得来的知识是最真实的,所以它通常比较准确。不过,这样获取知识的时间周期长,效率也比较低。

途径二是通过别人教授。比如通过父母、老师、书本、网络学习得来,但老师教的、书上印的可能出错,这样得来的知识未必准确。不过,它仍然是获取知识最主要的形式,毕竟我们没有那么多时间和精力,凡事都亲身经历一遍。站在前人和巨人的肩膀上,不断学习新的知识,是人类科技进步的根本原因。

有趣的是,在互联网时代,任何人都能随时随地找到自己想要的信息,但我们的知识总量并不会立刻增加。学习是一种过程,需要时间积累,欲速则不达。

比如很多人都听过“区块链”,但大部分人并不清楚它是什么。有人认为它是钱,也有人认为它是一种身份认证技术。但这些理解都不准确。很多人只是从网上找到了关于区块链的信息,并没有真正得到关于它的知识。从某种意义上讲,互联网虽然提高了人们找到碎片信息的效率,但降低了人们掌握完整知识的能力。

当然,互联网对整个社会来说仍然利大于弊,它让全世界的知识能够快速传递和共享。每个人都可以在网络上自由地发表观点,这些内容也被其他人搜索、阅读、讨论。一个小学生能从互联网上学到知识,并在课堂上指出老师的错误,在家里纠正父母的观念。这让过去作为权威的老师和父母受到了挑战,这在以前是不可想象的。

e9a141082fe18d9fede0ba8de4194b69.png

最后,让我们做个简答的总结——数据、信息、知识三者密不可分。

  • 数据是一组有意义的符号,它是信息的载体,是知识的来源;

  • 信息赋予了数据含义,信息消除了不确定性;

  • 知识从实践、经验中得到,它由数据记录,从信息中提炼。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

RECOMMEND

推荐阅读

37d7cea812d3732bf08e26636e43dede.png

大话机器智能:一书看透AI的底层运行逻辑

4f3078f145e3b47639f496c9c3a19f3d.png

作者:徐晟

AI是什么?机器如何拥有“智能”?“智能”如何起作用?

本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑。

告诉你AI是如何工作的!

推荐阅读

本书以有趣的案例和深入浅出的语言,直击AI的底层运行逻辑与核心原理,勾勒人工智能的全貌,以便读者掌握AI技术要点,打通AI的各种技术壁垒,厘清不易察觉的“认知错误”,从而更好地认识正在运转的神秘AI世界。

2b46dbc78f8788201dbb97bff9544d16.gif

b366417fa29da15da121f2f7d0f3f6b7.png

扫码关注【华章计算机】视频号

每天来听华章哥讲书

9e2616a8f9786f683c53e76a3e66ab97.gif

更多精彩回顾

书讯 | 5月书讯(上)|  元宇宙、因果推断、薛定谔方程...你关注的都在这

书讯 | 5月书讯(下)|设计致物系列+少儿编程好书推荐

资讯 | 分布式系统一致性的本质,看这篇秒懂

书单 | 知乎高赞:有哪些你看了以后大呼过瘾的数据分析书?

干货 | Go语言精进之路:你知道什么是Go语言编程思维吗?

收藏 | 终于有人把Scrapy爬虫框架讲明白了

上新 | Verilog HDL与FPGA数字系统设计第2版

赠书 | 【第102期】传统企业如何应对数字化转型?这些书给你答案

干货 | 为什么每一名程序员都应该学习 C++?

干货 | 如果机器翻译始终存在缺陷和错误,那它还有什么用处?

0ebaee9ea9f03f9f2da9ac7db32f9b6a.gif

24ce974a8a4724484a909895eb5c2c82.gif

点击阅读全文购买

相关文章:

  • 因果推断会是下一个AI热潮吗?朱迪亚•珀尔新作《因果论》重磅上市!
  • 为企业数字人才建粮仓:专访极客邦科技双数研究院院长付晓岩
  • 2022美国科学院院士名单公布:图灵奖得主、龙书作者Alfred V. Aho当选!
  • 客户留存的4个产品策略
  • 5种常用格式的数据输出,手把手教你用Pandas实现
  • 漫画:什么是IaaS、PaaS、SaaS?
  • Java核心技术:日期和时间新旧API对比
  • JavaScript框架发展的四个时代,你经历过其中几个阶段?
  • C#代码整洁之道:代码重构与性能提升
  • 详解边缘计算系统逻辑架构:云、边、端协同
  • 人工智能技术的演进和发展
  • 终于有人把工业数据采集讲明白了
  • 揭秘华为数字化转型框架:1套方法、4类场景、3个平台能力
  • 【第104期】7本适合设计师提升交互设计能力的书
  • Go语言精进之路:绞尽脑汁,帮你理解方法本质并选择正确的receiver类型
  • 9月CHINA-PUB-OPENDAY技术沙龙——IPHONE
  • 《微软的软件测试之道》成书始末、出版宣告、补充致谢名单及相关信息
  • CentOS7 安装JDK
  • Essential Studio for ASP.NET Web Forms 2017 v2,新增自定义树形网格工具栏
  • extjs4学习之配置
  • IndexedDB
  • JAVA SE 6 GC调优笔记
  • JavaScript标准库系列——Math对象和Date对象(二)
  • JS+CSS实现数字滚动
  • js正则,这点儿就够用了
  • leetcode388. Longest Absolute File Path
  • Node.js 新计划:使用 V8 snapshot 将启动速度提升 8 倍
  • PHP变量
  • React-生命周期杂记
  • vue-loader 源码解析系列之 selector
  • -- 查询加强-- 使用如何where子句进行筛选,% _ like的使用
  • 分类模型——Logistics Regression
  • 前端面试总结(at, md)
  • 什么软件可以提取视频中的音频制作成手机铃声
  • 它承受着该等级不该有的简单, leetcode 564 寻找最近的回文数
  • 我看到的前端
  • #微信小程序(布局、渲染层基础知识)
  • (1)SpringCloud 整合Python
  • (4)事件处理——(7)简单事件(Simple events)
  • (cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)
  • (二)WCF的Binding模型
  • (一) storm的集群安装与配置
  • (转)3D模板阴影原理
  • (转)linux 命令大全
  • ./mysql.server: 没有那个文件或目录_Linux下安装MySQL出现“ls: /var/lib/mysql/*.pid: 没有那个文件或目录”...
  • .NET 解决重复提交问题
  • .secret勒索病毒数据恢复|金蝶、用友、管家婆、OA、速达、ERP等软件数据库恢复
  • /usr/lib/mysql/plugin权限_给数据库增加密码策略遇到的权限问题
  • ??myeclipse+tomcat
  • @manytomany 保存后数据被删除_[Windows] 数据恢复软件RStudio v8.14.179675 便携特别版...
  • [28期] lamp兄弟连28期学员手册,请大家务必看一下
  • [BUUCTF]-PWN:[极客大挑战 2019]Not Bad解析
  • [ERROR] Plugin 'InnoDB' init function returned error
  • [hdu1561] The more, The Better 【树形DP】
  • [HNOI2006]鬼谷子的钱袋