当前位置：首页 > news >正文

何谓大数据？

news 来源：原创 2024/5/3 16:03:18

大数据简史

dashuj

有很多方法可以描述历史。在描述计算机科学历史的一部分时，一种方法是用技术来描述它，另一种方法是从组织的角度来描述它。

我们将从市场营销的角度来描述大数据的简要历史。

类比——占领制高点

我们用一个类比来描述大数据的历史以及这一切是如何演化的。将要使用的类比是占领制高点的军事策略。

图1显示，军事战术家早就知道，在任何军事冲突中占领制高点都是重要的。我们看到一支军队在山脊上放置了一门大炮，从而占据了指挥位置。

图1　战场

在许多方面，掌控了数据库技术就相当于占领了制高点。无论哪家公司的数据库管理系统（DBMS）服务于数据量最大的公司，都是在战场上占有指挥优势的公司。在这种情况下，战场就是数据库市场，争夺的是市场份额。有多少客户注册了DBMS并正在使用该DBMS，就是衡量其在战场上是否成功的标准。

还有一些DBMS并不以可以管理的数据量作为其独特的标准。这些DBMS有自己的战场和自己的战场成功标准。然而大数据的战场是一个以管理海量数据为标志的战场。

占领制高点

图2显示了推动大数据时代到来的事件。

图2　大数据简史

在计算机行业诞生之初，计算机系统、应用软件、操作系统都有很多。由于厂商众多，从中选择技术是一项存在风险并且痛苦的工作。早期的系统存在许多问题，主要问题之一是没有标准化—语言没有标准化、操作系统没有标准化、应用程序没有标准化。由于所有东西都没有标准化，因此都必须在定制的基础上制作。此外，所有这些定制代码都必须在定制代码的基础上进行维护。总而言之，早期的时候一片混乱。

IBM360的标准化

随后，IBM推出了360系列处理器。IBM 360是第一个大规模成功的标准化尝试。有了IBM 360，编写的代码可以升级到360系列产品中更大的处理器上，而代码几乎不需要改动。今天，我们认为软件和系统的可互换性是理所当然的。但曾经有一段时间，软件和系统的升级是一个令人头痛的问题。

在IBM 360问世后不久，IBM就推出了信息管理系统—IMS。IMS运行在IBM 360系列产品上。IMS并不是第一个DBMS，但IMS是第一个可以在标准化软件上运行的DBMS。此外，IMS还能够管理大量的数据。（注意：大量是一个完全相对的数字。IMS早年能够处理的数据量与今天能够处理的数据量相比微不足道。但IMS所能处理的数据量在当时是相当大的。）

IBM公司已经认识到并凭借IMS占据了大规模、标准化数据库管理的制高点。从军事角度看，IBM享有制高点。

在线事务处理

很快人们就发现，除了数据库管理外，IMS还可以做其他事情。IMS不仅可以管理数据库，当IMS与数据通信（DC）监测器结合在一起时，还可以进行所谓的在线事务处理。此时，IBM和IMS准备做一件引人注目的事情—从事在线事务处理。

在线事务处理的引人注目之处在于，有了在线事务处理，计算机可以深深地扎根于企业结构之中。虽然计算机能够用于增强许多业务流程，但是，随着在线事务处理的出现，计算机才真正可以被编入企业日常运作的结构中。计算机此前从未成为企业经营的重要组成部分，现在，计算机发挥了前所未有的重要作用。

通过在线事务处理，组织得以建立起航空、租车等预订系统。有了在线事务处理系统，出现了在线银行出纳系统和自动柜员机。总而言之，在线事务处理系统使企业能够完成以前不可能完成的事情。

在这一点上，IBM牢牢把握住了企业处理的制高点。

Teradata和MPP处理

一家名为Teradata的公司进入了这个行业。Teradata公司的特色是一种叫作大规模并行处理（MPP）的数据库技术。利用MPP数据库技术，Teradata可以处理的数据量明显超过IBM。相对于MPP技术的架构，IBM基于IMS的技术在处理大量数据时根本无法跟上。突然间，Teradata 抢占了制高点。

Teradata在市场上的成功并不是一蹴而就的。当时IBM有很好的客户控制能力，在很长一段时间内都能抵挡Teradata的挑战。但Teradata坚持了下来，经过大量的市场推广、大量的销售工作以及大量的技术进步，Teradata开始赢得客户。现在，Teradata开始利用资本的优势占领了制高点。

Hadoop和大数据

Hadoop技术几乎是无意中进入了这个领域。为了处理比Teradata更多的数据，Hadoop给出了解决方案。实际上，Teradata对数据管理的限制是经济上的限制，而不是技术上的限制。但Hadoop所要解决的问题是优化数据库管理系统对数据量的管理，而不是管理每一个领域的数据的能力。从对环境内数据单位的管理到对数据量的管理，重点发生了变化。

Hadoop是大数据的核心。有了Hadoop技术，大数据从梦想变成了现实。不过，Hadoop只迎合了少数有专门需求的大型客户。尽管Hadoop及其相关厂商在市场上已经进入了比Teradata更高的领域，但他们还是满足于成为市场上的小众玩家。

IBM和Hadoop

在Hadoop被证明是一种可行的商品之后，IBM认识到，通过与Hadoop合作，可以“捎带着”回到制高点。随着大数据的出现，IBM又一次站在了大规模数据库管理系统的制高点上。

坚守制高点

坚守制高点的优势是不可估量的。所以，当厂商占据了制高点后，很多机会就会随之出现。厂商可以自由地利用硬件、软件、咨询等方面的机会。

何谓大数据

Gartner集团对大数据的定义是：数据体量大（volume），数据变化快（velocity），数据来源多种多样（variety）。

虽然这个定义经常被引用和广泛使用，但它根本不是一个定义。在高速公路上行驶的半挂车所处理的货物符合这个定义，而远洋班轮的货物也符合这个定义。事实上，除了大数据之外，还有很多东西都符合这个定义。

另一种定义

Gartner定义的问题在于，它描述了大数据的一些特征，但没有给出识别大数据的特征。

《数据架构：数据科学家的第一本书》中使用的大数据定义如下：

大数据是指体量非常大的数据，是指存储在廉价存储设备上的数据，是指用“罗马人口普查方法”管理的数据，是指以非结构化形式存储和管理的数据。

大体量

大多数组织已经拥有足够的数据量来运行日常业务。但有些组织的数据量非常大，有必要研究以下事项：

互联网上的所有数据
卫星发送回来的气象数据
世界上所有的电子邮件
由模拟计算机生成的制造数据
铁道车辆在轨道上穿行
更多的应用

对于这些组织来说，没有有效的、廉价的方法来存储和管理数据。即使数据可以存储在标准的DBMS中，存储成本也会高得离谱。所以对于一些组织来说，需要存储和管理非常多的数据。

在管理非常庞大的数据时，就会出现商业价值的问题。需要解决“能够查看海量数据有什么商业价值”这一根本问题。“构建它，它们就会出现”的老话并不适用于海量数据。在组织着手存储海量数据之前，需要充分了解数据的商业价值在于数据本身。

廉价存储

即使大数据能够存储和管理海量数据，如果使用的存储介质很昂贵，那么建立庞大的存储也是不现实的。换一种说法，如果大数据只在昂贵的高性能存储介质上存储数据，那么大数据的成本将非常高。为了成为一个实用的解决方案，大数据必须能够使用廉价的存储介质。

罗马人口普查方法

大数据架构的基石之一是被称为“罗马人口普查方法”的处理方法。通过使用这种方法，大数据架构可以适应几乎无限量数据的处理。

当人们第一次听到“罗马人口普查方法”时，显得很反常和陌生。大多数人的反应是 “那到底什么是罗马人口普查方法呢？”然而，这种方法从架构上来说是大数据运作的核心。而且事实证明，很多人对罗马人口普查方法的熟悉程度远远超过了他们所意识到的。

大约2000年前，罗马人决定对罗马帝国的每个人征税。但为了向罗马帝国的公民征税，罗马人首先要进行一次人口普查。罗马人很快就发现，想让罗马帝国的每一个人都通过罗马城门游行来进行统计是不可能的。北非、西班牙、德国、希腊、波斯、以色列、英国等地都有罗马人。不仅有很多人在遥远的地方，想用船、车、驴把大家运到罗马城来，根本也是不可能的事。

于是，罗马人意识到，集中处理（即统计和进行普查）式的人口普查是行不通的。罗马人通过设立“人口普查员”来解决这个问题。人口普查员在罗马组织起来，然后被派往罗马帝国各地，在指定的日子进行人口普查。在进行完人口普查后，人口普查员就返回罗马，在那里集中统计普查结果。

在这样的方式下，正在做的工作被发送到数据，而不是试图将数据发送到一个中心位置，在一个地方做工作。通过分散处理过程，罗马人解决了对大量不同人口进行人口普查的问题。

很多人没有意识到自己对罗马人口普查方法非常熟悉。曾经有一个故事，讲的是两个人—玛利亚和约瑟夫，他们要到一个小城伯利恒去做罗马人的人口普查。在路上，玛利亚在马槽里生了一个小男孩，取名耶稣。牧羊人纷纷来看这个男婴。麦琪送来了礼物。因此，许多人都熟悉的宗教—基督教诞生了。罗马人口普查方法与基督教的诞生密切相关。

罗马人口普查方法说明，如果你有大量的数据需要处理，就不要集中处理。相反，你应该将处理发送到数据，实现分散处理。这样，你可以为处理提供有效的大量数据。

非结构化数据

与大数据相关的另一个问题是，大数据是结构化的还是非结构化的。在很多圈子里，有人说所有的大数据都是非结构化的；在另外一些圈子里，有人说大数据是结构化的。

那么，谁是正确的呢？我们将看到，答案完全在于你如何定义“结构化”和“非结构化”。

“结构化”是什么意思呢？结构化的一个广泛使用的定义是：凡是由标准DBMS管理的数据都是结构化的。图3显示了一些由标准数据库管理系统管理的数据。