云计算和大数据入门
云计算入门
了解什么是云计算,以及云计算如何帮助组织寻找规模效益,并让组织重新专注于组织的核心竞争力。如果您愿意的话,还可以使用云计算重塑旧的应用程序服务提供商 (ASP) 模式。然而,真正的云计算产品会在 ASP 模式方面有一些细微的差别,也就是说,在资源池、按需功能、多租户和快速弹性方面存在细微差别。这些特性意味着,在使用云计算的时候,您可以通过将固定的资本支出 (CapEx) 转换为可变的运营支出 (OpEx) 来获得规模效益。
美国国家标准与技术研究所 (NIST) 已经通过建立云服务模式和云部署模式进一步定义了什么是云计算。云服务模式是一些方法,组织可以通过这些方法根据需要使用云计算,这些模式包括基础架构即服务 (IaaS)、平台即服务 (PaaS) 或软件即服务 (SaaS)。请注意,云计算用户使用 IaaS 获得的灵活性最大,使用 SaaS 获得的灵活性最小。但是,IaaS 提供的灵活性向云计算用户提出了治理、监视和管理环境的要求。因此,对于 IaaS,用户需从操作系统层开始构建(虚拟)服务器。对于 PaaS,用户需构建数据库、应用程序、业务规则和加载数据。对于 SaaS,用户只需将数据加载到预先构建的应用程序中。
NIST 还定义了云部署模式,其中包含公共云、私有云、混合云和社区云。例如,Google Docs 就是公共云模式的一个示例,其中应用程序和数据存储在 Google 的数据中心的某些位置。在此模式中,用户实际上在 Google “高层” 公寓中拥有一个楼层。
大数据入门
除了云计算之外,大数据也是行业的一个新范例。Oracle 将大数据定义为聚合三个来源的数据:传统(结构化数据)、传感器数据(日志数据、元数据)以及社交数据(社交媒体)。大数据通常使用新的方式(如 NoSQL,Not only Structured Query Language)存储在非关系型的分布式数据库中。有四种类型的非关系型数据库管理系统(非 RDBMS):基于列的、键-值形式、图(Graph)和文件型。这些非 RDBMS 聚合源数据,分析程序(如 MapReduce)分析该信息。聚合并分析大数据之后,组织可以使用该信息进行市场研究、供应链研究、过程优化、安全事件分析或趋势分析。
大数据增值的方案包括提供市场研究数据以支持作出外包或内包、进行收购或兼并、进入新市场或离开市场的决定。被视为一种专供学术研究的技术之后,现在非 RDBMS 系统正在行业中逐步接近临界状态。领先的技术服务提供商(如 Twitter)开始使用它们,并且很多个人和公司也开始使用这些提供商的产品。由于这些平台的开放源代码的特性(会导致节约成本),非 RDBMS 正在成为使用 Web 2.0 技术的组织首选的数据库架构,因为组织无需在传统的关系型数据库软件许可或本地硬件方面进行投资。根据您的预算,我主张组织设置新的岗位来治理和管理大数据系统,而分析人员、编程人员、项目经理以及传统的 RDBMS 管理员都应该进行交叉培训。如何进行所有这些操作都基于组织的需求,但您会发现在这些已经利用大数据平台的组织(—Yahoo!、Facebook 等)有一个特殊的关注点。如果您的组织决定将专用资源合并到大数据,那么请记住,使用这些系统来增加您的现有 RDBMS 投资以便存储和分析大数据,这一点非常重要。
企业将继续同时使用 RDBMS 和非 RDBMS 系统。尽管这两种系统有一些相似之处,但也应该注意它们的差别。例如,非 RDBMS 将数据可分布到多个计算机系统上,当数据跨越多个管辖范围或跨越多个管辖范围共享时,非 RDBMS 会影响组织遵守隐私权的状态。非 RDBMS 通过是一个应用程序编程接口 (API) 调用的,而不是像 RDBMS 系统一样通过数据库连接(例如,Open Database Connectivity、Java™ Database Connectivity)来创建、读取、更新和删除数据。非 RDBMS 与 RDBMS 在处理数据的方式上也有所不同。例如,非 RDBMS 中的表称为域或命名空间(和在 Amazon DynamoDB 中一样)。而且,非 RDBMS 数据定义语言或元数据并不像在 RDBMS 中那样可以轻松查询。此外,大多数非 RDBMS 都不再使用 SQL 进行数据操作语言调用;很多都使用 NoSQL。最后,非 RDBMS 要求运行的 API 服务应该相对数据库服务器实例运行,这样通常会导致较低的 OpEx。