当前位置: 首页 > news >正文

从几幅架构图中偷得半点海量数据处理经验

从几幅架构图中偷得半点海量数据处理经验

(注:本文只是简简单单的截几幅图而已,要想更深入的学习和了解hadoop框架和mapreduce模式,或者对淘宝的数据魔方感兴趣的话,尽可参考此文:从Hadhoop框架与MapReduce模式中谈海量数据处理。)

最近对海量数据处理发生了不小的兴趣,特此从一些精彩文章中摘取几幅精彩的图片或片段,拿来给大家分享。所谓奇文共欣赏,好Architecture共品之。至于各位能从图中是窥得半点经验,还是一图以窥全貌,则不在我之责任,全在于读者怎么去解读这几幅精彩的架构图了。

所以,本文在选取一些架构图之后,只配以最简单的文字,个中内容,读者自行品味之。如果有任何问题或建议,欢迎不吝指正或畅所欲言。谢谢。

  • 1、淘宝海量数据产品技术架构

上图是淘宝的数据魔方。按照数据的流向来划分,淘宝的数据产品的技术架构分为五层(如上图所示),分别是数据源、计算层、存储层、查询层和产品层(图摘自《程序员》8月刊)。

  • 2、搜索引擎架构图

  • 3、Facebook架构

3.1、架构概览

设计原则

  • 尽可能的使用开源软件,并且在需要优化的时候进行优化
  • Unix 哲学。包括,模块化原则;整合化原则;清晰化原则等
  • 任何组件具备扩展性;最小化故障影响;简化,简化,简化(本段文字摘自DBA nots)。

3.2、Facebook NewsFeed 的架构示意图

3.3、Facebook 搜索功能的架构示意图

..................

@hawksoft:处理海量数据的基本思路就是分而治之的策略和流水线作业。虽然从单个的计算效率来说,单台计算机的计算效率应该是最高的,但单台计算机的吞吐量有限。分布式计算的优势就在于虽然牺牲了部分计算能力,但由于人多力量大,而且节点间配置灵活,可互补,比单纯的增加计算机数量的模式要具有很大的优势。分布式计算的关键点就在于切分、调度、冗余和通信(谢谢风大哥)。

这些东西原理容易知道,但实践很难,因为一般人很少有机会。至于更多有关Mapreduce的介绍,还可参考:从Hadhoop框架与MapReduce模式中谈海量数据处理 ,与MapReduce技术的初步了解与学习。完。

相关文章:

  • 17软工 第一次作业
  • [水一下]哈,露股沟
  • APUE 1 - Unix数据结构
  • stlport 编译方法
  • 自动在多个DB上执行同一条sql语句
  • this指向
  • ASCII码表
  • 扫雷游戏制作过程(C#描述):第三节、雷区绘制
  • 使用SQL中的ROW_NUMBER()和while循环对每一行执行操作
  • 关于FPGA随笔
  • 取得所有DB的名称, 形成一行, 并以逗号分隔
  • windows下安装JDK1.8和eclipse
  • LightOJ 1414 February 29(闰年统计+容斥原理)
  • C++ 日志类库 log4cplus
  • Spark Mllib里如何将trainDara训练数据的分类特征字段转换为数值字段(图文详解)...
  • __proto__ 和 prototype的关系
  • 【140天】尚学堂高淇Java300集视频精华笔记(86-87)
  • Angular Elements 及其运作原理
  • CentOS学习笔记 - 12. Nginx搭建Centos7.5远程repo
  • classpath对获取配置文件的影响
  • Java方法详解
  • node学习系列之简单文件上传
  • SQLServer之创建数据库快照
  • 从0实现一个tiny react(三)生命周期
  • 动态规划入门(以爬楼梯为例)
  • 深入浏览器事件循环的本质
  • 使用权重正则化较少模型过拟合
  • 数据科学 第 3 章 11 字符串处理
  • 一个SAP顾问在美国的这些年
  • 以太坊客户端Geth命令参数详解
  • 【运维趟坑回忆录 开篇】初入初创, 一脸懵
  • 新海诚画集[秒速5センチメートル:樱花抄·春]
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • (zt)基于Facebook和Flash平台的应用架构解析
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (二十四)Flask之flask-session组件
  • (二十五)admin-boot项目之集成消息队列Rabbitmq
  • (附源码)springboot猪场管理系统 毕业设计 160901
  • (四)JPA - JQPL 实现增删改查
  • (五)MySQL的备份及恢复
  • (转)德国人的记事本
  • .[hudsonL@cock.li].mkp勒索加密数据库完美恢复---惜分飞
  • .NET Core IdentityServer4实战-开篇介绍与规划
  • .NET Core 和 .NET Framework 中的 MEF2
  • .net core 客户端缓存、服务器端响应缓存、服务器内存缓存
  • .NET Core 项目指定SDK版本
  • .NET Core实战项目之CMS 第一章 入门篇-开篇及总体规划
  • .NET MVC 验证码
  • .Net Web项目创建比较不错的参考文章
  • .NET 药厂业务系统 CPU爆高分析
  • .netcore 获取appsettings
  • .net企业级架构实战之7——Spring.net整合Asp.net mvc
  • @Autowired自动装配
  • @RequestBody的使用
  • @取消转义