当前位置: 首页 > news >正文

如何成为一个优秀的数据从业者?

数据是原油,数据是生产资料,数据和技术驱动,人类正从IT时代走向DT时代,随着数据的战略性日渐得到认可,越来越多的公司、机构和组织,尤其是互联网公司,纷纷搭建了自己的数据平台。不管是基于开源技术自研、自建还是购买成熟的商业解决方案,不管是在私有的数据中心还是在公有云端,不管是自建团队还是服务外包,一个个数据平台纷纷被搭建,这些数据平台不但物理上承载了所有的数据资产,也成为数据开发工程师、数据分析师、算法工程师、业务分析人员和其他相关数据人员日常的工作平台和环境,可以说数据平台是一个公司、机构或组织内“看”数据和“用数据”的关键基础设施,已经像水电煤一样不可或缺,正是它们的存在才使得数据变现成为可能。

数据从产生到进入数据平台中被消费和使用,包含四大主要过程:数据产生、数据采集和传输、数据存储和管理以及数据应用,每个过程都需要很多相关数据技术支撑。了解这些关键环节和过程以及支撑它们的关键技术,对一个数据从业者来说,是基本的素养要求。

 

数据相关从业者和角色

大数据时代,数据已经变为生产资料,但是数据真正从生产资料变成生产力变现必须借助专业数据人员的帮助。

下面结合数据流程图介绍数据相关的主要从业者和角色。

数据平台开发、运维工程师

数据的埋点、采集传输、存储处理,乃至后续的分析、挖掘、数据服务等都离不开专业平台和工具的支持。而这些正是数据平台开发工程师和数据平台运维工程师的职责。

数据平台开发工程师以及数据平台运维工程师负责开发并运维专门的埋点工具、专门的数据同步工具、离线计算平台(如Hadoop、Hive等)、流计算平台(如Storm、Spark、Flink等)、数据存储工具和平台(如HBase、MySQL、Redis等),乃至分析师使用的数据分析平台和算法工程师使用的机器学习平台等。这些专业性的支撑平台是构建数据平台的基础设施,也直接关系着最终公司数据平台的成败、成本、效率和稳定性。

Hadoop、Hive、Spark、HBase、Kafka以及近一两年的Flink、Beam等,诸多开源数据框架的出现让人眼花缭乱,但本书主要面对的是数据开发工程师。数据开发工程师应该了解这些技术,知道其后台原理和适用场合,然后合理利用这些技术,达到构建数据平台的目的。

大数据和云计算是相辅相成和自然的一体选择,随着企业越来越多的系统运行在云上,企业的各种数据也都存储于云上,基于云计算的大数据平台工具也自然而然地快速得到发展。主流的国内外云计算公司(如阿里云、亚马逊、微软、Google等)都提供了云端的数据处理平台和工具。随着企业IT系统的上云,笔者认为未来云端的数据平台和工具将成为主流。

数据开发、运维工程师

数据开发、运维工程师是本书主要面对的对象,也是一般企业里构建数据平台的中坚力量。

数据开发工程师需要和产品经理、数据分析师沟通确定埋点需求,并具体对接前端开发工程师和后端开发工程师确定数据接口,从而将数据分析需求落地。

数据开发工程师需要根据离线数据、实时数据、近线数据的时效性要求,选择恰当的离线和实时数据同步工具来采集与同步数据。

数据开发工程师需要对采集和同步来的原始数据进行加工处理、合理数据建模并写入数据仓库中。

数据开发工程师需要设计开发实时流处理任务,提供实时数据指标并提供在线数据服务。

数据开发工程师必须严格保证数据加工的质量和数据的口径,确保下游看到的数据是高质量和一致的。

数据开发工程师也通常是数据咨询的集中点,数据是否能够拿得到?数据在哪里?数据口径如何?数据质量如何?

数据开发工程师向下对接数据平台工程师,向上对接数据分析工程师、算法工程师和业务人员,是使用数据的窗口和中枢。

数据开发工程师也是公司数据资产的管理者,保证数据被合理分级、组织、使用、安全保存和稳定可靠。

数据分析工程师

数据分析工程师是企业和公司“看”数据的主要窗口。随着数据化运营思想以及数据驱动产品开发的日益深入,数据分析工程师在一个公司或项目中的地位越来越重要。

数据分析工程师需要将公司的业务运营报表化,并抽取出关键运营指标给公司和部门管理人员做决策参考,以监控日常公司和部门的运营情况。

数据分析工程师也需要给产品的优化提供数据支持,并用数据验证产品经理的产品改进效果。

数据分析工程师是业务和数据的桥梁,数据分析工程师不但要了解数据,而且必须非常熟悉业务。此外,数据分析工程师还必须具有很强的表达能力和总结能力,能将关于业务的洞察以恰当的方式清晰明了地传递给决策人员、业务人员和产品人员,供决策和运营分析使用。

数据分析工程师也是数据开发工程师最为紧密的合作伙伴之一。

算法工程师

算法工程师使一个公司和企业应用数据的能力不局限在“看”和分析上,而是能够直接变现应用在生产系统和产品上。

比如Google的PageRank算法,正是有了PageRank算法的发明,才使得网页重要性排名变成可以工程化的现实,也才奠定了Google搜索引擎和Google公司的成功基础。

这样的例子还有很多,比如淘宝的“千人千面”个性化推荐系统,其中的推荐算法大大提高了用户的转化率,直接提高了整个网站的GMV,也直接带来了经济效益,目前推荐系统已经成为绝大多数电子商务网站的标配,而这都离不开后台算法工程师的直接贡献。

并不是每个算法工程师都要发明算法,但他们需要熟悉常见的各种算法并了解其适用场合,需要查阅文献和论文,时刻关注业界进展,并将它们应用在业务实践中。

算法工程师必须具有一定的编程和工程能力,能够将构建的算法用代码实现,并在数据集上测试验证,然后根据效果进行相应的算法调整、参数调优等,如此反复,这就构成了算法工程师日常的主要工作。

业务人员

一个公司和部门的分析师人数是有限的,固定每日运行的报表也是有局限性的,业务人员经常发现自己的数据分析需求处于分析师排期甚至无法支持的境地,这个问题的最终解决方法是业务人员自己具备数据分析的能力。

随着自助式数据分析工具的日益成熟,人人都可以成为数据分析师!

从数据平台的角度来讲,数据平台团队应该提供自助式数据分析工具,赋能给每个业务接口人或者业务分析人员,因为业务团队才是最了解自己业务的,如果有了自助式分析工具的帮助并具备了一定的数据分析能力,对于业务人员来说,无疑是如虎添翼的。

——文章摘自《离线和实时大数据开发实战》

推荐阅读

《离线和实时大数据开发实战》

ISBN:978-7-111-59678-3

作 者:朱松岭 著

定 价:59.00元

出版时间:2018/05

内容简介:

阿里巴巴大数据开发专家撰写,源于十余年工作实践,只讲实用有效的“招式”

庖丁解牛式讲解离线和实时开发平台架构、原理实现、开发示例,涵盖查询与优化、建模、数仓开发、流计算开发等核心技术。

点击“阅读原文”查看书籍详情

相关文章:

  • 不止V神,全球最懂以太坊的人都来齐了,还差你
  • 这是第一部中国人写的关于RxJS的书
  • 只有真正的程序员看得懂的16个幽默
  • 这里有你最想掌握的区块链技术
  • 百度吹过的牛将要实现,你的AI梦呢?
  • 升级转型“三新战略”之新制造
  • 会议邀请〡第六届全国高校电子信息类课程教学研讨会邀请函
  • 福利丨好书申请免费送【7.27】
  • 大数据不背“杀熟”的锅!高科技公司掌握了你的个人信息,都干了些啥?
  • 我们需要什么样的区块链
  • 中国 Python 开发者大会 PyCon China 2018
  • 【深度】Python程序员经常踩得那些坑(1)
  • 【活动】《机·智:从数字化车间走向智能制造》读者沙龙
  • 【深度】Python程序员经常踩得那些坑(2)
  • 【今日新闻】11.20
  • 《网管员必读——网络组建》(第2版)电子课件下载
  • Angularjs之国际化
  • CAP理论的例子讲解
  • Hibernate最全面试题
  • java第三方包学习之lombok
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • linux学习笔记
  • Python - 闭包Closure
  • Python中eval与exec的使用及区别
  • React中的“虫洞”——Context
  • Redux 中间件分析
  • tab.js分享及浏览器兼容性问题汇总
  • 从伪并行的 Python 多线程说起
  • 前端代码风格自动化系列(二)之Commitlint
  • 嵌入式文件系统
  • 全栈开发——Linux
  • 实现简单的正则表达式引擎
  • 双管齐下,VMware的容器新战略
  • 函数计算新功能-----支持C#函数
  • #162 (Div. 2)
  • #绘制圆心_R语言——绘制一个诚意满满的圆 祝你2021圆圆满满
  • (读书笔记)Javascript高级程序设计---ECMAScript基础
  • (附源码)ssm失物招领系统 毕业设计 182317
  • (四)Tiki-taka算法(TTA)求解无人机三维路径规划研究(MATLAB)
  • (原+转)Ubuntu16.04软件中心闪退及wifi消失
  • (转)EOS中账户、钱包和密钥的关系
  • (转)shell中括号的特殊用法 linux if多条件判断
  • (转)用.Net的File控件上传文件的解决方案
  • (转载)VS2010/MFC编程入门之三十四(菜单:VS2010菜单资源详解)
  • (转载)虚幻引擎3--【UnrealScript教程】章节一:20.location和rotation
  • ****Linux下Mysql的安装和配置
  • .Family_物联网
  • .NET Core 网络数据采集 -- 使用AngleSharp做html解析
  • .NET Core/Framework 创建委托以大幅度提高反射调用的性能
  • .Net Memory Profiler的使用举例
  • .net 使用ajax控件后如何调用前端脚本
  • .NET:自动将请求参数绑定到ASPX、ASHX和MVC(菜鸟必看)
  • .NET成年了,然后呢?
  • .NET面试题解析(11)-SQL语言基础及数据库基本原理
  • .NET值类型变量“活”在哪?