当前位置: 首页 > news >正文

如何从数据分析这个卷王行当转型数据科学

来源:华章计算机(hzbook_jsj)

作者:谢梁

 

最近有不少朋友咨询我数据分析的从业者未来的路怎么走的问题。这个问题很难回答,不过网上通常是给出两个方向:喜欢业务转产品/运营;喜欢技术转数据科学。今天这篇文章重要讨论后者,也就是数据分析师怎么转型数据科学家。

 

数据分析和数据科学的差异其实有很多讨论,YouTube网红Up主Ken Jee和Alex the Analyst曾就这个问题专门做过几个视频。Ken Jee的意见是数据科学家在代码编写能力、机器学习建模方面需要突出自己;而Alex的意见是数据科学家相对于数据分析师在工作职责、技能栈、门槛等方面都不同。不过他也同意,对于很多背景不是那么强但是想要进入数据科学领域的同学来讲,数据分析是一个不错的切入点。

 

我作为这个行业从业15年的老兵,也来谈谈我自己对转型的一些看法。我们先谈能力模型差异,其次谈如何有针对性地转型。

 

首先我们谈谈能力模型的差异。数据科学相比数据分析的核心差异我归纳为:一个中心两个基本点。一个中心是指【工程能力】;两个基本点是指【针对场景的建模能力】和【实验设计和分析能力】。这三者构成了当前数据科学从业人员的核心能力模型。

 

工程能力:这是之前容易忽略,但是确实非常重要的一个能力,也是保障数据科学产出落地的关键。其实在互联网起飞之前,美国消费金融行业有大量的量化分析师(Quantitative Analysts),可以视为数据科学家的前身,他们借助银行业普遍使用的SAS语言及平台,能够实现从数据工程到模型训练再到模型部署的全流程,当然这非常依靠脚本语言和手工的操作。

 

这里强调模型部署是因为只有这样才能直接进入价值生产的链条。比如银行里面的TargetedMarketing就是互联网的Growth Hacking在传统行业的前身,他们都对业务KPI产生直接的影响。虽然互联网行业和传统金融行业的技术栈差别极大,但是基本原则仍然适用,也就是对于商业问题进行抽象提炼后针对一个具体点形成一个子领域,并在这个子领域闭环整个价值发现到实现的链路,而不仅仅停留在PPT上。

 

这里就很自然地引申出第一个基本点,针对场景的建模能力。这里的场景可能会指代比较宽的范畴,按照层次可以归纳为【业务实现场景】和【决策场景】。业务实现场景类似上面提到的Targeted Marketing,Growth Hacking,甚至推荐、风控,等,都是针对具体业务问题的实现。决策场景这里特指常见的非实验环境下的策略评估,英文叫Program Evaluation或者Impact Evaluation。这些分析的产出主要供管理层进行战术和战略的决策,同时其场景复杂多变,不像上面提到那些已经相对标准化。从目前国内的环境来看,业务实现场景很多已经被算法工程师占领,但是并不是没有机会;而决策场景这里是目前数据科学和数据分析的主要战场。结合前面的工程能力,这里有很多机会。

 

第二个基本点就是实验设计和分析能力。这里把实验设计单独列出来是因为实验的分析其实是由实验的设计决定的。有什么样的设计,就有对应的分析方法。实验是数据科学的独占领域,对于理论、算法和工程都有较高要求,也是数据科学领域的一个主要护城河。

 

大家可能会问,这么多领域,怎么学的过来呢?这里给大家推荐一本集合了这三个领域的新书,《数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow》,围绕三个领域给出了大量的方法论和最佳实践,快手副总裁宋世君和Facebook首席工程师王益作序,作者均为国内一线互联网企业的数据科学家,经验极为丰富,书里所有的应用场景均来自真实的商业环境,强调实用,操作性强,还提供了github(点击阅读全文跳转)的仓库可以直接下载jupyter notebook,方便读者练习。

 

作者简介:

谢梁 经济学博士,腾讯QQ浏览器副总经理、QQ浏览器数据负责人。CCF数据科学专委会创始委员,入选第一财经数据科学50人,清华大学商学院及香港大学商学院商业分析硕士项目指导嘉宾。曾任滴滴杰出数据科学家、美国微软云存储核心工程部首席数据科学家。

RECOMMEND

推荐阅读

《数据科学工程实践:用户行为分析与建模、A/B实验、SQLFlow》

(1)豪华作者阵容:作者全部是自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师,经验极为丰富。

(2)三维度深融合:将数据科学的3个维度——商业理解、量化模型、数据技术全面打通,涵盖数据科学的应用场景、理论支撑和技术底座。

(3)应用场景面广:本书所有数据科学应用场景均来自商业环境,强调实用、可操作性强。

(4)方法论与案例:围绕3大主题给出了大量方法论和最佳实践,方法论与案例的背景、代码、解读等模块深度融合。

点击链接了解详情并购买


扫码关注【华章计算机】视频号

每天来听华章哥讲书

更多精彩回顾

书讯 | 7月书讯(下)| 读书开启下半年

书讯 | 7月书讯(上)| 读书开启下半年

资讯 | 《数据安全法》表决通过!最新解读来了

书单 | 2021半年盘点,不想你错过的重磅新书

干货 | 详解数据资产的8大重要特征

收藏 | 一文了解滴滴与蚂蚁金服开源共建的SQLFlow

上新 | 【新书速递】打通数据科学三要素——数据科学实战性手册

赠书 | 【第63期】机器人时代已来!推荐几本机器人学硬核好书

点击阅读全文下载

相关文章:

  • 终于有人把p值讲明白了
  • 【新书速递】深入理解边缘计算
  • 【第64期】豆瓣9.8分,周志明的《凤凰架构》
  • 云原生架构应该怎么设计?
  • 【新书速递】实用安全多方计算导论
  • 架构师的角色期望
  • JavaScript 异步编程指南——你不知道的Promise前世Deferred
  • 《企业破局的34个锦囊》之领导者必备的技术思维
  • Kubernetes诞生日!为什么开发人员应该学习 Kubernetes?
  • SIGIR 2021大奖出炉!Salton奖授予UIUC翟成祥教授
  • AI系统中的偏差与偏见
  • 聊聊Keras的特点及其与其他框架的关系
  • 快收藏!!整理了100个Python小技巧!!
  • Rust跨界前端全攻略
  • 低代码平台的11个能力维度
  • ----------
  • 9月CHINA-PUB-OPENDAY技术沙龙——IPHONE
  • 分享的文章《人生如棋》
  • @jsonView过滤属性
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • 002-读书笔记-JavaScript高级程序设计 在HTML中使用JavaScript
  • Druid 在有赞的实践
  • eclipse的离线汉化
  • Java Agent 学习笔记
  • javascript数组去重/查找/插入/删除
  • KMP算法及优化
  • k个最大的数及变种小结
  • log4j2输出到kafka
  • MySQL的数据类型
  • 从零开始在ubuntu上搭建node开发环境
  • 发布国内首个无服务器容器服务,运维效率从未如此高效
  • 计算机常识 - 收藏集 - 掘金
  • 浅谈web中前端模板引擎的使用
  • 日剧·日综资源集合(建议收藏)
  • 深度学习入门:10门免费线上课程推荐
  • 使用agvtool更改app version/build
  • 微信小程序--------语音识别(前端自己也能玩)
  • Spring第一个helloWorld
  • 东超科技获得千万级Pre-A轮融资,投资方为中科创星 ...
  • ​​​​​​​sokit v1.3抓手机应用socket数据包: Socket是传输控制层协议,WebSocket是应用层协议。
  • #define 用法
  • (1)虚拟机的安装与使用,linux系统安装
  • (14)Hive调优——合并小文件
  • (day 2)JavaScript学习笔记(基础之变量、常量和注释)
  • (转)MVC3 类型“System.Web.Mvc.ModelClientValidationRule”同时存在
  • (转)视频码率,帧率和分辨率的联系与区别
  • **Java有哪些悲观锁的实现_乐观锁、悲观锁、Redis分布式锁和Zookeeper分布式锁的实现以及流程原理...
  • .gitattributes 文件
  • .NET 3.0 Framework已经被添加到WindowUpdate
  • .NET Conf 2023 回顾 – 庆祝社区、创新和 .NET 8 的发布
  • .net 按比例显示图片的缩略图
  • .NET/C# 反射的的性能数据,以及高性能开发建议(反射获取 Attribute 和反射调用方法)
  • .netcore 6.0/7.0项目迁移至.netcore 8.0 注意事项
  • .net安装_还在用第三方安装.NET?Win10自带.NET3.5安装
  • ??如何把JavaScript脚本中的参数传到java代码段中