当前位置: 首页 > news >正文

杭州数澜联合创始人 \u0026 CTO 江敏:大数据思维和大数据冶炼 —— 拒绝坐着金山吃馒头...

大家好,我是江敏,来自杭州数澜科技。我在 2007 年加入同花顺,前期主要做服务端的架构研发,后期主要负责组建同花顺大数据团队和构建大数据平台。2013 年,我加入阿里数据平台事业部数据服务团队,构建了淘宝消费者信息工厂 TCF 和ID-Mapping体系,2015 年团队合并到阿里云,我开始负责数加平台的整体架构设计和落地。2016 年,我加入数澜科技担任 CTO ,负责公司整体产品技术。

\\

de42be19b127982749eb55ca092e658f.png

\\

非常荣幸跟各位 EGO 会员大神交流分享,希望抛砖引玉吸引更多大牛分享观点经验,也欢迎大家随时勾搭交流。

\\

三个数据理念看待大数据

\\

数澜科技大数据团队以阿里数据事业部的数据服务团队为核心,公司使命是帮助企业把数据用起来,通过我们能力的输出,让企业把数据变成资产,激活数据的价值。

\\

我们在做数据资产的过程中逐步确立了自身的数据理念,主要包括三块:

\\
  • 最强能力,连接—— 将各类数据进行内容上的连接,把看似不相关的数据连接起来;\\t
  • 核心价值,场景化 —— 数据最终的使用,需要跟场景绑定才能发挥价值;\\t
  • 极致魅力,不确定性—— 大数据很多时候解决的是非精准结果的问题。\

公司现在的产品主要是分两块,一是数栖平台,帮助企业快速构建自己的数据中心、数据资产和数据服务,实现数据的快速增值;二是行业数据产品,比如地产的物业服务、Shopping Mall 的数据资产服务、新零售相关产品等。

\\

大数据是一种思维模式,越用越有价值

\\

ad16851a0de67c6a92d5e47b14d937e3.png

\\

除了可以经常看到的定义,我认为,大数据更多的是一种思维模式的转变,是从更全面的角度看待问题和解决问题。

\\

为什么这么说?数据最核心的能力即数据的连接,就是把一些看似不相关的数据连接起来之后,在解决问题时,你就会有更多的视角去发现问题。

\\

另一方面,大数据是越用越有价值的,数据最终和业务场景结合形成闭环,不断优化其效果。就像AlphaGo、无人驾驶汽车,刚开始会输棋或出事故,但是随着数据不断丰富和算法模型不断优化,它会变得越来越可靠。

\\

这就是数据价值不断沉淀和不断优化业务的能力。

\\

三种态度面对大数据

\\

3580fc4deadbe293f282a896f9c873e8.png

\\

我们经常有客户觉得大数据是万能的,什么问题都能够通过大数据解决——这个认知是有问题的,有时候也会让大数据从业者比较痛苦。

\\

举个例子:东北某度假村,通过数据分析精准划分了潜在客户,同时进行投放引流,最后却没有任何效果。原因是什么?因为到这个地区的航班只有一趟,客流量受到交通限制,所以一直做不起来。

\\

大数据能够提供数据支撑,帮助发现问题和分析问题,但并不是能直接解决某些业务痛点,这要根据具体业务来看。最重要的是,大数据很多时候是辅助能力,不要以为它是万能的。

\\

怎么对待大数据?我有三个比喻:

\\

- 大数据像看书学习,不断积累才能让自己的知识更丰富,才能够发挥自己的知识能力。

\\

- 大数据的能力像电,隐藏在背后支撑产品,而数据本身不是服务或产品。比如大家都知道今日头条的产品效果跟很多竞品是类似的,但是它背后的数据能力、算法能力是很难复制的,这就是数据服务的隐匿性。

\\

- 大数据像显微镜,会发现更多的细节。比如在工业控制中,我们怎样确定某个参数变化和产品质量是密切相关的?你可能靠经验已经知道有十个参数对产品质量有影响,但是通过 IoT数据采集,并通过机器学习算法分析,还会发现有其他几个因素并不在自己的经验范围,大数据能够通过数据说明更多问题,发现事物背后的细节。

\\

什么原因导致坐着金山啃馒头

\\

5d6fb24db39a6e3ecd50468bf33aa76d.png

\\

当前大数据应用的困惑,我觉得主要有两点,一是对数据认知不清晰,二是提不出数据应用场景的需求。

\\

认知不清晰的问题很普遍,比如WiFi 探针的数据,在手机开着 Wi-Fi 功能进入某个场所时,它会采集到手机的MAC地址、信号强度、进入时间等信息,但这些信息是业务人员理解不了的,我们把数据转换成业务可阅读易理解,比如某个设备背后的使用者是“家有小孩”、“电影爱好者”、“喜欢吃西餐”、“消费能力”等,业务人员看到这些数据后就可以结合自己的行业知识发挥出数据的价值。我们常说,作为数据技术人员,我们对业务的理解是不够的,真正理解业务的人,是行业专家和从业人员,我们需要做的是怎么把数据和业务的桥梁建起来,让行业专家能够理解数据背后的意义和价值,把大数据的能力用起来,价值发挥出来,这是我理解数据认知方面急需解决的问题。

\\

同时,对大数据的场景需求也是不清晰的,大数据场景化应用最终能达到的效果如何,很多时候客户心里是没谱的——除非行业已经有现成的实践案例。我理解目前大数据还处于起步阶段,很多时候应用场景是需要不断探索、验证和优化。怎样让大家把数据快速用起来、快速形成数据价值验证的闭环?这也是当前大数据应用的关键点。

\\

这两个问题造成了坐着金山啃馒头的现状。每个公司都有一座矿山,有很多有价值的数据,但是这些价值一直没有发挥出来,就是因为缺了那座桥。我们一位客户曾说过,他们的业务能力很强,团队抢了很多面粉回来,但最终没有把面粉变成面包而是坏掉了。数据资产化就是要把这些散落的数据,构建出真正能给企业生产经营带来增值的数据体系,支撑企业未来的发展。

\\

企业大数据挖矿

\\

8bc0888e6a1bfdeb38d21782f6ac3c47.png

\\

前面说的问题是所有行业客户的困惑,我们希望把这么多年积累沉淀的大数据能力输出到各个行业,帮企业挖掘数据价值。我们把挖矿过程拆分为几个环节:

\\
  • 要有一个好工具,能够把原始数据加工成金矿石。\\t
  • 要有专业的冶炼技术,通过冶炼将矿石提炼成黄金,纯度要高。\\t
  • 要有快速场景化的能力,把黄金加工成戒指、项链等产品,提高资产价值。\

这样,数据就成为终端的高附加值产品。

\\

数据挖矿工具

\\

整个数据挖矿过程浓缩成三个字,就是存、通、用:把数据存储汇聚后,把数据进行连接打通,然后结合业务场景把数据用起来。把它扩展成16个字方略就是:以用促通,以通带存,以存训算,以算利用。对于到工具,就是要解决数据汇聚、交换,数据开发、治理,数据应用、计量等问题。

\\

数据汇聚、交换:是指如何快速将散落在各角落的数据汇聚到数据中心,需要解决以前信息化建设时异构数据源、异构网络等复杂的环境。

\\

数据开发、治理:是指解决数据进行资产化构建的过程,他包括数据建模的能力、算法构建的能力以及数据治理中的生命周期、血缘追溯、生产基线、数据质量等。

\\

数据应用、计量:是指数据如何快速的结合业务场景,快速的验证数据效果,并形成效果反馈,包括数据应用的价值计量。这些应用能力的沉淀是企业数据战略过程中最具价值的核心能力,以前靠经验的传承,未来把数据来说话。

\\

2c42e4a31e07607740f8059b8c094bb1.png

\\

数据冶炼技术

\\

对于数据冶炼技术,我们沉淀了自己的构建数据资产方法论:构建完整的数据体系,要围绕人、物、场景这三点,以场景为驱动,将相关特性打到人和物上,形成特定场景下人和物的不同特性。

\\

比如说某人点外卖总是在一两家店,而且点的菜品不变,这能说明他的可能是不愿尝试新事物的性格特征;而某人每次点餐基本都不同,喜欢尝试新鲜事物,这可能又反映出他喜欢尝试新事物的性格特征。针对不同的性格特征,在具体业务开展时,需要提供的服务也是不一样的。

\\

通过这种数据体系构建,把人和物的属性构建起来,最终通过场景加上时空维度把人和物的数据连接起来,构建出全维度立体的数据资产体系,更全面地提升对事物和问题的认知和理解。

\\

7aabd0275d88f528e191f574e12abe95.png

\\

数据场景化应用

\\

我们把场景化应用总结了四个字:研、定、行、优。

\\
  1. 研:首先分析问题或对象的本质、背后的细节;如分析棋局的优劣势、分析人群的特征;\\t
  2. 定:定策略、定人群,明确下一步的行动计划;圈定目标人群、设定下一步围棋落子的最优方案\\t
  3. 行:行动;广告触达人群、围棋落子;\\t
  4. 优:对结果进行优化、反馈;广告触达后的转换率优化业务闭环、围棋的胜负来优化下一次对战的策略;\

数据越用越有价值,通过整个业务闭环不断完善优化,使业务的场景化应用效果越来越好,最终达到数据业务价值的最大化。每个企业的业务情况不同、数据情况不同,很多时候需要根据企业的特性去做不同的优化处理。

\\

3fe9e605752b17688a53290b5fb04aa6.png

\\

对 EGO 的期待

\\

c7eac467bc1bd51f419983b8184b9503.png

\\

数据最大的能力是连接。同样的,加入 EGO 也是希望通过这样的社区,把技术领导者连接起来,相互学习、补自己短板、学别人长处,形成更丰富的知识体系,提升自己各方面的能力。

\\

Q \u0026amp; A

\\

1. 有哪些思路来找更多的外部特征来辅助预测?

\\
\

首先要有一套基础的数据资产体系,或者叫标签体系。按我们的经验,从人、物、场景三个维度进行构建就可以考虑得比较全面,另外也需要更多对业务的理解、常识的理解,通过特定领域的研究对象,去了解背后的业务逻辑和本质,据此构建大的数据资产体系后,就可以更全面地训来找到更多的外部特征。

\\

就构建数据标签体系来说,每个人的理解是不一样的,基于人、物、场景构建标签体系,在新构建时可能没办法100%满足业务需求,但随着业务闭环的形成,以及行业经验注入和不断优化,数据体系会越来越完善。

\
\\

2. 大数据团队的投入比例多少才合适?

\\
\

这需要根据公司的业务判断。比如 EGO 北京分会会员、易观 CTO 郭炜老师讲过,他们的数据量比较大,那么整个大数据团队的投入就会比较大。有些公司数据量并不大,或者数据业务并不多,那么投入不需要很多,还是要结合公司现状进行具体判断。

\

相关文章:

  • 重磅干货不容错过!2017云栖大会汇总资料,速来领取!
  • Linux—CentOS7,玩转samba服务,基于身份验证的共享
  • initial ram filesystem
  • JS基础篇--通过JS生成由字母与数字组合的随机字符串
  • 在Docker中运行tensorflow版的neural style
  • Zookeeper开源客户端框架Curator简介
  • 使用httpclient、htmlcleaner 、xpath 采集新浪微博3G站点数据
  • Redis Cluster(Redis 3.X)设计要点
  • 一张图看懂阿里云网络产品【四】NAT网关
  • redis入门学习
  • 最长k可重区间集问题
  • Android中的消息机制
  • Python爬虫入门之Urllib库的基本使用
  • SAML(Security assertion markUp language) 安全断言标记语言
  • Windows 系统变量
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • 5、React组件事件详解
  • Apache的基本使用
  • Asm.js的简单介绍
  • - C#编程大幅提高OUTLOOK的邮件搜索能力!
  • Centos6.8 使用rpm安装mysql5.7
  • Fabric架构演变之路
  • git 常用命令
  • JavaScript创建对象的四种方式
  • leetcode46 Permutation 排列组合
  • maya建模与骨骼动画快速实现人工鱼
  • python学习笔记 - ThreadLocal
  • Swoft 源码剖析 - 代码自动更新机制
  • WordPress 获取当前文章下的所有附件/获取指定ID文章的附件(图片、文件、视频)...
  • 力扣(LeetCode)56
  • 聊一聊前端的监控
  • 如何邀请好友注册您的网站(模拟百度网盘)
  • 验证码识别技术——15分钟带你突破各种复杂不定长验证码
  • 在electron中实现跨域请求,无需更改服务器端设置
  • FaaS 的简单实践
  • ​sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块​
  • ​力扣解法汇总1802. 有界数组中指定下标处的最大值
  • #mysql 8.0 踩坑日记
  • #WEB前端(HTML属性)
  • (C++17) std算法之执行策略 execution
  • (cos^2 X)的定积分,求积分 ∫sin^2(x) dx
  • (差分)胡桃爱原石
  • (超简单)构建高可用网络应用:使用Nginx进行负载均衡与健康检查
  • (完整代码)R语言中利用SVM-RFE机器学习算法筛选关键因子
  • (心得)获取一个数二进制序列中所有的偶数位和奇数位, 分别输出二进制序列。
  • (转)Android学习系列(31)--App自动化之使用Ant编译项目多渠道打包
  • ***原理与防范
  • .NET 4.0网络开发入门之旅-- 我在“网” 中央(下)
  • .net core 3.0 linux,.NET Core 3.0 的新增功能
  • .net core 6 集成和使用 mongodb
  • .NET Remoting Basic(10)-创建不同宿主的客户端与服务器端
  • @Autowired自动装配
  • @media screen 针对不同移动设备
  • [100天算法】-不同路径 III(day 73)
  • [BUUCTF 2018]Online Tool(特详解)