当前位置: 首页 > news >正文

Severless SQL on OSS 实验(DataLakeAnalytics on OSS)

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

摘要: 数据存储在OSS后,可以有多种方式查询分析OSS数据,如自建Spark/Presto/Impala(阿里云EMR以及Hadoop社区官方已支持OSS), 使用MaxCompute、DataLakeAnalytics等。

基于OSS的数据查询分析

数据存储在OSS后,有多种查询分析的方法,包括阿里云MaxCompute、DataLakeAnalytics产品等Severless查询分析服务,也可以自建Spark、Presto、Imapla应用来分析OSS上的数据。

LqbYOlwqufz8jtWWW=SfaBHYHHtqqDo4iYJ5mDyKETFUz1529481415418compressflag.png

实验步骤(DataLakeAnalytics on OSS)

本次实验,主要介绍实验DataLakeAnalytics如何Severless地查询分析OSS上的数据。

mWycPxNmgyD0=vD3yJJfB9CDkJ3830yhbqeE1Lb7iwlC71529481455314compressflag.png

服务开通

OSS服务:

1.开通OSS服务https://www.aliyun.com/product/oss

DataLakeAnalytics服务:

1.申请DataLakeAnalytics的试用资格
备注:目前DataLakeAnalytics公测中,需提交公测申请,开通试用。

操作步骤

准备数据

登录控制台, 并创建目录

RwOmrWyZ6gNqWmv0Db7kUJFKPnAk1OHzjeVbB0itCx1NT1529481503914compressflag.png

请创建华东1区域的OSS测试Bucket(目前DataLakeAnalytics产品公测区域为华东1)。

rys9fzi6TyTt=y4e8dhd4tJSHP504iPKStxBEHimn8dBA1529481546644compressflag.png

备注:Bucket名称是全局唯一,如果提示名称已存在,请更换一个Bucket名称。

创建目录(建议目录如下):

创建目录workshop_sh/trade, workshop_sh/user 

mKuEYq2HLhHHx4EWR8te=4Ntmlf6eUvU1odBpBfF8USQP1529481596511compressflag.png

J2=xJRHOJrwZrYrgyPrzKaBFd95=zEG9ZxeLew=6guH531529481632327compressflag.png

下载模拟数据(该数据本次实验的模拟数据)

http://testdatasample.oss-cn-hangzhou.aliyuncs.com/workshop_sh/workshop_sh.zip

将下载的将交易记录和开户信息数据,分别上传到trade、user目录

OYhgzV8c=OsKyXuLH1uj1J8vhECKAHlkzq9DnfCpu=5uO1529481689634compressflag.png

edo6SK=iRUd3Tg6xgNEzIwXdRP4K=WGCO9XibUa9m3PTQ1529481757907compressflag.png

登录Data Lake Analytics控制台

点击“登录数据库”,输入开通服务时分配的用户名和密码,登录Data Lake Analytics控制台。

HnUq535jrLnYBV6k5MIcKk754mx5FX89lCwZY=IbKH8SJ1529481794256compressflag.png

公测期间的分配的用户名、密码,开通服务的消息中可以查看

ZFUfn59JApjiUdhWxRD3FfAi2l7WUqjd3AM2sy2hSTG701529481833734compressflag.png

创建Schema和Table

创建Schema

输入创建SCHEMA的语句,点击“同步执行”。

CREATE SCHEMA sh_trade

CREATE SCHEMA sh_trade
(注意:同一个阿里云region,schema名全局唯一,建议根据业务定义,已有重名schema,在创建时会提示报错,则请换一个schema名字。)

GgpoxIWgn5SBDP2at47RMNh5m86uLocVYxT=OzXjx6E0O1529481876939compressflag.png

创建表

在“数据库”的下拉框中,选择刚刚创建的schema。
然后在SQL文本框中输入建表语句如下,并点击同步执行。其中,Location替换为您的Bucket和测试数据的路径

1.创建交易记录表:
说明:LOCATION 'oss://Bucket名称/交易记录表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。如:oss://workshopsh20180608100/workshop_sh/user

qpnHasZRYmNaNr08h2pibLc57hcXigVb=FFP9uyh2qzv11529481954813.png

2.创建开户信息表:
说明:LOCATION 'oss://Bucket名称/开户信息表目录/'
实验中,替换LOCATION 'oss://您的OSS存储空间名称/workshop_sh/user/'。 如:oss://workshopsh20180608100/workshop_sh/user

iCfi0GiTJDZ304N0tI9=3ZveC70V7PVtMTWkK6zDQbodf1529481990982.png

3.建表完毕后,刷新页面,在左边导航条中能看到schema下的2张表

MYOi9JbHi=NcZTtu9PUc5giM0pVXlWc4pfoOq8yvwocKo1529482020450compressflag.png

SQL查询(同步执行)

1.查询交易机构SXS_0010,在0603至0604的100条交易记录

9ehGGhXhtExAnTJQobIlxTNiBjYt6rXEDdezuhFJkkwQe1529482084915.png

显示执行结果

9xpGjOoU4bIj2VSL5P=Bvoo7nM4drHvoYeo5jqPUA84CX1529482117794compressflag.png

2.查询各城市、男性女性人群,购买的基金总额(多表Join查询)

ke=MxrzIvM33S=eNEPq9kKpDiuekSYmRYEkhV1=MvTTYK1529482162881.png

UmQX9fIn9Q21ekwJacMIqMfXCJBICgeYrotf4xvjIOJrj1529482183277compressflag.png

SQL查询(异步执行)

异步执行查询,将查询结果,以CSV格式,输出到OSS上

wTpVG6fz4zVyW=90jdraf0kvXQaOGgTuZn86iHCyWhE4u1529482251185compressflag.png

点击“执行状态”,可看到该异步查询任务的执行状态

主要分为:“RUNNING”,“SUCCESS”,“FAILURE”。

点击“刷新”,当STATUS变为“SUCCESS”时,可以查看到查询结果输出到OSS的文件路径。

zTrAdhUyzQRok5VgfCIbsCORPo1djgQmwqBRh6S830n9Y1529482304887compressflag.png

查看导出OSS的结果文件

jzb0z8bgZOIeKtOwtcMdbkrHIgTG9nKHQQ0IkL5b=zCKm1529482347152compressflag.png

实验耗费

OSS存储的费用

原文链接

转载于:https://my.oschina.net/u/3735980/blog/1832898

相关文章:

  • MYSQL下对远程用户进行连接授权
  • php中mysqli 处理查询结果集的几个方法
  • python常用模块
  • windows mysql 8
  • 云计算大数据,知识体系
  • 瓜脸识别神器让标签看得见,看ET农业大脑是如何将生鲜品牌化?
  • Jenkins+pipeline+参数构建+人工干预确定
  • sql -- 移除数据中的换行符和回车符
  • 总结http get和post的区别
  • SpringBoot案例中关于添加的方式
  • WORD文档怎么转换成EXCEL
  • Java基础学习总结(24)——Java单元测试之JUnit4详解
  • 软件工程:第三章作业
  • js验证后台传递的map数据是否为空
  • 扫描【单调队列】
  • 《网管员必读——网络组建》(第2版)电子课件下载
  • 【Amaple教程】5. 插件
  • 【刷算法】求1+2+3+...+n
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • Apache Spark Streaming 使用实例
  • canvas 高仿 Apple Watch 表盘
  • css选择器
  • input实现文字超出省略号功能
  • Java基本数据类型之Number
  • Puppeteer:浏览器控制器
  • Python 反序列化安全问题(二)
  • Python打包系统简单入门
  • Python十分钟制作属于你自己的个性logo
  • Spark RDD学习: aggregate函数
  • Spring-boot 启动时碰到的错误
  • SQLServer之创建数据库快照
  • webpack+react项目初体验——记录我的webpack环境配置
  • 解析带emoji和链接的聊天系统消息
  • 今年的LC3大会没了?
  • 开源地图数据可视化库——mapnik
  • 类orAPI - 收藏集 - 掘金
  • 猫头鹰的深夜翻译:Java 2D Graphics, 简单的仿射变换
  • 数据科学 第 3 章 11 字符串处理
  • 小试R空间处理新库sf
  • C# - 为值类型重定义相等性
  • 关于Android全面屏虚拟导航栏的适配总结
  • 小白应该如何快速入门阿里云服务器,新手使用ECS的方法 ...
  • #etcd#安装时出错
  • #laravel 通过手动安装依赖PHPExcel#
  • $(document).ready(function(){}), $().ready(function(){})和$(function(){})三者区别
  • $.ajax,axios,fetch三种ajax请求的区别
  • (6)【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理
  • (Java实习生)每日10道面试题打卡——JavaWeb篇
  • (剑指Offer)面试题34:丑数
  • (四)linux文件内容查看
  • (学习日记)2024.01.09
  • (原創) 系統分析和系統設計有什麼差別? (OO)
  • (转)关于多人操作数据的处理策略
  • (转)拼包函数及网络封包的异常处理(含代码)
  • (最简单,详细,直接上手)uniapp/vue中英文多语言切换