当前位置: 首页 > news >正文

【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Databricks】系列。

前言

Databricks 已经成为了数据科学的必备工具,今时今日你已经很难抛开它来谈大数据,它常用于做复杂的ETL中的T, 数据分析,数据挖掘等,特别适用于做数据建模,机器学习等。

那么顺应时代,现在也来看看这个工具的内容。首先要有一个环境,基于Azure 的Databricks简称ADB。托管在Azure 上的Databricks已经被Azure进行了很大的优化, 在搭建时只需要简单的几步即可拥有一个环境,不过要提醒一句ADB的集群并不便宜,用完马上删掉或停止, 否则一晚过百美金就会烧掉。

搭建环境

步骤1: 创建ADB workspace

可以把Workspace想象成一个装在Azure上的应用程序,然后通过它进入Databricks的环境。通过下图,创建一个workspace:
在这里插入图片描述
创建的步骤很简单,提供一些简单信息,对于pricing tier处,可以先按默认选择,在实际环境中则需要考虑具体的费用和用法。

在这里插入图片描述

点击创建后等待几分钟即可完成:

在这里插入图片描述

Databricks 内部布局

通过workspace进去之后可以看到下图的布局,ADB 的版本更新可能会导致布局的偏差,不过基本功能都不会变。
在这里插入图片描述
我们主要用到的一些导航栏有:

  • Workspace: 通过一个“文件系统”把你的notebooks进行逻辑分组。默认情况下会有两个:Shared 和Users, Shared 文件夹用来存储共同协作notebooks。 users则只给创建的用户自己访问。可以在这里进行权限控制来保证多用户使用时的安全性。
  • Recents:存储最近访问的资源列表。
  • Compute:ADB的核心运算组件——集群所在地。

在这里插入图片描述

步骤3 创建集群

除了权限, ADB 中常规的必要操作就是创建和管理集群, 从Compute导航栏进去,点击创建集群:
在这里插入图片描述
集群选项不是非常多,最主要的部分是节点(min/ max workers)这个决定你运行时的费用和性能。还有自动停止时间,如果你担心忘记了手动停止,那么就这下图第二个箭头处填上合适的时间,让集群在没有活动后的多少分钟内停止。

在这里插入图片描述

创建时会出现下面左边箭头的图标,叫作pin cluster, ADB 的集群有个特性, 当集群建立后闲置30天都没有被用过,就会自动销毁,通过pin住集群可以避免在重要的环境下集群的异常消失。
集群创建后,在右边箭头中可以开始,停止集群。
在这里插入图片描述
创建完毕后的集群样子:
在这里插入图片描述

到此为止,物理上的搭建已经初步完成。下一文将对ADB 的集群进行更深入的研究,因为它实在太重要,而且费用贵。

相关文章:

  • 011 OpenCV warpAffine
  • 如何在vs2017及以前版本(vs2010、vs2015)上添加 添加类型库中的MFC类
  • MySQL的安装步骤教程以及基本操作--详细讲解
  • 全微分方程@曲线积分的基本定理(公式)
  • 做一件荒谬的事:用AI推理下一次双色球结果 v0.1
  • Echarts大屏可视化_04 横向柱状图模块的引入和开发
  • 修改element的抽屉<el-drawer的宽度
  • 数据库管理-第120期 初探Halo数据库(202301201)
  • react native 环境准备
  • 初步认识结构体
  • BearPi Std 板从入门到放弃 - 后天篇(1)(I2C1 读取 光照强度)
  • 36.位运算符
  • mysql8.0 提取json数据转为行
  • Python类型注解必备利器:typing模块解读指南
  • 【Python】实现一个简单的区块链系统
  • [Vue CLI 3] 配置解析之 css.extract
  • 【Under-the-hood-ReactJS-Part0】React源码解读
  • Android组件 - 收藏集 - 掘金
  • canvas绘制圆角头像
  • Docker: 容器互访的三种方式
  • extract-text-webpack-plugin用法
  • JavaScript设计模式与开发实践系列之策略模式
  • Laravel Telescope:优雅的应用调试工具
  • Linux快速复制或删除大量小文件
  • miniui datagrid 的客户端分页解决方案 - CS结合
  • Mithril.js 入门介绍
  • React Transition Group -- Transition 组件
  • 安装python包到指定虚拟环境
  • 闭包--闭包作用之保存(一)
  • 后端_MYSQL
  • 记一次用 NodeJs 实现模拟登录的思路
  • 力扣(LeetCode)357
  • 如何使用 OAuth 2.0 将 LinkedIn 集成入 iOS 应用
  • 数据科学 第 3 章 11 字符串处理
  • 3月7日云栖精选夜读 | RSA 2019安全大会:企业资产管理成行业新风向标,云上安全占绝对优势 ...
  • #Ubuntu(修改root信息)
  • #vue3 实现前端下载excel文件模板功能
  • (rabbitmq的高级特性)消息可靠性
  • (第27天)Oracle 数据泵转换分区表
  • (三)模仿学习-Action数据的模仿
  • (三分钟)速览传统边缘检测算子
  • (未解决)jmeter报错之“请在微信客户端打开链接”
  • (已解决)什么是vue导航守卫
  • .NET 4.0网络开发入门之旅-- 我在“网” 中央(下)
  • .net core 微服务_.NET Core 3.0中用 Code-First 方式创建 gRPC 服务与客户端
  • .Net Core与存储过程(一)
  • .NET Project Open Day(2011.11.13)
  • .net wcf memory gates checking failed
  • .NET精简框架的“无法找到资源程序集”异常释疑
  • .net实现头像缩放截取功能 -----转载自accp教程网
  • /3GB和/USERVA开关
  • ::什么意思
  • ??在JSP中,java和JavaScript如何交互?
  • @ComponentScan比较
  • @开发者,一文搞懂什么是 C# 计时器!