当前位置: 首页 > news >正文

[Hive] 常见函数

文章目录

  • 字符串函数
  • 数值函数
  • 随机函数
  • 日期和时间函数
    • 字符串转时间
  • 聚合函数
  • 数组函数
  • 结构体函数
  • 数组函数
  • 映射函数 map
  • 正则
  • 处理JSON

字符串函数

CONCAT(string1, string2, …):将多个字符串连接成一个字符串。

LENGTH(string):返回字符串的长度。

LOWER(string):将字符串转换为小写。

UPPER(string):将字符串转换为大写。

TRIM(string):去除字符串两端的空格。

SUBSTR(string, start, length):从字符串中提取子字符串,从指定的起始位置开始,指定长度。

REPLACE(string, search, replace):替换字符串中的指定子字符串。

REGEXP_REPLACE(string, pattern, replace):使用正则表达式替换字符串中的匹配项。

SPLIT(string, delimiter):将字符串按指定分隔符拆分为数组。

INSTR(string, substring):返回子字符串在字符串中第一次出现的位置。

LIKE(string, pattern):判断字符串是否与指定模式匹配(支持通配符)。

RTRIM(string):去除字符串末尾的空格。

LTRIM(string):去除字符串开头的空格。

CONCAT_WS(separator, string1, string2, …):将多个字符串使用指定的分隔符连接成一个字符串。

INITCAP(string):将字符串的首字母大写。


数值函数

ABS(x):返回数值的绝对值。

ROUND(x, d):将数值四舍五入到指定的小数位数。

CEIL(x):向上取整。

FLOOR(x):向下取整。


随机函数

rand():生成一个 0 到 1 之间的随机浮点数。

随机取出一张表的10条数据
select * from t1 order by rand() limit 10

randn():生成一个符合标准正态分布(均值为 0,标准差为 1)的随机浮点数。
rand_seed(n):使用给定的种子值 n 来初始化随机数生成器,从而产生可重复的随机数序列。
rand_integer(n):生成一个 0 到 n-1 之间的随机整数。
rand_array(n, expr):生成一个包含 n 个元素的数组,每个元素的值由表达式 expr 决定。


日期和时间函数

CURRENT_DATE():返回当前日期。

CURRENT_TIMESTAMP():返回当前时间戳。

YEAR(date):返回日期中的年份。

MONTH(date):返回日期中的月份。

DAY(date):返回日期中的天数。

DATEDIFF(enddate, startdate):返回两个日期之间的天数差异。

DATE_ADD(startdate, num_days):将指定数量的天数添加到给定日期中。

DATE_SUB(startdate, num_days):从给定日期中减去指定数量的天数。

文章目录

  • 字符串函数
  • 数值函数
  • 随机函数
  • 日期和时间函数
    • 字符串转时间
  • 聚合函数
  • 数组函数
  • 结构体函数
  • 数组函数
  • 映射函数 map
  • 正则
  • 处理JSON

字符串转时间

TO_DATE(string, format):将字符串转换为日期类型。format 参数指定字符串的日期格式。

TO_TIMESTAMP(string):将字符串转换为时间戳类型。

UNIX_TIMESTAMP(string, format):将字符串转换为 Unix 时间戳。format 参数指定字符串的日期格式。

FROM_UNIXTIME(unix_time, format):将 Unix 时间戳转换为指定格式的时间字符串。

日期格式的模式包括以下常用的符号:

  • yyyy:四位数的年份。
  • MM:两位数的月份(01-12)。
  • dd:两位数的日期(01-31)。
  • HH:24 小时制的小时数(00-23)。
  • mm:分钟数(00-59)。
  • ss:秒数(00-59)。

以下是一些示例

‘2023-10-25’ 的格式为 ‘yyyy-MM-dd’。
‘10/25/23’ 的格式为 ‘MM/dd/yy’。
‘2023-10-25 15:30:45’ 的格式为 ‘yyyy-MM-dd HH:mm:ss’。
‘25-Oct-23’ 的格式为 ‘dd-MMM-yy’。


聚合函数

SUM(column):计算列的总和。

AVG(column):计算列的平均值。

MAX(column):返回列的最大值。

MIN(column):返回列的最小值。

COUNT(column):计算非空行的数量。

进阶聚合函数

GROUP_CONCAT(expr[, sep]):将分组内的多个值连接成一个字符串,并可以指定分隔符。

COLLECT_LIST(expr):返回分组内的所有值作为一个数组。

COLLECT_SET(expr):返回分组内的所有唯一值作为一个集合。

FIRST(expr):返回分组内的第一个非空值。

LAST(expr):返回分组内的最后一个非空值。

PERCENTILE(expr, p):计算分组内的某个百分位数。

STDDEV(expr):计算分组内值的标准差。

VARIANCE(expr):计算分组内值的方差。


数组函数

SIZE(array):返回数组的大小。

ARRAY_CONTAINS(array, value):检查数组是否包含指定的值。

EXPLODE(array):将数组展开为多行。

array_intersect(arr1, arr2) 函数来判断两个数组是否存在交集。该函数将返回两个数组中共有的元素组成的一个新数组。


结构体函数

STRUCT(col1, col2, …):创建一个结构体。

col_name.field_name:访问结构体中的字段。


数组函数

ARRAY(col1, col2, …):创建一个数组。

SIZE(array):返回数组的大小。

ELEMENT_AT(array, index):返回数组中指定索引位置的元素。

EXPLODE(array):将数组展开为多行。

ARRAY_CONTAINS(array, value):检查数组是否包含指定的值。


映射函数 map

MAP(key1, value1, key2, value2, …):创建一个映射。

MAP_KEYS(map):返回映射中的所有键。

MAP_VALUES(map):返回映射中的所有值。

GET_JSON_OBJECT(json_string, path):从 JSON 字符串中提取指定路径的值。
复杂数据类型转换函数:

STRUCT_TO_MAP(struct):将结构体转换为映射。

MAP_TO_STRUCT(map):将映射转换为结构体。


文章目录

  • 字符串函数
  • 数值函数
  • 随机函数
  • 日期和时间函数
    • 字符串转时间
  • 聚合函数
  • 数组函数
  • 结构体函数
  • 数组函数
  • 映射函数 map
  • 正则
  • 处理JSON


正则

Hive 的正则表达式函数使用的是 Java 的正则表达式语法。

REGEXP_EXTRACT(string, pattern, index):从字符串中使用正则表达式模式提取匹配的子字符串。index 参数用于指定提取的子字符串索引。

regexp_extract_all(str, regexp[, index]) 函数来返回所有匹配的元素的一个数组

REGEXP_REPLACE(string, pattern, replacement):使用正则表达式模式替换字符串中的匹配项为指定的替换字符串。

REGEXP_SPLIT(string, pattern):根据正则表达式模式将字符串拆分为数组。

RLIKE(string, pattern):检查字符串是否与正则表达式模式匹配,返回布尔值。


处理JSON

GET_JSON_OBJECT(json_string, path):从 JSON 字符串中提取指定路径的值。

JSON_TUPLE(json_string, col1, col2, …):将 JSON 字符串解析为指定的列。

JSON_ARRAY(json_string, col1, col2, …):将 JSON 数组字符串解析为指定的列。

JSON_OBJECT(key1, value1, key2, value2, …):创建一个 JSON 对象。

JSON_SIZE(json_string):返回 JSON 字符串中顶层元素的数量。

JSON_EXTTRACT(json_string, json_path):从 JSON 字符串中提取满足 JSONPath 表达式的值。

相关文章:

  • 永恒之蓝漏洞 ms17_010 详解
  • 链动2+1商城系统:白酒行业的新机遇
  • 微信小程序之投票管理
  • libcurl库的网页爬虫程序
  • 前端打印表格功能+单号生成条形码
  • leetcode_2914 使二进制字符串变美丽的最少修改次数
  • converted from warning
  • 【Docker】Docker的应用包含Sandbox、PaaS、Open Solution以及IT运维概念的详细讲解
  • mysql查看插入记录与查看mysql实时查询和插入速度
  • 使用示例和应用程序全面了解高效数据管理的Golang MySQL数据库
  • 使用ControlNet生成视频(Pose2Pose)
  • 聊聊logback的FileAppender
  • 从龙湖智创生活入选金钥匙联盟,透视物业服务力竞争风向
  • 专业课改革,难度陡然提高,专业课122总分390+南京理工大学818南理工818上岸经验分享
  • vue源码分析(七)—— createComponent
  • 07.Android之多媒体问题
  • Django 博客开发教程 8 - 博客文章详情页
  • flutter的key在widget list的作用以及必要性
  • JavaScript 无符号位移运算符 三个大于号 的使用方法
  • JavaScript标准库系列——Math对象和Date对象(二)
  • Linux gpio口使用方法
  • Quartz实现数据同步 | 从0开始构建SpringCloud微服务(3)
  • SQLServer之创建显式事务
  • 机器学习中为什么要做归一化normalization
  • 精益 React 学习指南 (Lean React)- 1.5 React 与 DOM
  • 类orAPI - 收藏集 - 掘金
  • 时间复杂度与空间复杂度分析
  • 数据仓库的几种建模方法
  • 网页视频流m3u8/ts视频下载
  • 微信小程序--------语音识别(前端自己也能玩)
  • ​力扣解法汇总946-验证栈序列
  • ​无人机石油管道巡检方案新亮点:灵活准确又高效
  • #include
  • (13)Hive调优——动态分区导致的小文件问题
  • (删)Java线程同步实现一:synchronzied和wait()/notify()
  • (深度全面解析)ChatGPT的重大更新给创业者带来了哪些红利机会
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (原創) 博客園正式支援VHDL語法著色功能 (SOC) (VHDL)
  • (转) SpringBoot:使用spring-boot-devtools进行热部署以及不生效的问题解决
  • (转)【Hibernate总结系列】使用举例
  • (转)3D模板阴影原理
  • (转)Oracle存储过程编写经验和优化措施
  • (转)为C# Windows服务添加安装程序
  • (轉貼) 蒼井そら挑戰筋肉擂台 (Misc)
  • .NET CLR基本术语
  • .net framework4与其client profile版本的区别
  • .NET 将多个程序集合并成单一程序集的 4+3 种方法
  • .net 使用$.ajax实现从前台调用后台方法(包含静态方法和非静态方法调用)
  • .net安装_还在用第三方安装.NET?Win10自带.NET3.5安装
  • [ HTML + CSS + Javascript ] 复盘尝试制作 2048 小游戏时遇到的问题
  • [ solr入门 ] - 利用solrJ进行检索
  • [ai笔记9] openAI Sora技术文档引用文献汇总
  • [BUUCTF NewStarCTF 2023 公开赛道] week4 crypto/pwn
  • [BZOJ1178][Apio2009]CONVENTION会议中心
  • [c#基础]值类型和引用类型的Equals,==的区别