当前位置: 首页 > news >正文

【开源社区】Elasticsearch(ES)中空值字段 null_value 及通过exists查找非空文档

文章目录

  • 0、声明
  • 1、问题描述
  • 2、问题剖析
    • 2.1 NULL或者空值类型有哪些
    • 2.2 案例讲解:尝试检索值为 `null` 的字段
    • 2.3 解决思路
  • 3、使用 null_value 的诸多坑(避免生产事故)
    • 3.1 null_value 替换的是索引,并不会直接替换源数据
    • 3.2 不支持 Text 类型
    • 3.2 null_value 的值必须可以隐式类型转换为当前字段类型
    • 3.4 BUG
  • 4、如何查询字段值非空或者不为 null 的文档?

0、声明

本文所述问题和解决方案基于 Elasticsearch 7.17.3 版本,具体问题可能会随着版本的变化有所不同,如有疑问请联系作者。

1、问题描述

null 值是个麻烦的问题,在业务系统中经常有如下场景:

  • 检索值为 null'' 的文档(数据记录)
  • 判断某字段是否存在

本文主要解决在 ES 中如何处理空只或者 NULL 值,如检索值为空的文档,如何存储空值或 NULL 值等。

2、问题剖析

2.1 NULL或者空值类型有哪些

  • "NULL"(字符串,不区分大小写)
  • null
  • ' '(空白符)
  • ''(空值)

2.2 案例讲解:尝试检索值为 null 的字段

首先添加一个名为 null_value_index 的测试索引,将上述类型的值分别创建一条数据出来,然后查看检索结果,如下所示:

PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "keyword"}}}
}PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"null"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}GET null_value_index/_search

1、尝试检索值为null的文档:

POST null_value_index/_search
{"query": {"term": {"null_field": null}}
}

执行结果如下:

{"error" : {"root_cause" : [{"type" : "illegal_argument_exception","reason" : "field name is null or empty"}],"type" : "illegal_argument_exception","reason" : "field name is null or empty"},"status" : 400
}

发现不支持直接搜索值为 null 的字段,搜索值为 [] 也是一样

2、那么尝试搜索其他几种空值呢?

POST null_value_index/_search
{"query": {"terms": {"null_field": [""," "]}}
}

执行结果:

{"took" : 0,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 0,"relation" : "eq"},"max_score" : null,"hits" : [ ]}
}

结果:没有匹配任何文档,说明不论是检索''还是' '都检索不到任何文档
分析:在全文检索中,空值本来就会被作为停用词处理,在分词过程中就会被“干掉”,即便我们使用 term 做精准查询,不会被分词,空值也不会被创建索引,因此无法匹配到任何结果,这一点不同于关系数据库。
3、那么搜索"null"值呢?


POST null_value_index/_search
{"query": {"term": {"null_field": "null"}}
}

查询结果:

{"took" : 0,"timed_out" : false,"_shards" : {"total" : 1,"successful" : 1,"skipped" : 0,"failed" : 0},"hits" : {"total" : {"value" : 1,"relation" : "eq"},"max_score" : 0.2876821,"hits" : [{"_index" : "null_value_index","_type" : "_doc","_id" : "2","_score" : 0.2876821,"_source" : {"null_field" : "null"}}]}
}

为什么搜索字符串就有值了呢?很简单,这就是一个普通的搜索,跟空值没有任何关系,这本质上跟搜索 "test_value"没有任何区别。

2.3 解决思路

那么这有什么意义呢?

其实这给我们提供了一个思路,如果我们想搜索空值字段,只需要在数据写入的时候,把空值字段给他一个默认值就行了

ES 为我们提供了一个 null_value 参数,在定义字段的时候,可以声明在遇到 null 值或其他空值的时候,将其替换为指定的值,

注意null_value 替换的是分词后的结果,源数据并不受影响,这一点后面会详细讲述

代码示例:

DELETE null_value_index
PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "keyword","null_value": "NULL"}}}
}
PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":"NULL"}
{"index":{"_id":3}}
{"null_field":""}
{"index":{"_id":4}}
{"null_field":" "}
{"index":{"_id":5}}
{"null_field":[]}

上述代码在创建 Mapping 的时候,显式的声明 null_value 参数,其值为当 null_field 字段遇到null值的时候的替换值,也就是说 null_value 的值配置什么,这个字段原本的null值就会被替换成什么。

因此上述例子中 _id:1 的数据的值就会被替换,而其他数据不受到影响,因此当执行以下查询时,返回结果应该为 _id: 1_id: 2 两条结果。


GET null_value_index/_search
{"query": {"term": {"null_field": "NULL"}}
}

执行结果:

"hits" : [{"_index" : "null_value_index","_type" : "_doc","_id" : "1","_score" : 0.6931471,"_source" : {"null_field" : null}},{"_index" : "null_value_index","_type" : "_doc","_id" : "2","_score" : 0.6931471,"_source" : {"null_field" : "NULL"}}
]

3、使用 null_value 的诸多坑(避免生产事故)

3.1 null_value 替换的是索引,并不会直接替换源数据

解释:当 null_value 生效发生替换行为时,其替换的并不是源数据(_source_data)而是索引数据,简单来说,就是当你执行 GET null_value_index/_search 时,是看不到任何源数据的变化的。

示例

测试数据:

DELETE null_value_index
PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "keyword","null_value": "Elastic"}}}
}PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}

执行查询:

GET null_value_index/_search

返回结果:

"hits" : {"total" : {"value" : 1,"relation" : "eq"},"max_score" : 1.0,"hits" : [{"_index" : "null_value_index","_type" : "_doc","_id" : "1","_score" : 1.0,"_source" : {"null_field" : null}}]}

可以看到,源数据中的 null 并未被直接替换,这是因为 null_value 替换的并不是源数据,而是索引数据,也就是说,当我们通过 term:"Elastic" 是可以检索到上面的文档的,替换的值对我们是不可见的。

在这里插入图片描述

3.2 不支持 Text 类型

作为 ES 中最常用的类型,text 类型是不支持设置 null_value 参数的,如过添加次参数会出现以下错误:
在这里插入图片描述
报错可以看出:text 类型不支持配置 null_value 参数

分析原因:推测是因为 text 类型是用于全文检索,会被分词,通常使用 match 检索 text 字段,而此时源数据和搜索词都会被分词,如果给出了 null_value,ES 就不知道应不应该给这个 null_value 的值分词了,null_value 替换的原本就是索引数据,如果分词可能会影响搜索结果的准确性,使用户得到意想不到的结果,但是如果部分词又违背了 text 类型的设计理念和规则,因此选择了不支持。

引申理解:其实非常建议官方添加对 text 类型对 null_value 类型的支持,因为用户只需要设置一个不会被分词的 null_value 值就可以了,比如"elastic"、"null"这样的词。因为这个问题实在是给广大 elastic 爱好者带来了很大的麻烦。

解决方案:鉴于在业务场景中,经常有 “查询结果 不为空 或不为 null " 这样的需求,针对此问题,文末将给出解决方案。

3.2 null_value 的值必须可以隐式类型转换为当前字段类型

官方的解释是需要设置成和当前字段相同的类型,原文如下:
在这里插入图片描述
注意官方文档说的必须是 the same data type as the field,实际上只要是可以隐式类型转换转换就可以,比如字段类型为 long 而 null_value 的配置值为 "1" 或者1 在语法上都是完全没问题的。
在这里插入图片描述
可以看到,不管是创建 Mapping 还是写入数据,都是没有问题的,而且不影响 null_value 的正常功能。

但需要注意的是,如果 typelong 类型,那么 null_value 的值给了一个 "elastic" 这样的值是不行的。

3.4 BUG

请看如下示例:

DELETE null_value_index
PUT null_value_index
{"mappings": {"properties": {"null_field": {"type": "short","null_value": 1}}}
}PUT null_value_index/_bulk
{"index":{"_id":1}}
{"null_field":null}
{"index":{"_id":2}}
{"null_field":""}
{"index":{"_id":3}}
{"null_field":[]}

基于以上数据,执行如下查询,请各位思考,返回的结果应该是什么


GET null_value_index/_search
{"query": {"term": {"null_field": {"value": 1}}}
}

按照官方对 null_value 的解释,返回结果应只为 doc2(_id: 1)的数据,然而 doc2(_id: 1)也被召回了,这显然是不正常的。
在这里插入图片描述

注意,""值是不被 null_value 替换的,这一点当我们把字段类型换成 keyword 的时候,就可以得到验证:
在这里插入图片描述

4、如何查询字段值非空或者不为 null 的文档?

推荐阅读:

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 【MySQL】全面剖析索引失效、回表查询与索引下推
  • 【开端】web系统中返回状态码组织管理
  • 回顾Python
  • 在树莓派上安装udhcpd的步骤
  • 2024年TI杯E题-三子棋游戏装置方案分享-jdk123团队-第三弹视觉模块的封装
  • 打造核心竞争力:中集集团技术创新之路
  • 【MetaGPT系列】【MetaGPT完全实践宝典——多智能体实践(辩论赛)构建】
  • 十九、虚拟机VMware Workstation(CentOSDebian)的安装
  • 前端项目中的Server-sent Events(SSE)项目实践及其与websocket的区别
  • PDF怎么在线转Word?介绍四种转换方案
  • MATLAB(R和C++)大肠杆菌合成生物机械数学模型
  • c语言中的volatile(从系统层面看)
  • 计算机网络408考研 2019
  • python:“ func“和“ func()“的区别
  • 用Python打造精彩动画与视频,9.3 项目案例分享与反思
  • 深入了解以太坊
  • 【译】React性能工程(下) -- 深入研究React性能调试
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • Angular 4.x 动态创建组件
  • JS基础篇--通过JS生成由字母与数字组合的随机字符串
  • k8s 面向应用开发者的基础命令
  • laravel with 查询列表限制条数
  • mysql innodb 索引使用指南
  • Object.assign方法不能实现深复制
  • puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决
  • react 代码优化(一) ——事件处理
  • 爱情 北京女病人
  • 等保2.0 | 几维安全发布等保检测、等保加固专版 加速企业等保合规
  • 如何在 Tornado 中实现 Middleware
  • 深入浏览器事件循环的本质
  • 说说我为什么看好Spring Cloud Alibaba
  • # MySQL server 层和存储引擎层是怎么交互数据的?
  • ## 基础知识
  • #define
  • #LLM入门|Prompt#3.3_存储_Memory
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • $(function(){})与(function($){....})(jQuery)的区别
  • (11)MATLAB PCA+SVM 人脸识别
  • (2)MFC+openGL单文档框架glFrame
  • (8)Linux使用C语言读取proc/stat等cpu使用数据
  • (done) NLP “bag-of-words“ 方法 (带有二元分类和多元分类两个例子)词袋模型、BoW
  • (STM32笔记)九、RCC时钟树与时钟 第一部分
  • (vue)el-checkbox 实现展示区分 label 和 value(展示值与选中获取值需不同)
  • (顶刊)一个基于分类代理模型的超多目标优化算法
  • (七)Activiti-modeler中文支持
  • (四) Graphivz 颜色选择
  • (转)shell调试方法
  • .gitattributes 文件
  • .net dataexcel winform控件 更新 日志
  • .NET Framework 的 bug?try-catch-when 中如果 when 语句抛出异常,程序将彻底崩溃
  • .NET/ASP.NETMVC 深入剖析 Model元数据、HtmlHelper、自定义模板、模板的装饰者模式(二)...
  • .NET/C#⾯试题汇总系列:⾯向对象
  • .net反编译工具
  • .NET高级面试指南专题十一【 设计模式介绍,为什么要用设计模式】
  • .Net接口调试与案例