当前位置: 首页 > news >正文

elasticSearch快速了解

elasticSearch:经常用于搜索引擎,我们用的百度搜索和github上的搜索都是用的搜索引擎,它是对输入内容进行分析,然后查询,不像数据库模糊搜索的like一样必须含用你输入的全部内容。

elasticSearch优势:支持分布式,可水平扩展;提供了restful接口,可被任何语言调用。

elasticsearch结合kibana、Logstash、Beats,是一套完整的技术栈,被称为ELK,被广泛应用于日志数据分析、实时监控等领域。我们经常用kibana提供的可视化控制台来操作elasticsearch。

elasticsearch搜索数据采用的倒排索引。我先说一下什么是正排索引。

正排索引就是:以Mysql为例,就是我们用索引根据id去查找数据。但elasticsearch是根据标题进行模糊查询。无法建立索引。如果正排索引就需要去访问每一个数据。

倒排索引:其中有俩个概念。 文档:对应的mysql表中的每一行的数据。  词条:对应一行数据的内容按词义分成的若干个词(比如:文档是:“小米手机”,那词条就是:小米、手机)。

elasticSearch进行倒排索引时会把原数据库中的信息存储一份到elasticsearch中,并根据id建立索引与mysql数据库中一样(但数据结构上不一样)。然后去分词,把分好的词与对应的文档id存储起来。

 然后在对词条建立唯一索引。

所以elasticsearch的工作流程是:先对搜索内容进行分词,然后根据分词去查文档id,最后就是根据文档id正常查mysql等的数据库了。

那我们应该怎么对搜索内容进行分词呢? 我们经常用ik分词器,把搜索内容分成多个词条

ik分词器有俩种模式:1、 ik_smart 智能切分,粗粒度 ;2、 ik_max_word 最细切分,细粒度(对一个词进行多种不同的切分,比如: 程序员 切分为:程序员、程序、员;)

下面让我们来通过kibana控制操作一下elasticsearch:

我是用的docker部署的,elasticsearch 8x以后的版本的api接口变化很大,目前还是用7x版本的多,所以我部署的7.12.1版本的。同样我们还需要部署kibana,kibana的版本要与elasticsearch的版本对应,同样也要用7.12.1版本。

elasticsearch容器启动命令:

docker run -d --name es -e "ES_JAVA_OPTS=-Xms512m -Xmx512m" -e "discovery.type=single-node" -v 你的挂载目录/es-data:/usr/share/elasticsearch/data -v 你的挂载目录/es-plugins:/usr/share/elasticsearch/plugins --privileged --network hm-net -p 9200:9200 -p 9300:9300 elasticsearch:7.12.1

挂载目录,只要你觉得你能的方便找到,写哪都可以。

kibana容器启动命令:

docker run -d --name kibana -e ELASTICSEARCH_HOSTS=http://es:9200 --network=hm-net -p 5601:5601 kibana:7.12.1

注意:要把这俩个容器部署在同一个网桥下,我创建的network的名字是 hm-net 。

等都启动好后访问:https://localhost:5601    就可以进行kibana的控制台了。

登陆进去,然后点右上的 dev tools 就进入操作elasticsearch的控制台了

 我们想对搜索内容进行分词的话,需要用到ik分词器,但这个分词器插件需要自己去下载。下载好直接拖进我们挂载的elasticsearch的plugins目录中就可以了。

 解压后,ik分词器的文件名叫 elasticsearch-analysis-ik-7.12.1 ,直接把它拖进es-plugins目录,然后容器elasticsearch容器就行。

POST _analyze
{"analyzer": "ik_smart","text": ""  
}

analyzer 是ik分词器的模式 模式有 ik_smart   和 ik_max_word 俩种;text 就是要分词的内容

post这行右边的三角符号,就会发送请求的命令。

 随着社会网络的发展,网络上经常新出现很大新的网络用词,这些新的网络用词ik分词器就不能识别的。就比如 “传智播客,泰酷辣啊”,分词器只会把它一个字一个字的分开。

但是! ik分词器提供给我们了扩展词汇的功能:我们只需要把新词汇加进去,分词器就能识别了。

让我们进入刚刚下载的ik分词器插件的目录中:

 以文本编辑的形式打开图中我选中的文件,你可以根据我的填上:

其中  stopword.dir是目录中自带的,你可以直接写在这,你也可以在该目录中的stopword.dir文件中添加你想停止扩展的文字。比如“啊,呀,哦,喔等等”。

而扩展字典 ext.dir是我们自己创建的文件。在这个新创的文件中写上你要添加的文字:

 然后保存退出就可以了。回到我们的kibana控制台,对“传智播客,泰酷辣啊” 进行分词,分词器就会把它们按一个词对待了。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • shark云原生-日志体系-ECK
  • 基于前馈神经网络 FNN 实现股票单变量时间序列预测(PyTorch版)
  • 打卡第9天-----字符串
  • MySQL 条件函数/加密函数/转换函数
  • 从零开始学习嵌入式----Makefile工具
  • 论文 | Chain-of-Thought Prompting Elicits Reasoningin Large Language Models 思维链
  • 大数据学习之Spark基础
  • 【Linux】Windows平台使用gdb调试FFmpeg源码
  • 【C++】类中的六个默认成员函数(构造函数、析构函数、拷贝构造函数、复制重载函数等)
  • MySQL 数据库基础概念
  • 任务需求准确度量;高效计算任务调度;算力资源统一度量
  • 新火种AI|微软和苹果放弃OpenAI董事会观察员席位
  • Centos新手问题——yum无法下载软件
  • 【两大3D转换SDK对比】HOOPS Exchange VS. CAD Exchanger
  • MongoDB - 集合和文档的增删改查操作
  • 【vuex入门系列02】mutation接收单个参数和多个参数
  • EOS是什么
  • es6要点
  • java8 Stream Pipelines 浅析
  • JavaScript新鲜事·第5期
  • Java知识点总结(JavaIO-打印流)
  • js学习笔记
  • nodejs调试方法
  • yii2中session跨域名的问题
  • 爱情 北京女病人
  • 初识 beanstalkd
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 前端代码风格自动化系列(二)之Commitlint
  • 使用阿里云发布分布式网站,开发时候应该注意什么?
  • 腾讯视频格式如何转换成mp4 将下载的qlv文件转换成mp4的方法
  • 一份游戏开发学习路线
  • 一加3T解锁OEM、刷入TWRP、第三方ROM以及ROOT
  • 优秀架构师必须掌握的架构思维
  • hi-nginx-1.3.4编译安装
  • MPAndroidChart 教程:Y轴 YAxis
  • 翻译 | The Principles of OOD 面向对象设计原则
  • #【QT 5 调试软件后,发布相关:软件生成exe文件 + 文件打包】
  • #define、const、typedef的差别
  • #if 1...#endif
  • #pragma multi_compile #pragma shader_feature
  • (2020)Java后端开发----(面试题和笔试题)
  • (Forward) Music Player: From UI Proposal to Code
  • (MIT博士)林达华老师-概率模型与计算机视觉”
  • (附源码)python旅游推荐系统 毕业设计 250623
  • (附源码)springboot码头作业管理系统 毕业设计 341654
  • (附源码)ssm基于jsp高校选课系统 毕业设计 291627
  • (附源码)ssm旅游企业财务管理系统 毕业设计 102100
  • (牛客腾讯思维编程题)编码编码分组打印下标(java 版本+ C版本)
  • (十二)devops持续集成开发——jenkins的全局工具配置之sonar qube环境安装及配置
  • (四)Controller接口控制器详解(三)
  • (一)appium-desktop定位元素原理
  • (转)Sublime Text3配置Lua运行环境
  • (最完美)小米手机6X的Usb调试模式在哪里打开的流程
  • * CIL library *(* CIL module *) : error LNK2005: _DllMain@12 already defined in mfcs120u.lib(dllmodu
  • .Family_物联网