当前位置: 首页 > news >正文

面试题-Elasticsearch集群架构和调优手段(超全面)

在这里插入图片描述


对于Elasticsearch(ES),我了解并有经验。在我之前的公司,我们有一个相对大型的ES集群,以下是该集群的架构和一些调优手段的概述:

1. 集群架构

在这里插入图片描述

  • 集群规模:我们的ES集群由15个节点组成,涵盖了数据节点和主节点。
  • 索引数量:我们有30多个索引,根据不同的数据通道进行划分。每天根据日期递增创建新的索引,大约每天增加20个以上的索引。
  • 分片数:每个索引有10个主分片,用于水平分布和并行处理数据。
  • 数据大小:每个索引的大小受限制在150GB以内。
    (根据实际的项目经验来说 如果没有就按照这个说就行,前提是你得理解技术细节 不然容易露馅)

2. 调优手段

在这里插入图片描述

2.1 设计阶段调优

在这里插入图片描述

  • 基于日期模板创建索引:通过使用roll over API,我们按照日期模板创建新的索引,以便更好地管理和维护数据。
  • 使用别名进行索引管理:通过别名来引用索引,而不是直接使用具体的索引名称,简化了索引切换和管理的过程。
  • 定时force_merge操作:每天凌晨定时执行force_merge操作,以减少碎片并释放磁盘空间。
  • 冷热分离机制:将热数据存储在SSD上,以提高检索效率,同时定期对冷数据进行shrink操作,以减少存储空间占用。
  • 使用Curator进行索引的生命周期管理:通过Curator工具自动管理索引的创建、删除和归档等操作。
  • 合理设置分词器:针对需要进行全文搜索的字段,选择合适的分词器以提高搜索质量和效率。
  • 结合字段属性进行Mapping设置:在Mapping阶段,根据字段的需求和特性,设置是否需要检索、是否需要存储等属性。
2.2 写入调优

在这里插入图片描述

  • 副本数设置为0:在写入数据之前暂时关闭副本,以提高写入性能。
  • 关闭refresh_interval:在写入过程中,将refresh_interval设置为-1,禁用刷新机制,以减少刷新操作对写入性能的影响。
  • 批量写入:使用bulk批量写入API,将多个文档一次性提交,减少频繁的网络开销和IO操作。
  • 恢复副本数和刷新间隔:在写入完成后,恢复副本数和刷新间隔,以确保数据的可靠性和及时可见性。
  • 自动生成ID:尽量使用ES自动生成的ID,避免额外的ID生成操作和性能消耗。
2.3 查询调优

在这里插入图片描述

  • 禁用通配符查询:尽量避免使用通配符查询,因为它们会增加查询的复杂性和开销。

  • 避免批量terms查询:对于包含大量terms的查询,尽量避免使用批量terms查询,以免影响查询性能。

  • 合理使用keyword类型:尽可能将字段设置为keyword类型,充分利用倒排索引机制,提高查询效率。

  • 基于时间范围进行索引选择:对于大量数据的情况,可以根据时间范围先确定索引,以减少需要搜索的索引数量。

  • 设置合理的路由机制,在选择合理的路由机制时,可以考虑以下几个因素:
    在这里插入图片描述

    数据特点:根据数据的特点,选择适合的路由字段。例如,如果数据中包含地理位置信息,可以选择将地理位置作为路由字段,以便将具有相似地理位置的文档存储在相邻的分片上,提高查询效率。

    查询需求:根据常见的查询需求,选择合适的路由策略。例如,如果经常根据时间范围进行查询,可以选择将时间作为路由字段,使具有相近时间的文档存储在相邻的分片上,以便快速定位需要查询的数据。
    分片数量:考虑集群中的分片数量和规模,选择适当的路由策略。如果集群中的分片较少,可以使用哈希路由(默认路由策略),以确保数据均匀分布。如果集群中的分片较多,可以选择更具体的路由策略,以满足特定的查询需求。

理的路由策略,以实现数据的均衡分布和查询的优化。


2.4 其他调优

在这里插入图片描述

  • 部署调优:优化硬件配置、网络拓扑和节点布局,以确保集群的性能和可靠性。
  • 业务调优:根据具体业务需求和查询模式,优化查询DSL语句、索引设计和数据模型,以提高搜索效率和准确性。(偏向于具体的业务怎么设计)

相关文章:

  • 谷粒商城——缓存——SpringCache
  • 计算机网络——网络基础1
  • 在django中使用kindeditor出现转圈问题
  • Leetcode 3.26
  • 图像处理与视觉感知---期末复习重点(4)
  • 【前端】-【性能优化常识】
  • Midjourney AI绘图工具介绍及使用
  • GIMP - GNU 图像处理程序 - 工具栏窗口 (Toolbox) 显示
  • checkpoint 大模型、VAE、LoRA、Embedding、Controlnet这些是什么模型
  • excel创建和部分使用
  • leetcode88-Merge Sorted Array
  • Intellij IDEA构建Android开发环境
  • 业务服务:xss攻击
  • QT_day5:使用定时器实现闹钟
  • C# wpf 嵌入hwnd窗口
  • JavaScript-如何实现克隆(clone)函数
  • 【Redis学习笔记】2018-06-28 redis命令源码学习1
  • 【个人向】《HTTP图解》阅后小结
  • create-react-app做的留言板
  •  D - 粉碎叛乱F - 其他起义
  • Docker: 容器互访的三种方式
  • ECMAScript 6 学习之路 ( 四 ) String 字符串扩展
  • HTTP请求重发
  • Java程序员幽默爆笑锦集
  • Java深入 - 深入理解Java集合
  • JSONP原理
  • Just for fun——迅速写完快速排序
  • React的组件模式
  • redis学习笔记(三):列表、集合、有序集合
  • Swoft 源码剖析 - 代码自动更新机制
  • Vue.js 移动端适配之 vw 解决方案
  • 大型网站性能监测、分析与优化常见问题QA
  • 反思总结然后整装待发
  • 分布式事物理论与实践
  • 快速体验 Sentinel 集群限流功能,只需简单几步
  • 前端js -- this指向总结。
  • 如何使用 JavaScript 解析 URL
  • 深入浅出Node.js
  • 使用agvtool更改app version/build
  • 限制Java线程池运行线程以及等待线程数量的策略
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • 怎么将电脑中的声音录制成WAV格式
  • 06-01 点餐小程序前台界面搭建
  • FaaS 的简单实践
  • postgresql行列转换函数
  • 如何用纯 CSS 创作一个菱形 loader 动画
  • ​520就是要宠粉,你的心头书我买单
  • ​你们这样子,耽误我的工作进度怎么办?
  • ​软考-高级-系统架构设计师教程(清华第2版)【第12章 信息系统架构设计理论与实践(P420~465)-思维导图】​
  • ​软考-高级-系统架构设计师教程(清华第2版)【第9章 软件可靠性基础知识(P320~344)-思维导图】​
  • # 安徽锐锋科技IDMS系统简介
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • (1)bark-ml
  • (16)Reactor的测试——响应式Spring的道法术器
  • (二)基于wpr_simulation 的Ros机器人运动控制,gazebo仿真