当前位置：首页 > news >正文

记录一次超大(200+G)数据量导入ES的解决办法

news 来源：原创 2024/5/14 14:08:28

文章目录

- 业务需求
- 特点
- 解决思路
- 解决效果
- 解决方案
- - 读
  - 写
- 其他
- 结语

业务需求

将12个CSV文件中的数据，共200多G，导入到ES中，要求性能好一些，速度越快越好。
此处我们不讨论需求的合理性，只对处理办法进行讨论。

特点

单索引操作，数据量很大
数据含有位置数据，可能会涉及经纬度问题
需要注意导入性能与速度问题

解决思路

为满足业务需求，该问题可以拆分为两个部分，一个是读取，如何快速读取csv格式文件数据，内存消耗要小，读取速度要快，更要稳定。另一个是写入，写入ES如何做到写入性能最大。
硬件条件：1台8C64G服务器，硬盘足够大(不过是机械的)

解决效果

读写速度可达5000条每秒其中读 10万条每秒写大约5000条每秒

解决方案

读

横向对比
自己写：多线程非IO阻塞式文件流读取，速度达标，但实现麻烦
POI工具包：性能不高，速度慢
easyexcel：最终方案，10万条一批，速度性能非常好

写

由于服务器操作受限，只能单机ES，针对ES写入性能优化，修改了如下参数

PS：es5以上就不能通过修改es的yml文件来配置了。
kibana示例：
PUT 索引名称/_settings
{
“index” : {
“refresh_interval” : “1m”,
“translog.durability” : “async”,
“translog.flush_threshold_size” : “1024mb”,
“translog.sync_interval” : “30s”
}
}
curl 命令
curl -u elastic -XPUT -H "Content-Type: application/json" -d '{"index":{"refresh_interval" : "5m","translog.durability" : "async","translog.flush_threshold_size" : "1024mb","translog.sync_interval" : "30s"}}' localhost:9200/索引名/_settings
优化前后差别不是很大，应该还是要上集群，需要注意的是，导入完成后记得将更新时间调整回去

其他

在这个过程中，还遇到了以下问题

CSV文件内容格式不正确导致抛映射错误异常，csv文件中的数据行不能出现双引号""
多表头导致类型不匹配异常
文件编码不是utf-8导致的中文乱码问题
近20G的CSV编辑工具选择就非常重要了，我用的EverEdit，虽然收费，但有一个月的免费使用，使用非常流畅，另存为可以修改文件编码格式，批量操作等功能也非常好用，推荐~!