当前位置: 首页 > news >正文

使用Elasticsearch Python SDK 查询Easysearch

随着数据分析需求的不断增长,能够高效地查询和分析大数据集变得越来越重要。Elasticsearch作为一种强大的分布式搜索和分析引擎,被广泛应用于各种场景。Easyearch 支持原生 Elasticsearch 的 DSL 查询语法,确保原业务代码无需调整即可无缝迁移。同时,EasySearch还支持 SQL 查询,为熟悉 SQL 的开发人员提供更加便捷的数据分析方式。此外,EasySearch 兼容 Elasticsearch 的 SDK 和现有索引存储格式,支持冷热架构和索引生命周期管理,确保用户能够轻松实现数据的无缝衔接。

Elasticsearch Python客户端提供了一种简便的方法,使得开发者可以通过DSL、SQL语法对Elasticsearch索引进行查询。同时,Elasticsearch Python客户端还提供了高级功能如批量操作API。本文将详细介绍如何安装和使用Elasticsearch Python客户端,以便在Python应用程序中对Elasticsearch执行DSL和SQL查询。

1. 安装 Elasticsearch Python 客户端

要使用Elasticsearch Python客户端,首先需要通过pip进行安装。打开终端或命令提示符,并运行以下命令:

pip install elasticsearch==7.13.1

如果使用默认版本安装,会安装8.x的依赖,可能会报错 elasticsearch.UnsupportedProductError: The client noticed that the server is not Elasticsearch and we do not support this unknown product.

由于Elasticsearch 7.10.2以后变更了许可模式,引入了 Server Side Public License (SSPL) 和 Elastic License,很多基于Elasticsearch 7.10.2分支出来的搜索引擎需要使用7.x版本的SDK和agent,比如Beats全家桶。

在这里插入图片描述
这是一个获取集群信息的demo,使用es.cluster.health() 调用 Elasticsearch 集群的健康检查API,返回集群的健康状态。

由于使用了自签名证书,所以在初始化时加上 verify_certs=False 参数,同时使用 warnings.filterwarnings("ignore") 设置 Python 的警告系统,忽略所有发出的警告。这在生产代码中通常不推荐,因为它会隐藏潜在的问题,但在开发或测试环境中,如果警告信息太多干扰调试,可能会暂时使用。

import urllib3
import elasticsearch
from elasticsearch import Elasticsearch
import warnings
from pprint import pprint# 禁用所有警告
warnings.filterwarnings("ignore")print(elasticsearch.VERSION)
# 禁用警告
urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)url = "https://ip:9200/"
user_passwd = ('user', 'passwd')# 建立连接
es = Elasticsearch([url],http_auth=user_passwd,verify_certs=False,
)# 检查集群健康状态
health = es.cluster.health()
pprint(health)

2. 准备示例数据

在进行查询之前,我们需要在 Easyearch 中创建一些示例数据。

# 定义示例数据
sample_data = [{"index": {"_index": "my_index"}},{"field": "value1", "another_field": 10},{"index": {"_index": "my_index"}},{"field": "value2", "another_field": 20},{"index": {"_index": "my_index"}},{"field": "value3", "another_field": 30},{"index": {"_index": "my_index"}},{"field": "bulk_value1", "another_field": 100},{"index": {"_index": "my_index"}},{"field": "bulk_value2", "another_field": 200},{"index": {"_index": "my_index"}},{"field": "bulk_value3", "another_field": 300}
]# 批量插入示例数据
response = es.bulk(body=sample_data)
print(response)

3. 使用 REST API 进行查询

REST API 是与 EasySearch 进行通信的常用方式。通过 REST API,开发者可以发送 HTTP 请求来执行各种操作,包括索引文档、搜索数据等。以下示例展示了如何在 Python 中执行 REST 查询。

由于是REST API,我们可以先使用Postman进行测试。

在这里插入图片描述

我们可以看到HTTP端点可以正常返回,然后就可以使用编程方式进行访问了:

import requests
from requests.auth import HTTPBasicAuth
from pprint import pprinturl = "https://ip:9200/"
user_passwd = ('user', 'passwd')# 构建查询参数
query = {"query": {"match": {"field": "value1"}}
}dsl = f"{url}/my_index/_search"response = requests.get(dsl, json=query, auth=HTTPBasicAuth(*user_passwd), verify=False)
pprint(response.json())# 处理查询结果
if response.status_code == 200:results = response.json()for hit in results['hits']['hits']:print(hit)
else:print(f"Error: {response.status_code}")

4. 使用 Elasticsearch Python SDK 进行 DSL 增删改查

DSL(Domain-Specific Language)是 Elasticsearch/EasySearch的原生查询语言,允许用户构建复杂的查询。以下示例展示了如何在 Elasticsearch Python SDK 中执行 DSL 查询。

# 构建 DSL 查询
dsl_query = {"query": {"match": {"field": "value1"}}
}# 执行 DSL 查询
response = es.search(index="my_index", body=dsl_query)results = response.get("hits")
# 处理查询结果
if results:for hit in results['hits']:print(hit)
else:print(f"Error: {response.status_code}")

插入数据

如果不指定document ID,那么随机生成一个ID并写入。

doc = {"field": "value4", "another_field": 9999}
response = es.index(index="my_index", body=doc)
print(response)

更新数据

指定ID为1来手动更新索引:

doc = {"field": "value4", "another_field": 9999}
response = es.index(index="my_index", body=doc, id=1)
print(response)

更新单条数据

# 更新单条数据
update_body = {"doc": {"another_field": 50}}
response = es.update(index="my_index", id="1", body=update_body)
pprint(response)

删除数据

# 删除单条数据
response = es.delete(index="my_index", id="1")
pprint(response)

5. 使用 Elasticsearch Python SDK 进行 SQL 查询

创建客户端实例后,我们可以使用 sql 方法执行 SQL 查询。以下示例展示了如何执行一个简单的 SELECT 查询。

# 执行 SQL 查询
query_sql = {"query": "SELECT * FROM my_index"
}res = es.sql.query(body=query_sql)
pprint(res)

6. 使用 Elasticsearch Python SDK 进行批量操作

批量操作 API 允许用户一次性对多个文档进行创建、更新或删除操作,极大提高了操作效率。以下示例展示了如何使用 Elasticsearch Python SDK 中的批量操作。

批量插入数据

# 定义批量插入数据
bulk_data = [{"index": {"_index": "my_index"}},{"field": "bulk_value1", "another_field": 100},{"index": {"_index": "my_index"}},{"field": "bulk_value2", "another_field": 200},{"index": {"_index": "my_index"}},{"field": "bulk_value3", "another_field": 300}
]# 执行批量插入操作
response = es.bulk(body=bulk_data)
pprint(response)

批量更新数据

# 定义批量更新数据
bulk_update_data = [{"update": {"_id": "1", "_index": "my_index"}},{"doc": {"another_field": 110}},{"update": {"_id": "2", "_index": "my_index"}},{"doc": {"another_field": 220}}
]# 执行批量更新操作
response = es.bulk(body=bulk_update_data)
pprint(response)

批量删除数据

# 定义批量删除数据
bulk_delete_data = [{"delete": {"_id": "1", "_index": "my_index"}},{"delete": {"_id": "2", "_index": "my_index"}}
]# 执行批量删除操作
response = es.bulk(body=bulk_delete_data)
print(response)

7. 使用 Elasticsearch Python SDK 进行索引级别操作

Elasticsearch Python SDK 还支持索引级别的操作,如创建索

引、删除索引和检查索引是否存在。以下是一些示例:

创建索引

# 创建索引
index_body = {"settings": {"number_of_shards": 1,"number_of_replicas": 0},"mappings": {"properties": {"field": {"type": "text"},"another_field": {"type": "integer"}}}
}
response = es.indices.create(index="new_index", body=index_body)
pprint(response)

删除索引

# 删除索引
response = es.indices.delete(index="new_index")
pprint(response)

检查索引是否存在

# 检查索引是否存在
response = es.indices.exists(index="new_index")
pprint(response)

8. 总结

Elasticsearch Python SDK 提供了一种简便的方法,使得开发者可以通过熟悉的 DSL 和 SQL 语法对 EasySearch 进行查询。同时,SDK 还提供了一些高级功能如批量操作 API,使得查询和数据操作更加高效。开发者可以更灵活地构建复杂查询,充分利用 EasySearch 的强大功能。无论您是执行简单的 SQL 查询,还是构建复杂的 DSL 和 REST 查询,Elasticsearch Python SDK 都能满足您的需求。如果您还未尝试过这个强大的工具,现在就安装并使用它吧!通过 EasySearch,您将能够更加高效地处理和分析大数据集,为您的数据驱动决策提供有力支持。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 惊呆了!小白也能上手,Python打造微信自动小秘书(Python如何自动化控制微信:聊天,图片,文件等操作)
  • Flink Window 窗口【更新中】
  • cleanshot Mac 上的截图工具
  • Linux——删除账号,账户切换,控制用户对系统命令的使用权限,配置/etc/sudoers文件方式
  • 1.29、基于浅层神经网络的数据拟合(matlab)
  • Mysql表的三范式、事务和查询
  • 远程访问及控制(ssh)
  • 网关设备BL122实现Modbus RTU/TCP转Profinet协议
  • 深入Python网络编程:基础、工具和实践
  • Vue3渐变文字(GradientText)
  • 浅写:vs-select的传参方法,传递一整行参数,而不是单个
  • 《云原生安全攻防》-- 容器攻击案例:Docker容器逃逸
  • Git进阶(十四):Windows下 git 提示 Repository not found
  • 如何评估AI模型:评估指标的分类、方法及案例解析
  • JMeter进行HTTP接口测试的技术要点
  • 【刷算法】求1+2+3+...+n
  • 8年软件测试工程师感悟——写给还在迷茫中的朋友
  • Apache Spark Streaming 使用实例
  • HTTP 简介
  • js面向对象
  • Linux编程学习笔记 | Linux多线程学习[2] - 线程的同步
  • MYSQL如何对数据进行自动化升级--以如果某数据表存在并且某字段不存在时则执行更新操作为例...
  • react 代码优化(一) ——事件处理
  • react-native 安卓真机环境搭建
  • text-decoration与color属性
  • 如何实现 font-size 的响应式
  • 在Docker Swarm上部署Apache Storm:第1部分
  • CMake 入门1/5:基于阿里云 ECS搭建体验环境
  • 长三角G60科创走廊智能驾驶产业联盟揭牌成立,近80家企业助力智能驾驶行业发展 ...
  • ​​​​​​​sokit v1.3抓手机应用socket数据包: Socket是传输控制层协议,WebSocket是应用层协议。
  • ​【数据结构与算法】冒泡排序:简单易懂的排序算法解析
  • #C++ 智能指针 std::unique_ptr 、std::shared_ptr 和 std::weak_ptr
  • (03)光刻——半导体电路的绘制
  • (1)Hilt的基本概念和使用
  • (9)目标检测_SSD的原理
  • (Demo分享)利用原生JavaScript-随机数-实现做一个烟花案例
  • (八十八)VFL语言初步 - 实现布局
  • (第二周)效能测试
  • (二) 初入MySQL 【数据库管理】
  • (回溯) LeetCode 46. 全排列
  • (详细文档!)javaswing图书管理系统+mysql数据库
  • (转)甲方乙方——赵民谈找工作
  • (转)真正的中国天气api接口xml,json(求加精) ...
  • (转)重识new
  • .net core 6 使用注解自动注入实例,无需构造注入 autowrite4net
  • .Net Core webapi RestFul 统一接口数据返回格式
  • .Net Core 中间件验签
  • .Net Core/.Net6/.Net8 ,启动配置/Program.cs 配置
  • .net core控制台应用程序初识
  • .NET MVC第五章、模型绑定获取表单数据
  • .net 开发怎么实现前后端分离_前后端分离:分离式开发和一体式发布
  • .netcore如何运行环境安装到Linux服务器
  • .NET牛人应该知道些什么(2):中级.NET开发人员
  • .Net下使用 Geb.Video.FFMPEG 操作视频文件
  • .project文件