当前位置: 首页 > news >正文

使用python下载图片且批量将图片插入word文档

最近有一个小的功能实现,从小某书上下载指定帖子的图片们,然后批量插入到word文档中,便于打印。于是有了以上需求。

一、下载图片

1、首先获取图片们的链接img_urls

首先,获取到的指定帖子的所有信息可以存入一个json文件中,如下样式:

读取这个json文件,获取title和image_list。

def read_json_file(file_path):with open(file_path, 'r',encoding='utf-8') as file:data = json.load(file)return datafile_path='这个json文件的路径'
data = read_json_file(file_path)
print(data)one_data=data[0]#获取title,并格式化为可以命名文件夹的样式
import re
def validateTitle(title):rstr = r"[\/\\\:\*\?\"\<\>\|]"  # '/ \ : * ? " < > |'new_title = re.sub(rstr, "_", title)  # 替换为下划线return new_titledoc_name=one_data['title']
doc_name=validateTitle(doc_name)#获取图片们的链接
img_list=one_data['image_list']
print(img_list)

2、批量下载图片们,上代码

def gif2jpg(path):#使用Image模块的open()方法打开gif动态图像时,默认是第一帧im = Image.open(path)# pngDir = gifFileName[:-4]#创建存放每帧图片的文件夹# os.mkdir(pngDir)try:# while True:#保存当前帧图片# current = im.tell()im.save(path)#获取下一帧图片# im.seek(current+1)except EOFError:passi=1
for img_url in img_urls:print(img_url)response = requests.get(img_url)# 获取的文本实际上是图片的二进制文本img = response.content# 将他拷贝到本地文件 w 写  b 二进制  wb代表写入二进制文本filename=str(i)+'.png'#给文件命名,接下来存放到一个叫做'jpg'的文件夹中with open( './jpg/'+filename,'wb' ) as f:f.write(img)time.sleep(2)i=i+1gif2jpg('./jpg/'+filename)#有时图片会打不开,用这个函数处理一下就可以了。time.sleep(2)

二、插入word文档

import os
from docx import Document
from docx.shared import Inchesdef add_images_to_word(folder_path, output_doc):# Create a new Word documentdoc = Document()# Iterate through all files in the given folderfor filename in os.listdir(folder_path):if filename.lower().endswith(('.png', '.jpg', '.jpeg', '.bmp', '.gif')):file_path = os.path.join(folder_path, filename)# Add image to the documentdoc.add_picture(file_path, width=Inches(6))# Optionally, add a caption or break# doc.add_paragraph(filename)#doc.add_paragraph("\n")# Save the documentdoc.save(output_doc)print(f"Document saved as {output_doc}")# Define the folder containing images and the output document name
image_folder = "jpg"#存放图片的文件夹
doc_name='my_doc'#就是第一段代码中的tilte
output_document ='f"{doc_name}.docx"#输出到指定名字的word中# Add images to the Word document
add_images_to_word(image_folder, output_document)

注意首先安装需要的库。

pip38 install python-docx

安装完毕后可以先看一下情况

 

相关文章:

  • 如何设置MySQL远程访问权限?
  • [学习笔记]-MyBatis-Plus简介
  • Minillama3->dpo训练
  • OCR识别
  • 【IEEE独立出版、有确定的ISBN号】第三届能源与电力系统国际学术会议 (ICEEPS 2024)
  • php百度云账户余额查询API示例
  • 文件操作<C语言>
  • 【Ruby爬虫01】某吃瓜网站图片数据采集
  • 全面理解-Flutter(万字长文,深度解析)
  • Java中的编译时与运行时注解
  • SQL中的DISTINCT用法总结
  • MongoDB Map-Reduce 简介
  • Selenium WebDriver - 网络元素
  • c++中string的用法
  • 通用大模型 vs垂直大模型:AI界的“宫斗大戏”
  • [NodeJS] 关于Buffer
  • “大数据应用场景”之隔壁老王(连载四)
  • conda常用的命令
  • export和import的用法总结
  • Golang-长连接-状态推送
  • iOS小技巧之UIImagePickerController实现头像选择
  • Java-详解HashMap
  • Mybatis初体验
  • Vue实战(四)登录/注册页的实现
  • Yii源码解读-服务定位器(Service Locator)
  • 入手阿里云新服务器的部署NODE
  • 删除表内多余的重复数据
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • const的用法,特别是用在函数前面与后面的区别
  • ​​​【收录 Hello 算法】9.4 小结
  • ​人工智能书单(数学基础篇)
  • #调用传感器数据_Flink使用函数之监控传感器温度上升提醒
  • #我与Java虚拟机的故事#连载13:有这本书就够了
  • $.ajax中的eval及dataType
  • (poj1.3.2)1791(构造法模拟)
  • (非本人原创)史记·柴静列传(r4笔记第65天)
  • (牛客腾讯思维编程题)编码编码分组打印下标(java 版本+ C版本)
  • (四)JPA - JQPL 实现增删改查
  • .net core 源码_ASP.NET Core之Identity源码学习
  • .NET Framework 3.5中序列化成JSON数据及JSON数据的反序列化,以及jQuery的调用JSON
  • .NET/C# 在 64 位进程中读取 32 位进程重定向后的注册表
  • .Net下使用 Geb.Video.FFMPEG 操作视频文件
  • ?.的用法
  • @Resource和@Autowired的区别
  • [ CTF ]【天格】战队WriteUp- 2022年第三届“网鼎杯”网络安全大赛(青龙组)
  • [1181]linux两台服务器之间传输文件和文件夹
  • [Codeforces] probabilities (R1600) Part.1
  • [Design Pattern] 工厂方法模式
  • [Django 0-1] Core.Checks 模块
  • [LeetCode 687]最长同值路径
  • [Linux] day07——查看及过滤文本
  • [MAUI]集成高德地图组件至.NET MAUI Blazor项目
  • [python-opencv] PNG 裁切物体
  • [Quest ActiveRoles Management Shell for Active Directory] QADProxyAddress命令相关的bug。
  • [Real world Haskell] 中文翻译:第二章 类型与函数