当前位置: 首页 > news >正文

Python:批量url链接保存为PDF

我的数据是先把url链接获取到存入excel中,后续对excel做的处理,各位也可以直接在程序中做处理,下面就是针对excel中的链接做批量处理
excel内容格式如下(涉及具体数据做了隐藏)

标题文件链接文件日期
网页标题1http://www.aaabbbcc.com.cn2024.2.5

在这里插入图片描述
代码逻辑:先读取excel文件内容,循环转换每一行的链接
具体代码示例:

注意:pdfkit,wkhtmltopdf一般情况下是需要安装的,已安装的忽略,wkhtmltopdf需要去官网下载安装包手动安装才可以
wkhtmltopdf下载:https://wkhtmltopdf.org/downloads.html
安装pdfkit,wkhtmltopdf

pip install pdfkit
pip install wkhtmltopdf 

官网下载wkhtmltopdf
在这里插入图片描述

# 将链接的网页保存为 PDF
import pdfkit
import pandas as pd
#读取excel
df=pd.read_excel(r'D:\WeChat\WeChat Files\wxid_ec4y3bp7rexo22\FileStorage\File\2024-02\示例数据.xlsx')
#循环获取每一行数据
for index, row in df.iterrows():url = row['文件链接'] #获取url#配置wkhtmltopdf环境,如果在系统环境变量中已经存在可以忽略,为保证代码生效建议配置config = pdfkit.configuration(wkhtmltopdf=r'D:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe')#调用URL并保存pdf,这里我把标题设置为pdf的文件名,具体设置看个人哈pdfkit.from_url(url, r'E:\1-work\模型\爬取数据文档\pdf\{}.pdf'.format(row['标题']), configuration=config)

运行完成!!!
在这里插入图片描述

相关文章:

  • Flink 1.18.1的基本使用
  • 全面理解jvm
  • 板块零 IDEA编译器基础:第二节 创建JAVA WEB项目与IDEA基本设置 来自【汤米尼克的JAVAEE全套教程专栏】
  • 网络异常案例六_IP冲突
  • 【C语言】三子棋游戏实现代码
  • Java赋能:大学生成绩量化新篇章
  • 【机器学习】AAAI 会议论文聚类分析
  • Antd+React+react-resizable实现表格拖拽功能
  • 通过docker-compose部署NGINX服务,并使该服务开机自启
  • DQN的理论研究回顾
  • nvm安装node后,npm无效
  • vue - 指令(一)
  • 在 CentOS 7上使用 Apache 和 mod_wsgi 部署 Django 应用的方法
  • ‘javax.sql.DataSource‘ that could not be found的问题
  • 什么是冒烟测试,UT测试,IT测试,如何来开展这些测试
  • 【从零开始安装kubernetes-1.7.3】2.flannel、docker以及Harbor的配置以及作用
  • 【知识碎片】第三方登录弹窗效果
  • angular2开源库收集
  • Apache Pulsar 2.1 重磅发布
  • LeetCode18.四数之和 JavaScript
  • Redis提升并发能力 | 从0开始构建SpringCloud微服务(2)
  • Vue2 SSR 的优化之旅
  • Vue官网教程学习过程中值得记录的一些事情
  • Yii源码解读-服务定位器(Service Locator)
  • 计算机常识 - 收藏集 - 掘金
  • 将回调地狱按在地上摩擦的Promise
  • 前端路由实现-history
  • 前端面试总结(at, md)
  • 一、python与pycharm的安装
  • HanLP分词命名实体提取详解
  • 阿里云ACE认证之理解CDN技术
  • 哈罗单车融资几十亿元,蚂蚁金服与春华资本加持 ...
  • ​configparser --- 配置文件解析器​
  • ​人工智能书单(数学基础篇)
  • $(document).ready(function(){}), $().ready(function(){})和$(function(){})三者区别
  • (1)SpringCloud 整合Python
  • (20)目标检测算法之YOLOv5计算预选框、详解anchor计算
  • (C#)Windows Shell 外壳编程系列4 - 上下文菜单(iContextMenu)(二)嵌入菜单和执行命令...
  • (Mirage系列之二)VMware Horizon Mirage的经典用户用例及真实案例分析
  • (pt可视化)利用torch的make_grid进行张量可视化
  • (pytorch进阶之路)CLIP模型 实现图像多模态检索任务
  • (大众金融)SQL server面试题(1)-总销售量最少的3个型号的车及其总销售量
  • (附源码)spring boot智能服药提醒app 毕业设计 102151
  • (三)elasticsearch 源码之启动流程分析
  • (十一)c52学习之旅-动态数码管
  • (四)【Jmeter】 JMeter的界面布局与组件概述
  • .“空心村”成因分析及解决对策122344
  • .net 7 上传文件踩坑
  • .NET CORE Aws S3 使用
  • .NET Core使用NPOI导出复杂,美观的Excel详解
  • .Net mvc总结
  • .NET 中 GetProcess 相关方法的性能
  • .NET6 命令行启动及发布单个Exe文件
  • .Net6使用WebSocket与前端进行通信
  • .NET框架