当前位置：首页 > news >正文

爬取校园新闻首页的新闻

news 来源：原创 2024/4/30 2:43:59

1. 用requests库和BeautifulSoup库，爬取校园新闻首页新闻的标题、链接、正文。

标题

import requests
from bs4 import BeautifulSoup

url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding='utf-8'
soup = BeautifulSoup(res.text,'html.parser')
for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:

        break

for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:
        t = news.select('.news-list-title')[0].text
        print(t)
        break

链接

import requests
from bs4 import BeautifulSoup

url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding='utf-8'
soup = BeautifulSoup(res.text,'html.parser')
for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:

        break

for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:
        t = news.select('.news-list-title')[0].text
        link = news.select('a')[0].attrs['href']
        print(link)
        break

正文

        resd = requests.get(link)
        resd.encoding='utf-8'
        soupd = BeautifulSoup(resd.text,'html.parser')
        d = soupd.select('#content')[0].text
        print(d)
        break

2. 分析字符串，获取每篇新闻的发布时间，作者，来源，摄影等信息。

发布时间

info = soupd.select('.show-info')[0].text 
t1 = info.lstrip('发布时间:')[:19] 
print(t1)

作者来源摄影等
s = info[info.find('来源：'):].split()[0].lstrip('来源：') 
print(s)

3. 将其中的发布时间由str转换成datetime类型。

     from datetime import datetime
        dt = datetime.strptime(t1,'%Y-%m-%d %H:%M:%S')
        now = datetime.now()

        print(dt)

转载于:https://www.cnblogs.com/0056a/p/8692279.html

学习索引结构的一些案例——Jeff Dean在SystemML会议上发布的论文

node爬虫-使用puppeteer

使用linux下的crontab定时任务跑定时脚本

mycat的wrapper.log日志中发现主从切换报错

react组件的生命周期

oracle中两个时间类型的数据相减默认得到的是天数。

阿里云禁止25端口，使用465端口发送运维邮件

CentOS下设置Tomcat开机自动启动操作步骤

android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码

柔弱的APP如何自我保护，浅谈APP防御手段，使用360加固助手加固/签名/多渠道打包/应用市场发布...

vue-学习系列之vue双向绑定原理

答 ACM 调查问卷，限时领取阿里云代金券

phpmyadmin配置

41、【华为HCIE-Storage】--Oceanstor9000 组网规划

spring对缓存的支持

《剑指offer》分解让复杂问题更简单

【跃迁之路】【444天】程序员高效学习方法论探索系列（实验阶段201-2018.04.25）...

create-react-app项目添加less配置

JS进阶 - JS 、JS-Web-API与DOM、BOM

Markdown 语法简单说明

PAT A1120

PHP面试之三：MySQL数据库

puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决

Python利用正则抓取网页内容保存到本地

Sequelize 中文文档 v4 - Getting started - 入门

Transformer-XL: Unleashing the Potential of Attention Models

案例分享〡三拾众筹持续交付开发流程支撑创新业务

分享自己折腾多时的一套 vue 组件 --we-vue

解析带emoji和链接的聊天系统消息

浏览器缓存机制分析

浅谈Golang中select的用法

我的面试准备过程--容器(更新中)

翻译 | The Principles of OOD 面向对象设计原则

【C语言】长篇详解，字符系列篇3-----strstr，strtok，strerror字符串函数的使用【图文详解】

#大学#套接字

（33）STM32——485实验笔记

(delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节（共同的基类）

（五）MySQL的备份及恢复

（五）大数据实战——使用模板虚拟机实现hadoop集群虚拟机克隆及网络相关配置

(转)shell中括号的特殊用法 linux if多条件判断

(转)关于多人操作数据的处理策略

.NET Standard / dotnet-core / net472 —— .NET 究竟应该如何大小写？

.net 程序换成 java,NET程序员如何转行为J2EE之java基础上（9）

.NET 设计模式—简单工厂（Simple Factory Pattern）

.NET/C# 项目如何优雅地设置条件编译符号？

.NET企业级应用架构设计系列之结尾篇

.NET上SQLite的连接

@ 代码随想录算法训练营第8周（C语言）|Day53（动态规划）

@Valid和@NotNull字段校验使用

[\u4e00-\u9fa5] //匹配中文字符

[Angular] 笔记 6：ngStyle

[AutoSar]工程中的cpuload陷阱（三）测试

[BT]BUUCTF刷题第4天（3.22）

[C++]C++入门--引用

[C++基础]-初识模板

相关文章：