当前位置: 首页 > news >正文

爬取校园新闻首页的新闻

1. 用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。

标题

import requests
from bs4 import BeautifulSoup

url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding='utf-8'
soup = BeautifulSoup(res.text,'html.parser')
for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:

        break

for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:
        t = news.select('.news-list-title')[0].text
        print(t)
        break

 链接

import requests
from bs4 import BeautifulSoup

url = 'http://news.gzcc.cn/html/xiaoyuanxinwen/'
res = requests.get(url)
res.encoding='utf-8'
soup = BeautifulSoup(res.text,'html.parser')
for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:

        break

for news in soup.select('li'):
    if len(news.select('.news-list-title'))>0:
        t = news.select('.news-list-title')[0].text
        link = news.select('a')[0].attrs['href']
        print(link)
        break

正文

        resd = requests.get(link)
        resd.encoding='utf-8'
        soupd = BeautifulSoup(resd.text,'html.parser')
        d = soupd.select('#content')[0].text
        print(d)
        break

 

2. 分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。

发布时间

info = soupd.select('.show-info')[0].text 
t1 = info.lstrip('发布时间:')[:19]
print(t1)

作者来源摄影等

s = info[info.find('来源:'):].split()[0].lstrip('来源:')
print(s)
 
 

 

3. 将其中的发布时间由str转换成datetime类型。

     from datetime import datetime
        dt = datetime.strptime(t1,'%Y-%m-%d %H:%M:%S')
        now = datetime.now()

        print(dt)

 

转载于:https://www.cnblogs.com/0056a/p/8692279.html

相关文章:

  • 学习索引结构的一些案例——Jeff Dean在SystemML会议上发布的论文
  • node爬虫-使用puppeteer
  • 使用linux下的crontab定时任务跑定时脚本
  • mycat的wrapper.log日志中发现主从切换报错
  • react组件的生命周期
  • oracle中两个时间类型的数据相减默认得到的是天数。
  • 阿里云禁止25端口,使用465端口发送运维邮件
  • CentOS下设置Tomcat开机自动启动操作步骤
  • android百种动画侧滑库、步骤视图、TextView效果、社交、搜房、K线图等源码
  • 柔弱的APP如何自我保护,浅谈APP防御手段,使用360加固助手加固/签名/多渠道打包/应用市场发布...
  • vue-学习系列之vue双向绑定原理
  • 答 ACM 调查问卷,限时领取阿里云代金券
  • phpmyadmin配置
  • 41、【华为HCIE-Storage】--Oceanstor9000 组网规划
  • spring对缓存的支持
  • 《剑指offer》分解让复杂问题更简单
  • 【跃迁之路】【444天】程序员高效学习方法论探索系列(实验阶段201-2018.04.25)...
  • create-react-app项目添加less配置
  • JS进阶 - JS 、JS-Web-API与DOM、BOM
  • Markdown 语法简单说明
  • PAT A1120
  • PHP面试之三:MySQL数据库
  • puppeteer stop redirect 的正确姿势及 net::ERR_FAILED 的解决
  • Python利用正则抓取网页内容保存到本地
  • Sequelize 中文文档 v4 - Getting started - 入门
  • Transformer-XL: Unleashing the Potential of Attention Models
  • 案例分享〡三拾众筹持续交付开发流程支撑创新业务
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 解析带emoji和链接的聊天系统消息
  • 浏览器缓存机制分析
  • 浅谈Golang中select的用法
  • 我的面试准备过程--容器(更新中)
  • 翻译 | The Principles of OOD 面向对象设计原则
  • ​【C语言】长篇详解,字符系列篇3-----strstr,strtok,strerror字符串函数的使用【图文详解​】
  • #大学#套接字
  • (33)STM32——485实验笔记
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节(共同的基类)
  • (五)MySQL的备份及恢复
  • (五)大数据实战——使用模板虚拟机实现hadoop集群虚拟机克隆及网络相关配置
  • (转)shell中括号的特殊用法 linux if多条件判断
  • (转)关于多人操作数据的处理策略
  • .NET Standard / dotnet-core / net472 —— .NET 究竟应该如何大小写?
  • .net 程序 换成 java,NET程序员如何转行为J2EE之java基础上(9)
  • .NET 设计模式—简单工厂(Simple Factory Pattern)
  • .NET/C# 项目如何优雅地设置条件编译符号?
  • .NET企业级应用架构设计系列之结尾篇
  • .NET上SQLite的连接
  • @ 代码随想录算法训练营第8周(C语言)|Day53(动态规划)
  • @Valid和@NotNull字段校验使用
  • [\u4e00-\u9fa5] //匹配中文字符
  • [Angular] 笔记 6:ngStyle
  • [AutoSar]工程中的cpuload陷阱(三)测试
  • [BT]BUUCTF刷题第4天(3.22)
  • [C++]C++入门--引用
  • [C++基础]-初识模板