当前位置: 首页 > news >正文

python二级成绩查询入口官网_python爬虫实战之模拟正方教务系统登录查询成绩

最近由于某些需要,开始入门Python网络爬虫,想通过一个Python程序来访问正方教务管理系统并且抓取到期末的成绩,由于我并没有深入了解过过其他的编程语言,所以,也比较不出Python和其他语言(如JAVA/PHP)的优缺点,只是因为我会Python,废话不多说,开工。

首先说一下,我们学校教务系统的网址是http://222.24.19.201,我想到的流程是,登入教务系统,然后访问查成绩的网址,将历年成绩抓取下来,这是一个很直观的流程,在程序中要做的就是1.登录, 2.访问 , 3.抓取,4.解析。当然,在这之前,首先要解决一个问题: 验证码。

就是这样,验证码!我想到的第一个问题是OCR,可这个对我来说有点太复杂了,有其他的方法嘛,仔细观察,

我们登录要提交的验证码,帐号密码其实是提交到了http://222.24.19.201/default2.aspx

,可是这并没有什么用,还是验证码,等等,注意到了default后面的2,那岂不是还有0,1,3,4…,抱着试一试的态度,尝试了一下,知道找到http://222.24.19.201/default6.aspx,终于看到了预期的结果。

居然是北京第二外国语学院,贵圈真乱!由于我清楚222.24.19.201是邮电学院的IP,所以,我就在用户名和密码上填入了自己的用户名和密码,果不其然,登进去了,所以决定了,就从这个网址下手。

接下来,就得看浏览器都干了些什么,我用的查看浏览器行为的是一款叫做HttpFox的扩展程序,如果你用的是Windows, 那么Fiddler也是一个不错的选择,这是这款程序的外观

当浏览器访问新的网页的时候,这个程序会跟踪追踪浏览器的行为(POST & GET 不了解的请自行百度)所以我们先来尝试访问一下

看到了POST, 我想知道我们向浏览器都提交了什么,点击POST, 查看POST DATA

东西真多,我们需要将这些东西通过程序提交给服务器,值的说的是,乱码的一个是”学生” 一个是”登录”, 由于,教务系统的网站所用的编码是gb2312, 而它用utf-8的方式打开,所以,就乱了。。还有一个第一项—__VIEWSTATE这是asp.net框架特有的一个东西,详细用法自行百度,这里一定要加入(P.S 不要尝试登录朕的教务系统,这只是测试密码).

关于登录,我们必须要谈的一个话题是Cookie, 这不只是饼干,还是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密),所以我们要做的第一件事就是获取这个网站的Cookie。Python提供了一个模块叫做cookielib,我们要构建一个cookie的处理器来存储访问网站所得的cookie

import urllib2

import cookielib

loginURL = 'http://222.24.19.201/default6.aspx'

cookie = cookielib.CookieJar()

opener=urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

myRequest = urllib2.Request(loginURL, postdata,headers)

这个步骤过后,cookie我们就获得了cookie, 因为待会要用到,所以我们用字符串可以存储,然后打印出来

for i in cookie:

Cookie = i.name+"="+i.value

然后我们尝试登录,

page = urllib2.urlopen(loginURL).read()

postdata = urllib.urlencode({

'__VIEWSTATE':getVIEW(page),

'txtYhm':04133128, #std ID

'txtMm':'test1234', #password

'rblJs':'学生',

'btnDl':' 登录'})

headers = {

'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.76 Safari/537.36'

}

cookie = cookielib.CookieJar()

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))

myRequest = urllib2.Request(loginURL, postdata,headers)

loginPage = opener.open(myRequest).read()

page = unicode(loginPage, 'gb2312').encode("utf-8")

这样,主界面就存储到了page中。

接下来,我们就要开始往查成绩的界面走了, 继续HttpFox

我们会发现查成绩的网址其实是

http://222.24.19.201/xscjcx.aspx?xh=04133128&xm=%CD%F5%BE%A9%B2%A9&gnmkdm=N121605

xm后面是本人名字的编码,其他的我就不做过多解释了,将这个网址放到浏览器中访问,结果出现了神奇的

here是个网址,看下源码,

Nothiing!!!!!醉了,哪里出问题了?百度之,没有准确答复,遂自行解决,这下,我用程序试试看

head = {

'Host':'222.24.19.201',

'Cookie':Cookie,

'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.76 Safari/537.36'

}

getdata = urllib.urlencode({

'xh':04133128,

'xm':***,

'gnmkdm': 'N121605'

})

MyRequest= urllib2.Request('http://222.24.19.201/xscjcx.aspx?'+getdata,None, head) #According to this page ,we can get the viewstats

loginPage=unicode(opener.open(MyRequest).read(), 'gb2312').encode("utf-8")

data = urllib.urlencode({

"__VIEWSTATE":getVIEW(loginPage),

"btn_zcj":"历年成绩"

})

MyRequest= urllib2.Request('http://222.24.19.201/xscjcx.aspx?'+getdata,data, head) #Score's page

html = opener.open(MyRequest)

result = unicode(html.read(), 'gb2312').encode("utf-8")

name栏的*是朕的名字。

打印result,居然变成了登录界面。。。是不是我的hander不全,人家访问的时侯hander request有那么多,抱着试试看的态度,我把他们全加上了所以, hander就成了这样

head = {

'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding':'gzip, deflate',

'Accept-Language':'zh-CN,zh;q=0.8',

'Cache-Control':'no-cache',

'Connection':'keep-alive',

'Content-Type':'application/x-www-form-urlencoded',

'Host':'222.24.19.201',

'Cookie':Cookie,

'Origin':'http://222.24.19.201',

'Pragma':'no-cache',

'Referer':'http://222.24.19.201/xs_main.aspx?xh='+ID,

'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.76 Safari/537.36'

}

再次打印,居然登录进去了,果然是hander出了问题,经过了解,错在了一个选项叫做Referer, 这个东西是记录,你是从哪个网页跳转到这个网页的,这也就是为什么会有Object move to here 的原因,具体请百度”Referer”.接下来,我们要对得到的result进行解析,我用的是正则

str = r"

(.*)(.*)(.*)(.*)(.*)(.*)(.*)(.*)(.*)(.?)(.*)(.*)(.*)(.?)(.?)"

正则写的太烂,勉强够用,,

这样我们就可以得到一项成绩,将之存储到一个列表中, 然后将课程名字与列表对应起来,构成一个字典,这样,完成了存储,大功告成!

这是我写的第一个Python网络爬虫程序,难免会有疏漏,请大家多多指出错误,谢谢。

有对源码感兴趣的请戳https://github.com/Penguin502/ScoreSpider。

相关文章:

  • python速查app_中国大学MOOC的APP2020年用Python玩转数据题目答案
  • 导出 schema_第27问:information_schema.columns 表上做查询慢,为什么?
  • 单相交流调压matlab_电力线路工熟知单相、三相变压器原理详解
  • 陈硕智能指针线程安全_「C++基础篇」智能指针 auto_ptr/unique_ptr/shared_ptr
  • easyui是否容易上手_bootstrap 和 jQueryEasyUI 哪个做后台管理系统更好一些?
  • column分栏布局只是文字布局吗_写给自己看的CSS columns分栏布局教程
  • 定时备份mysql脚本_自动定时备份 mysql 数据库 的 shell 脚本
  • mysql存储xml_mysql存储xml数据 mysql和sql server
  • 使用php mysql js实现聊天功能_php实现简单聊天功能
  • 帝国cms与mysql数据库_如何使用帝国CMS自带的数据库类
  • mysql所有选修课程都及格_MySQL 练习题目 二刷 - 2019-11-4 5:55 am
  • c3p0连接池配置 mysql_C3P0连接池配置详解 + 数据库主从配置
  • mysql查看字符出现次数_mysql 查找一个列中,一个字符出现的次数
  • windows 发包工具_ksubdomain 无状态域名爆破工具
  • epel mysql_RHEL/CentOS 6.x使用EPEL6与remi的yum源安装MySQL 5.5.x
  • 2018天猫双11|这就是阿里云!不止有新技术,更有温暖的社会力量
  • CentOS6 编译安装 redis-3.2.3
  • java架构面试锦集:开源框架+并发+数据结构+大企必备面试题
  • Linux CTF 逆向入门
  • scrapy学习之路4(itemloder的使用)
  • 更好理解的面向对象的Javascript 1 —— 动态类型和多态
  • 聊聊flink的BlobWriter
  • 腾讯优测优分享 | Android碎片化问题小结——关于闪光灯的那些事儿
  • 一起来学SpringBoot | 第十篇:使用Spring Cache集成Redis
  • 因为阿里,他们成了“杭漂”
  • 用Canvas画一棵二叉树
  • 用Python写一份独特的元宵节祝福
  • 找一份好的前端工作,起点很重要
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • python最赚钱的4个方向,你最心动的是哪个?
  • SAP CRM里Lead通过工作流自动创建Opportunity的原理讲解 ...
  • 如何通过报表单元格右键控制报表跳转到不同链接地址 ...
  • 整理一些计算机基础知识!
  • ​渐进式Web应用PWA的未来
  • ###C语言程序设计-----C语言学习(3)#
  • ( 用例图)定义了系统的功能需求,它是从系统的外部看系统功能,并不描述系统内部对功能的具体实现
  • (09)Hive——CTE 公共表达式
  • (1)(1.19) TeraRanger One/EVO测距仪
  • (6)STL算法之转换
  • (LeetCode C++)盛最多水的容器
  • (附源码)spring boot建达集团公司平台 毕业设计 141538
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (学习日记)2024.01.09
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • (转)jQuery 基础
  • (转)scrum常见工具列表
  • (转)平衡树
  • (轉貼) 2008 Altera 亞洲創新大賽 台灣學生成果傲視全球 [照片花絮] (SOC) (News)
  • ***php进行支付宝开发中return_url和notify_url的区别分析
  • .NET Core、DNX、DNU、DNVM、MVC6学习资料
  • .NET 事件模型教程(二)
  • .NET 中各种混淆(Obfuscation)的含义、原理、实际效果和不同级别的差异(使用 SmartAssembly)
  • .Net下C#针对Excel开发控件汇总(ClosedXML,EPPlus,NPOI)
  • 。Net下Windows服务程序开发疑惑
  • [ element-ui:table ] 设置table中某些行数据禁止被选中,通过selectable 定义方法解决