当前位置: 首页 > news >正文

渭南大荔疫情最新消息通告seo综合查询国产

渭南大荔疫情最新消息通告,seo综合查询国产,宁波网页平面设计,中国空间站天和核心舱在爬学校安全教育题库的时候发现题库分页实际上执行了一段js代码,如下图所示 点击下一页时是执行了函数doPostBack,查看页面源码如下 点击下一页后这段js提交了一个表单,随后后端返回对应数据,一开始尝试分析获取对应两个参数&a…

在爬学校安全教育题库的时候发现题库分页实际上执行了一段js代码,如下图所示在这里插入图片描述
在这里插入图片描述
点击下一页时是执行了函数doPostBack,查看页面源码如下
在这里插入图片描述
点击下一页后这段js提交了一个表单,随后后端返回对应数据,一开始尝试分析获取对应两个参数,封装在data中通过POST请求获得新的一页,后面尝试了很久始终不成功…(肯定是因为太菜)

没办法只能使用神器selenium,缺点是要调用浏览器,肯定是比较慢的,但是python直接给你模拟浏览器的各种操作,而且不用抓包分析,比较方便。所以还是偷偷懒,注意,除了python要安装selenium之外,还需要安装对应浏览器的web驱动,这里我用的是谷歌浏览器,驱动下载地址:
镜像:https://registry.npmmirror.com/binary.html?path=chromedriver/
如果你谷歌版本新,镜像上可能没有对应版本。
官网:https://sites.google.com/chromium.org/driver/downloads(117以上在这里找:这里~)

下载好后就是正常的爬虫步骤,直接看代码吧:

import docx
from selenium import webdriver
import html2text
import timeidx = [4, 5, 9, 10, 11, 13, 14, 15, 16]
srcsel = 'xxxx/Web/userSingle.aspx?ID='  # 选择题
srcjg = 'xxxx/Web/userIs.aspx?ID='  # 判断题def remove_tags(text):h = html2text.HTML2Text()h.ignore_links = Truereturn h.handle(text)def process(url):driver = webdriver.Chrome()driver.get(url)res = driver.find_element("id", 'GridViewx').get_attribute('innerHTML')res = remove_tags(res)doc.add_paragraph().add_run(res)pages = int(driver.find_element("id", 'GridViewx_ctl13_lblPageCount').text)# pages = 2for i in range(pages - 1):time.sleep(1.5)driver.find_element("id", 'GridViewx_ctl13_btnNext').click()res = driver.find_element("id", 'GridViewx').get_attribute('innerHTML')res = remove_tags(res)doc.add_paragraph().add_run(res)driver.quit()doc = docx.Document('res.docx')
for pid in idx:process(srcsel + str(pid))time.sleep(3)process(srcjg + str(pid))
doc.save('res.docx')

为什么多此一举用html2text呢?因为发现这样写又能比较好看(和丑的比起来)还不用自己一条数据一条数据取出来排版。然后代码里我直接写进word文档里了,这里有个小坑,你的word文档(docx)中必须得有东西,不能是空的,要不然会报错…

懒得排版,凑合看看
http://www.khdw.cn/news/68538.html

相关文章:

  • 定制网站开发接私活2345网址导航官网官方电脑版
  • 如何建立一个带论坛的网站百度免费建网站
  • 网站建设销售好做吗建网站需要多少钱
  • 免费网站设计神器平台营销
  • 深圳网站建设 设计科技长沙网站优化效果
  • 佛山 网站建设营销推广网站推广方案
  • 有哪些做短租的网站好账户竞价托管哪里好
  • 在猪八戒上做网站要注意什么网络营销策划模板
  • 怎么下载网站的模板网络软文怎么写
  • wordpress网站 app怎么做
  • p2p网站如何做测试工具自己做网站制作流程
  • pyton 网站开发百度推广优化方案
  • 网站建设目的内容输出搜索引擎优化是什么意思啊
  • 做网站服务器一年多少钱360点睛实效平台推广
  • 做网站阳泉搜索引擎关键词优化技巧
  • 湖北免费网站建设百度热搜榜
  • 郑州专业网站建设公司首选宁波技术好的企业网站制作
  • 网站建设图片上传操作免费友情链接
  • 7星彩网站开发泉州关键词搜索排名
  • 那个网站推作者百度快速收录权限域名
  • 网站规划与建设课程合肥今天的最新消息
  • 青海百度关键词seo杭州网站优化搜索
  • wordpress添加导航页面seo服务公司招聘
  • cms网站建设的优缺点干净无广告的搜索引擎
  • wordpress大前端5.0下载落实好疫情防控优化措施
  • 西安信誉好的做网站的采集站seo课程
  • 广州城市建设网站爱站网使用体验
  • 现在那个网站做推广效果会好点福州百度关键词排名
  • 学校网站源码电商培训机构哪家好
  • 网站建设包括哪几个方面网络外贸推广