当前位置: 首页 > news >正文

三个小伙毕业了做购物网站的电视剧seo网络推广是什么意思

三个小伙毕业了做购物网站的电视剧,seo网络推广是什么意思,网上书店网站建设的说明书,疫情中高风险地区在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。 user-agent 简单的设置user-agent头部为浏览器即可: 爬取标签中带href属性的网页 对于显示岗位列表的页面,通常检查其源代码就会发现&…

在这里,我总结了本次项目的数据收集过程中遇到的反爬虫策略以及一些爬虫过程中容易出现问题的地方。

user-agent

简单的设置user-agent头部为浏览器即可:
在这里插入图片描述

爬取标签中带href属性的网页

对于显示岗位列表的页面,通常检查其源代码就会发现,相应的标签处存在一个a标签,其中存在href属性值:
在这里插入图片描述
于是可以选择,爬取出该网页中的所有的href属性,再依次对href属性中的所有的网址进行爬取,

current_job_links=browser.find_elements(by=By.XPATH,value='//li[@class="border-top"]//a[@target="_blank"]')
for link in current_job_links:job_path = link.get_attribute("href")job_url = urljoin(self.base_url, job_path)job_links.append(job_url)

爬取使用js跳转的网页,进行选型卡管理

现在好多都是不存在href,而是使用javascript进行跳转,也就是点击卡片之后会新开一个选项卡,因此这里要使用selenium的选项卡管理来实现browser的url变化,从而获得新打开页面的url(如果不切换选项卡,即使模拟单击了卡片,也不能对打开的页面进行爬虫)
重点在于一定要记得切换选项卡!!

for card_element in card_elements:# 单击卡片元素browser.execute_script("arguments[0].click();",card_element)# 等待新页面加载完成wait.until(EC.number_of_windows_to_be(2))# 切换到新的窗口browser.switch_to.window(browser.window_handles[1])# 获取新页面的URLcurrent_url2 = browser.current_urlcurrent_url_list.append(current_url2)browser.close()

分页爬取

url变化实现换页

大部分网页都是通过url的变化实现翻页的:
在这里插入图片描述
因此只需要修改相应网址的pageNo即可,

if self.page < 100:self.page += 1# 换urlurl = 'https://zhaopin.meituan.com/web/position?hiringType=2_6&pageNo=' +str(self.page)#再次调用爬虫yield scrapy.Request(url=url, callback=self.parse, dont_filter=True)time.sleep(3)  # 设置3秒间隔

换页url不变

使用selenium模拟浏览器点击下一页按钮。所以需要在网页中定位到”下一页“按钮的位置

next_button = browser.find_element(by=By.XPATH,value='//[@id="target_list"]/div/div[2]/div[3]/button[2]')
if not next_button.is_enabled():break
browser.execute_script("arguments[0].click();", next_button)

同时注意判断停止条件,当按钮不可用时表示到达最后

登录问题

在爬取京东招聘时需要首先进行登录
使用如下代码实现模拟登陆:
在这里插入图片描述

http://www.khdw.cn/news/59110.html

相关文章:

  • 北京网站建设哪家比较好百度怎么找人工客服
  • 织梦网站版权软件开发公司推荐
  • 找人代做网站费用全网推广网站
  • 设计风格独树一帜整站优化多少钱
  • wordpress新闻动态不显示作者杭州seo外包
  • 做网站什么程序广告联盟平台挂机赚钱
  • 1+x数字营销网站中国销售网
  • 做足球推荐网站能赚钱吗深圳产品网络推广
  • wordpress RSS怎么用跨境电商seo什么意思
  • 记事本里做网站 怎么把字体网络营销软件商城
  • 深圳市宝安区邮政编码成都网站seo技术
  • 青岛的做网站公司东营百度推广电话
  • 怎么查出这个网站是谁做的网站查询平台官网
  • 网站建设优化需要懂那些知识网站收录提交入口网址
  • 二手书网站建设目标保定百度推广优化排名
  • 深圳网络推广建站百度网盘官方下载
  • wordpress新建页面长沙网站包年优化
  • 徐州建设局网站郑州seo技术服务
  • 网络设计与实施东莞seo网站管理
  • 武汉seo网站推广网络营销的特点有哪些
  • 黄页网站推广效果怎么样合肥seo优化外包公司
  • 域名购买 网站建设中国十大seo
  • 网站建设从零开始seo外包公司排名
  • 以下工具属于网站设计工具的是阳山网站seo
  • 大庆做网站找谁搭建网站
  • 搭建邮箱网站零基础学seo要多久
  • 美德的网站建设微信推广怎么弄
  • 怎么做网站vip并且收费如何推广好一个产品
  • 沈阳市建设工程信息网站网络推广优化
  • wordpress 后台忘了杭州seo公司