当前位置: 首页 > news >正文

重庆做个网站多少钱网站 seo

重庆做个网站多少钱,网站 seo,大学生作业做网站,阜宁哪家专业做网站定义 Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效&#…

定义

Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。

robots.txt文件的样例

  • 对有所爬虫均生效,只能爬取public目录
User-agent:*
Disallow:/
Allow:/public/
  • 禁止所有爬虫访问所有目录
User-agent:*
Disallow:/
  • 允许所有爬虫访问所有目录
User-agent:*
Disallow:
  • 禁止所有爬虫访问网站某些目录也可以写做
User-agent:*
Disallow:/private/
Disallow:/tmp/
  • 只允许某一个爬虫访问所有目录
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/

一些常见的爬虫名称

在这里插入图片描述

robotparser使用

该模块提供了一个类:RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。

RobotFileParser类的常用方法

  • set_url:用来设置robots.txt文件的链接。
  • read:读取robots.txt文件进行分析。
  • parse:用来解析robots.txt文件
  • can_fetch:该方法有两个参数,第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False,表示User-Agent指示的搜索引擎是否可以抓取这个URL。
  • mtime:返回上次抓取和分析robots.txt文件的时间。
  • modified:它对长时间分析和抓取的搜索爬虫很有帮助,可以将当前时间设置为上次抓取和分析robots.txt文件的时间

代码示例

from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url("http://www.baidu.com/robots.txt")
rp.read()print(rp.can_fetch("Baiduspider", "http://www.baidu.com"))
print(rp.can_fetch("Baiduspider", "http://www.baidu.com/homepage/"))
print(rp.can_fetch("Googlebot", "http://www.baidu.com/homepage/"))

在这里插入图片描述

  • 这里能看到,Googlebot是被严格禁止了的,所以为false
    在这里插入图片描述

以上,便是robots协议的学习笔记整理,来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。
感谢阅读~

http://www.khdw.cn/news/67698.html

相关文章:

  • 兰州网站建设公seo搜索引擎优化是什么
  • 钟山区生态文明建设局网站seo营销是什么意思
  • 视频网站开发与制作沈阳网站seo公司
  • 做网站可以申请个体户么企业如何进行搜索引擎优化
  • 网站开发工程师工资多少整站优化系统厂家
  • nginx wordpress php7网站优化排名操作
  • 专做纸巾批发网站大数据网络营销
  • 石家庄网页设计的公司seo网站关键词排名提升
  • dw网站导航怎么做百度平台交易
  • python做网站用什么百度热议怎么上首页
  • PHP动态网站开发实训总结新东方英语线下培训学校
  • 什么企业网站能自己做东莞seo推广公司
  • 各类郑州网站建设2345浏览器网页版
  • vip影视网站如何做app网络营销公司
  • 汽贸做网站有用处吗网站查询域名解析
  • 淘宝销售书网站建设方案免费刷粉网站推广免费
  • 松江营销型网站建设公司国外电商平台有哪些
  • 电子商务建设网站的测试和发布如何搭建自己的网站
  • 成都哪里有做网站建设的网站收录查询方法
  • 网站的配色方案百度秒收录技术最新
  • 海南自贸区百度seo外包
  • 怎么查看网站备案商开淘宝店铺怎么运营推广
  • 门户网站系统程序西安百度竞价托管代运营
  • 6东莞做网站网络营销与直播电商专业就业前景
  • 网站建设及代运营合同百度推广客户端电脑版
  • 海口网站如何制作网络推广运营优化
  • wordpress wportal页面优化的方法有哪些
  • 新安网站建设典型十大优秀网络营销案例
  • 动态网站的工作原理关键词抓取工具都有哪些
  • 支付网站建设会计分录网络营销logo