当前位置: 首页 > news >正文

北京做网站建设的公司哪家好seo工作内容和薪资

北京做网站建设的公司哪家好,seo工作内容和薪资,西宁做网站公司哪家好,亚马逊雨林资料最近接触了一个个人感觉很奈斯的项目,故记录思路如下: puppeteer项目梳理: 入口文件 run.js 入口命令 node run.js YourConfig.json 1、我们可以在自己的config.json里面设置好 ①、登录的用户名密码;aws或其它服务器的access等id,accessKey…

最近接触了一个个人感觉很奈斯的项目,故记录思路如下:

puppeteer项目梳理:
入口文件 run.js
入口命令 node run.js YourConfig.json

大概逻辑


1、我们可以在自己的config.json里面设置好
①、登录的用户名密码;aws或其它服务器的access等id,accessKey, region等信息;
cookie的路径,要上传到s3或者oss等对象存储平台的文件的路径;
oss和s3的比较
②、要运行的命令放在一个modules{}里面,proxy的设置,headless:true等访问浏览器的设置。

2、爬虫最好是运用模块化思想,把重复用的功能单独的拎出来
在run.js里面我们可以import我们自己其他的js文件。
①首先是import {LoadConfig} from config.js
这个LoadConfig主要是存储从config.解析的变量。
const argv = process.argv.slice(2);
const configPath = argv[0];
const config = JSON.parse(fs.readFileSync(configPath));

这是关于node的process相关内容的参考文章

类似这种,把config.json的信息都解析到数组argv里面,然后按照不同key,设置不同键值对,最后以export LoadConfig导出。
通过这种方式,我们就看把config.json里面的配置按照键值对保存了LoadConfig的数组里面。

②关于s3的配置方法封装到S3Init.js文件中,里面包含了s3的读写文件名,判断文件存在,读写文件流等function。
再引入一个包含save 和skip文件的storage.js方法,主要功能是如果s3已经存在了同名文件在,则判断跳过,避免爬取重复文件。
再映入一个date.js,主要是封装了判断日期,更改日期名字,获取当前日期等功能。

③关键引入import { createPage, closePage } from “./yourpath/Parsebrowser.js”;
这是主要的启动方法,通过const page = await createPage(getCookie, config.headless, config.proxy);去进行爬取,
Parsebrowser.js里面可以设置具体的chrome.exe位置,主要是为了打开浏览器。

④最关键的一步,
import { LoadConfig } from “./yourpath/config.js”;
const config = LoadConfig();
再打开到浏览器之后,在try下,去引入config.modules。因为config.modules里面是不同的js文件,每个js文件代表这一个页面的下载逻辑,
并且以{export download} 形式返回。
我们调用const page = await createPage(getCookie, config.headless, config.proxy),可以通过不同cookies访问网站;
再调用download变量方法就可以进去爬取不同页面(因为不同页面暴露的都是同一个download方法,可以通过循环依次爬取。
同时在同一个网站里,我们可以设置复用的download.js去点击下载按钮,可以设置复用的selectdate.js去选择日期等。

总结:
将关于s3的配置,打开浏览器,访问不同页面都分别独立出来。并且通过config.json去定义想要运行的js文件(所有爬虫js返回一个相同的变量),当运行到入口文件run.js时,for循环会将config.json的Modules定义的js爬虫文件一 一运行下去。
极大提高了代码复用效率以及通过json配置控制爬取页面的灵活性。

细节:
在爬取元素,有些插件的元素在页面element找不到,可能在js里面。比如日期控件picker 的ant-select-dropdown-menu类,就写在了js里面动态加载进去。

http://www.khdw.cn/news/17499.html

相关文章:

  • 舒城县住房和城乡建设局网站百度获客平台
  • 汉中 网站建设seo流量是什么
  • 怎么做犬舍网站推广app是什么工作
  • 17网站一起做网店河北做网站用什么编程软件
  • 广告装饰 技术支持 东莞网站建设培训班线上优化
  • 网站建设运营预算明细安徽百度推广怎么做
  • 网站手机端做排名推广怎么做
  • 权威的锦州网站建设微信营销模式
  • iis默认网站建设中手机seo百度点击软件
  • 南京网站制作千推广恶意点击软件怎样使用
  • web前端是干嘛的优优群排名优化软件
  • 可以做笔试面试题的网站湖南省人民政府
  • 中国五码一级做爰网站百度提交入口网址
  • 骨干专业建设网站石家庄seo网络推广
  • 网站开发 外文文献推广平台哪个效果最好
  • 国家企业信用系统官网苏州seo优化
  • 企业网站建设的目的和意义网上推广赚钱方法
  • 全国网站建设公司有多少家电商运营推广
  • 西安景点排名前十百度爱采购优化软件
  • 用毛做简单的网站seo百度关键词优化软件
  • 上线了怎么做网站搜索引擎营销优化诊断训练
  • 深圳专业营销网站设计seo站长
  • 企业类网站设计百度安装下载
  • 大英哪里有做网站的登封seo公司
  • 绍兴做企业网站的公司广东广州重大新闻
  • 深圳天琥室内设计学校seo外链发布工具
  • 潍坊网站建设网超网络营销的方式和方法
  • 在制作网站前 不需要急于做的工作是网络营销ppt案例
  • 中华人民共和国住房和城乡建设部官方网站网络推广的优势
  • 网站建设微信运营公司百度一下官网