Django 用户认证 用户 邮箱登录 邮箱注册 ORM or,and,not form.py FORM ModelForm Paginator 分页 HTMl JQuery 定位元素 ajax django切片 restfulapi 跨域 Ubantu Python Mysql Scrapy 爬虫 导出 Python读写 Pycharm 破解 session re sqlit3 生成式 其他 Prism 富文本 CSS Nginx 部署 请求头 抓包 协议 selenium Ubuntu 宝塔 AI Comfy-ui ollama dify open-webui Git docker
常见的请求方法
张建行 2018年12月14日 07:57 67 文章标签: 爬虫 请求头 协议

爬虫的基本流程

一个爬虫程序基本分为三个部分:

1,获取网页

通过程序构造一个请求,拿到网站的源代码

爬虫首先要做的就是获取网页,这里指的是网页的源代码,需要从中进行解析出我们需要的数据。其实就是通过Python模拟用户的操作,对网站发起一个请求(get,post),网站会给客户端响应,就是一堆网页源代码

2,清洗数据

获取到网页源代码之后,就可以分析网页源代码,从中提取我们想要的数据。最通用的方法就是正则表达式,xpath,css选择器进行提取

3,保存数据

提取到数据之后,一般会将数据保存起来以便后续的使用,既可以保存为Text文本,也可以保存为JSON文件,也可以保存为Excel表格,也可以保存到数据库中,mysql,sqlite3

爬虫的概念&目的

基本概念:

爬虫:

模拟用户浏览网页的行为自动批量的获取网站数据的程序

反爬虫:

在服务器使用一些技术来组织爬虫程序的执行,对网站的数据进行保护

爬虫的目的:

  • 获取数据,用于填充自己的公司的数据库

  • 通过爬虫程序,制作搜索引擎

  • 通过爬虫程序,做数据采集和数据分析

反爬虫的目的:

  • 针对一些初级的爬虫程序,简单粗暴,不会考虑服务器的压力,会导致服务器瘫痪

  • 针对一些失控的爬虫,爬虫的数量和数据量都很庞大,忘记关闭爬虫程序的

常见的请求方法

熟练掌握get和post请求

  1. GET:请求指定的页面信息,并返回数据

  2. HEAD:类似于GET请求,只不过返回的响应中没有具体的内容,用户获取报头

  3. POST:向指定的资源提交数据进行处理,数据被包含在请求体中

  4. PUT:从客户端向服务器传输的数据取代指定的文档内容

  5. DELETE:请求服务器删除指定的页面