一个爬虫程序基本分为三个部分:
通过程序构造一个请求,拿到网站的源代码
爬虫首先要做的就是获取网页,这里指的是网页的源代码,需要从中进行解析出我们需要的数据。其实就是通过Python模拟用户的操作,对网站发起一个请求(get,post),网站会给客户端响应,就是一堆网页源代码
获取到网页源代码之后,就可以分析网页源代码,从中提取我们想要的数据。最通用的方法就是正则表达式,xpath,css选择器进行提取
提取到数据之后,一般会将数据保存起来以便后续的使用,既可以保存为Text文本,也可以保存为JSON文件,也可以保存为Excel表格,也可以保存到数据库中,mysql,sqlite3
模拟用户浏览网页的行为自动批量的获取网站数据的程序
在服务器使用一些技术来组织爬虫程序的执行,对网站的数据进行保护
获取数据,用于填充自己的公司的数据库
通过爬虫程序,制作搜索引擎
通过爬虫程序,做数据采集和数据分析
针对一些初级的爬虫程序,简单粗暴,不会考虑服务器的压力,会导致服务器瘫痪
针对一些失控的爬虫,爬虫的数量和数据量都很庞大,忘记关闭爬虫程序的
熟练掌握get和post请求
GET:请求指定的页面信息,并返回数据
HEAD:类似于GET请求,只不过返回的响应中没有具体的内容,用户获取报头
POST:向指定的资源提交数据进行处理,数据被包含在请求体中
PUT:从客户端向服务器传输的数据取代指定的文档内容
DELETE:请求服务器删除指定的页面