最新文章

Nginx静态资源代理配置终极指南：解决CSS/JS文件404错误

远程桌面登录失败：账户受系统策略限制的排查与解决

如何配置docker镜像源

解决Dify更新时无法拉取最新代码的问题

基于 Docker 部署安装的 Open WebUI 版本升级方法

最热文章

绕过自动化检测：使用undetected_chromedriver实现高效Web自动化

使用 Playwright 和 Stealth 模式绕过网站检测

破解cloudflare验证&部署服务器

利用 DrissionPage 绕过cloudflare验证

dify 下一步问题建议的设置问题

基于 Docker 部署安装的 Open WebUI 版本升级方法

文章归档

Django 用户认证用户邮箱登录邮箱注册 ORM or,and,not form.py FORM ModelForm Paginator 分页 HTMl JQuery 定位元素 ajax django切片 restfulapi 跨域 Ubantu Python Mysql Scrapy 爬虫导出 Python读写 Pycharm 破解 session re sqlit3 生成式其他 Prism 富文本 CSS Nginx 部署请求头抓包协议 selenium Ubuntu 宝塔 AI Comfy-ui ollama dify open-webui Git docker 远程

常见的请求方法

张建行 2018年12月14日 07:57 87 文章标签：爬虫请求头协议

爬虫的基本流程

一个爬虫程序基本分为三个部分：

1，获取网页

通过程序构造一个请求，拿到网站的源代码

爬虫首先要做的就是获取网页，这里指的是网页的源代码，需要从中进行解析出我们需要的数据。其实就是通过Python模拟用户的操作，对网站发起一个请求（get，post），网站会给客户端响应，就是一堆网页源代码

2，清洗数据

获取到网页源代码之后，就可以分析网页源代码，从中提取我们想要的数据。最通用的方法就是正则表达式，xpath,css选择器进行提取

3，保存数据

提取到数据之后，一般会将数据保存起来以便后续的使用，既可以保存为Text文本，也可以保存为JSON文件，也可以保存为Excel表格，也可以保存到数据库中，mysql，sqlite3

爬虫的概念&目的

基本概念：

爬虫：

模拟用户浏览网页的行为自动批量的获取网站数据的程序

反爬虫：

在服务器使用一些技术来组织爬虫程序的执行，对网站的数据进行保护

爬虫的目的：

获取数据，用于填充自己的公司的数据库
通过爬虫程序，制作搜索引擎
通过爬虫程序，做数据采集和数据分析

反爬虫的目的：

针对一些初级的爬虫程序，简单粗暴，不会考虑服务器的压力，会导致服务器瘫痪
针对一些失控的爬虫，爬虫的数量和数据量都很庞大，忘记关闭爬虫程序的

常见的请求方法

熟练掌握get和post请求

GET：请求指定的页面信息，并返回数据
HEAD：类似于GET请求，只不过返回的响应中没有具体的内容，用户获取报头
POST：向指定的资源提交数据进行处理，数据被包含在请求体中
PUT：从客户端向服务器传输的数据取代指定的文档内容
DELETE：请求服务器删除指定的页面

下一篇>