最新文章

最热文章

绕过自动化检测：使用undetected_chromedriver实现高效Web自动化

破解cloudflare验证&部署服务器

利用 DrissionPage 绕过cloudflare验证

dify 下一步问题建议的设置问题

基于 Docker 部署安装的 Open WebUI 版本升级方法

文章归档

Django 用户认证用户邮箱登录邮箱注册 ORM or,and,not form.py FORM ModelForm Paginator 分页 HTMl JQuery 定位元素 ajax django切片 restfulapi 跨域 Ubantu Python Mysql Scrapy 爬虫导出 Python读写 Pycharm 破解 session re sqlit3 生成式其他 Prism 富文本 CSS Nginx 部署请求头抓包协议 selenium Ubuntu 宝塔 AI Comfy-ui ollama dify open-webui Git docker 远程

lxml模块css选择器的用法

张建行 2019年2月3日 04:16 88 文章标签： Python Scrapy 爬虫导出

lxml模块css选择器的用法

1.使用标签选择器

 from lxml import etree
 
 html = etree.parse('index.html')
 title = html.cssselect('title')[0].text
 print(title)

2.使用类选择器

 a = html.cssselect('.first_a')[0].get('href')
 print(a)

3.使用ID选择器

 a1 = html.cssselect('#second')[0].text
 print(a1)

4.使用属性选择器

 a2 = html.cssselect('a[class="second_a"]')[0].text
 print(a2)

5.使用父子选择器

 a3 = html.cssselect('.one>div>a')[0].text
 print(a3)

6.使用后代选择器

 a4 = html.cssselect('.one a')[0].text
 print(a4)

7.使用交集选择器

 a5 = html.cssselect('a.first_a')[0].text
 print(a5)

8.使用伪类选择器

 a6 = html.cssselect('li:nth-child(2)>a')[0].text
 print(a6)

<上一篇

下一篇>