Django 用户认证 用户 邮箱登录 邮箱注册 ORM or,and,not form.py FORM ModelForm Paginator 分页 HTMl JQuery 定位元素 ajax django切片 restfulapi 跨域 Ubantu Python Mysql Scrapy 爬虫 导出 Python读写 Pycharm 破解 session re sqlit3 生成式 其他 Prism 富文本 CSS Nginx 部署 请求头 抓包 协议 selenium Ubuntu 宝塔 AI Comfy-ui ollama dify open-webui Git docker
lxml模块css选择器的用法
张建行 2019年2月3日 04:16 72 文章标签: Python Scrapy 爬虫 导出

lxml模块css选择器的用法

1.使用标签选择器

 from lxml import etree
 
 html = etree.parse('index.html')
 title = html.cssselect('title')[0].text
 print(title)

2.使用类选择器

 a = html.cssselect('.first_a')[0].get('href')
 print(a)

3.使用ID选择器

 a1 = html.cssselect('#second')[0].text
 print(a1)

4.使用属性选择器

 a2 = html.cssselect('a[class="second_a"]')[0].text
 print(a2)

5.使用父子选择器

 a3 = html.cssselect('.one>div>a')[0].text
 print(a3)

6.使用后代选择器

 a4 = html.cssselect('.one a')[0].text
 print(a4)

7.使用交集选择器

 a5 = html.cssselect('a.first_a')[0].text
 print(a5)

8.使用伪类选择器

 a6 = html.cssselect('li:nth-child(2)>a')[0].text
 print(a6)