1、在命令行安装xpath包pip install lxml
2、打开python交互环境IDLE,导入lxml的etree,没有报错,正确安装了from lxml import etree
3、在IDLE新建‘textxpath.py’文件,并写内容如下:from lxml 坡纠课柩import etreesx = 媪青怍牙''' <root> <h1>title</h1> <div> fd <img src="1.jpg"></img> </div> </root>'''exml = etree.XML(sx)x = exml.find('.//div')print (x.text)
4、F5运行代码,成功打印出div的内容,注意这种方法只能用相对路径
5、修改代码使用绝对路径查找,代码如下:from lxml import etreesx = ''' <ro泠贾高框ot> <h1>title</h1> <div> fd <img src="1.jpg"></img> </div> </root>'''exml = etree.XML(sx)x = exml.xpath('//div')print (x[0].text)
6、F5运行代码,成功打印出div内容,注意xpath既可以使用绝对路径也可以用相对路径
7、查找标签属性内容可以使用from lxml import etreesx = ''' <root> <h1>title</h1> <div> fd <img src="1.jpg">dd</img> </div> </root>'''exml = etree.XML(sx)x = exml.xpath('//img/@src')print (x)
8、F5运行代码,成功打印出属性src内容