python3爬虫怎样使用lxml解析网页

 时间:2024-10-16 15:14:52

1、第一步,安装配置好lxml,Windows安装很多坑(自己网上搜吧,有很多问题我也很难解释)。

python3爬虫怎样使用lxml解析网页

2、之后,新建py文件,然后把urllib导入,并且还要用到lxml中的etree。

python3爬虫怎样使用lxml解析网页

3、之后,自然是用到urlopen发请求到括号里面的地址了哦。并且我们要调用etree里面的HTML方法来接收返回的响应内容,并且保存在page对象里。

python3爬虫怎样使用lxml解析网页

4、page对象可以调用xpath(),然后写上自己的xpath规则就可以了哦,然后我们把解析的内容打印出来看看。

python3爬虫怎样使用lxml解析网页

5、如图,运行之后就会解析出内容,xpath得到的结果会是一个列表,也就是带有中括号。

python3爬虫怎样使用lxml解析网页

6、如果想去掉中括号,那么可以用[0]来取得里面的元素,当然,一定要保证列表里面有内容才行,不然会报list index out of range之类的错误。。

python3爬虫怎样使用lxml解析网页

7、如图,加了index索引之后中括号就去掉了,这样就更加方便我们把内容存放到文件获取数据库里边了。

python3爬虫怎样使用lxml解析网页
  • 使用easyui创建tabs组件和动态添加
  • textarea对象如何使用required属性?
  • C#如何使用Border控件
  • C# Dev如何保存GridView的数据
  • VS如何查看System的定义
  • 热门搜索
    安全手抄报内容大全 端午节手抄报简单好看 以读书为主题的手抄报 关于古诗词的手抄报 防新型冠状病毒手抄报 为国家富强而奋斗的杰出人物手抄报 有关弟子规的手抄报 中秋节手抄报资料 我的家庭手抄报 运动会的手抄报