python 爬虫 入门 爬取新浪新闻

 时间:2024-10-31 17:59:34

1、大家知道,爬虫实际上就是模拟浏览器请求,然后把请求到的数据,经过我们的分析,提取出我们想要的内容,这也就是爬虫的实现

2、首先,我们要写柯洒阖拨爬虫,可以借鉴一些工具,我们先从简单的入门,首先说到请求,我们就会想到python中,非常好用的requests,然后说到分析解析就会用到bs4,然后我们可以直接用pip命鸡舍诽浓令来实现安装,假如安装的是python3,也可以用pip3

python 爬虫 入门 爬取新浪新闻

3、安装好这两个类库之后,然后我们就可以先请求数据,查看下新闻的内容,这个时候我们有可能看到的是乱码

python 爬虫 入门 爬取新浪新闻

4、怎么处理乱码呢?我们可以拿浏览器打开网页,右键查看网页源代码,我们可以看到编码格式为utf-8

python 爬虫 入门 爬取新浪新闻
python 爬虫 入门 爬取新浪新闻

5、然后我们在输出的时候添加编码格式,就可以查看到正确编码的数据了

python 爬虫 入门 爬取新浪新闻

6、拿到数据之后,我们需要先分析数据,看我们想要的数据在哪里,我们打开浏览器,右键审查,然后按示例图涠础险渥操作,就可以看到我们新闻所在的标签,假如是windows系统,选择开发中工具里面一样

python 爬虫 入门 爬取新浪新闻
python 爬虫 入门 爬取新浪新闻

7、我们知道属于哪个标签之后,就是用bs4来解析拿到我们想要的数据了

python 爬虫 入门 爬取新浪新闻

8、我们想要拿到新闻的具体标题,时间,地址,就需要我们在对元素进行深入的解析,我们还是按之前的方法,找到标题所在的标签

python 爬虫 入门 爬取新浪新闻

9、然后我们编写标题时间地址的python程序,就可以爬取出对应的标题内容,时间和地址

python 爬虫 入门 爬取新浪新闻

10、简单的python爬取新闻就讲到这里啦

  • VS2010创建winform窗体程序安装步骤
  • android数据库sqlite可视化操作
  • Pages怎样去掉文字底色
  • Python3简易计算程序编写,so easy
  • LOL无畏战车上单符文推荐
  • 热门搜索
    认识大自然手抄报 中国传统手抄报 我运动我健康手抄报 书的海洋手抄报 愚人节手抄报 环保手抄报资料大全 关于爱国的手抄报内容 中国传统美德手抄报 美丽家园手抄报内容 读书的手抄报的内容