如何使用爬虫下载网站小说

 时间:2024-10-23 03:27:51

以免费小说下载网站下载小说为例.从网站上直接下载小说的页面如图,这里利用python从网站的每章的小说阅读页面读取小说、写入到文件中.

如何使用爬虫下载网站小说

代码实现

1、首先import所需的库,urllib.request的urlopen和beautifulsoup.由于需要将内容写入到txt文件中,也需要importos库

如何使用爬虫下载网站小说

2、输入文本写入路径,使用urlopen打开网址并用beautifulsoup解析.

如何使用爬虫下载网站小说

3、打开网站源代码,找到小说地址,查看其所属区域块.每个块都会有起始、终止符号,例如<div>...</div>,符号中间的部分是该块的内容,同时,每个块不是只有一个,需要其他标签定位等.

如何使用爬虫下载网站小说

4、list是小说网址部分的内容href=子网址,由于源码内ul有3个,所需部分是最后一个,所以加上下标定位最后一个ul。

如何使用爬虫下载网站小说

5、如步骤3中图片所示,网址的内容是不全的,前面省略了主网址。为保证正确,需要打开该网址,查看主网址,在代码中重定义org_url.

如何使用爬虫下载网站小说

6、内容的下载、写入部分代码如图.第一个for循环是写入每章的内容.第二个for循环写入该章的内容.该部分也需要查看具体章节页面的源码.最后关闭文件,进行保存.

如何使用爬虫下载网站小说
如何使用爬虫下载网站小说

结果

1、运行该命令,代码正确后会显示如图.可以看出文件正成功逐章下载。

如何使用爬虫下载网站小说

2、打开保存的文件,会看到小说成功保存到文件中,如图.

如何使用爬虫下载网站小说
  • 百度贴吧吧主怎么提交辞职申请
  • 罗技宏皇子一键大连招
  • 无双大蛇3终极版成长玉怎么获得
  • 百度贴吧如何清除缓存
  • 王者荣耀怎么发起投降的详解
  • 热门搜索
    语言的魅力手抄报 家规家训手抄报 初中手抄报图片大全 关于戒烟的手抄报 8k手抄报版面设计图 爱护校园环境手抄报 二年级手抄报图片 安全出行手抄报 讲文明懂礼貌的手抄报 关于科普知识的手抄报