Python读取网页上的pdf文件,输出字符串

 时间:2024-10-12 01:53:33

1、首先安装pdf文件python读取包,PDFMinerPDFMiner是一种从PDF文档中提取信息的工具。与其他PDF相关工具不同,它完全专注于获取和分析文本数据。如下所示 pip installPDFMiner

Python读取网页上的pdf文件,输出字符串
Python读取网页上的pdf文件,输出字符串

2、开始使用PDFMiner来读取一个远程的pdf文件,除了使用PDFMiner,还需要安装urllib 或者urllib2,有时候这些都安装了,在导入process_pdf的时候会找不到,这个时候就需要重新安装 pdfminer可以到如下地址寻找 pdfminer的历史版本,例如我这里安装pdfminer 20131022pip install pdfminer==20131113安装完成后如下所示process_pdf可以导入正常使用了,好的我们开始下一步

Python读取网页上的pdf文件,输出字符串
Python读取网页上的pdf文件,输出字符串

3、读取一个远程的pdf文件,输出字符串# -*- codi艘绒庳焰ng: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import opendef readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return contentpdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")#远程outputString = readPDF(pdfFile)print(outputString)pdfFile.close()

Python读取网页上的pdf文件,输出字符串

4、读取一个本地pdf文件,输出字符串# -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDFResourceManager, process_pdffrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom io import StringIOfrom io import opendef readPDF(pdfFile): rsrcmgr = PDFResourceManager() retstr = StringIO() laparams = LAParams() device = TextConverter(rsrcmgr, retstr, laparams=laparams) process_pdf(rsrcmgr, device, pdfFile) device.close() content = retstr.getvalue() retstr.close() return contentpdfFile = open(u"/home/mypdf.pdf",”rd”) #本地print(pdfFile)outputString = readPDF(pdfFile)print(outputString)pdfFile.close()

Python读取网页上的pdf文件,输出字符串
  • 火影忍者OL怎么获得组织的贡献
  • LOL中深海泰坦AP出装推荐
  • A级车和B级车什么意思,怎么划分
  • 怎么修改死亡阴影无限移动
  • 你用的切削液是什么“垃圾”
  • 热门搜索
    中国梦手抄报内容 长城手抄报 足球手抄报图片大全 中国梦手抄报 名人名言手抄报 七夕节手抄报 电子手抄报 关于元宵节的手抄报 手抄报大全简单又漂亮 关于儿童节的手抄报