如何使用java代码,爬取页面特定内容

 时间:2024-10-12 21:52:53

1、确认目标我们要爬取的是“百度”首页中的 gif 动态图将它下载下来

如何使用java代码,爬取页面特定内容

2、加入jsoup依赖我这里使用的是maven,进行的依赖管理如果不知道maven是什么可以去百度了解一下

如何使用java代码,爬取页面特定内容

3、依赖有了我们就开始编码吧第一步:先把“百度”首页所有的html元素内容全部爬下来

如何使用java代码,爬取页面特定内容

4、第二步:找到我们需要的图片元素 对象使用 css 选择器 jsoup已经为我们封装好了,一起来看吧

如何使用java代码,爬取页面特定内容

5、第三步:获取图片的网络路径

如何使用java代码,爬取页面特定内容

6、第四步:通过网络图片地址,将图片下载到本地

如何使用java代码,爬取页面特定内容
如何使用java代码,爬取页面特定内容

7、代码都在这里了 : public static void main(String [] args) throws IOExceptio荏鱿胫协n { Document doc = Jsoup.connect("http://www.baidu.com/").get(); Elements select = doc.select(".index-logo-src"); int i = 1; java.net.URL url = null; for (Element element : select) { String src = element.attr("src"); src = src.substring(2); src = "http://" + src; url = new java.net.URL(src); DataInputStream dataInputStream = new DataInputStream(url.openStream()); FileOutputStream fileOutputStream = new FileOutputStream(new File("e:/img/" + (i) + ".gif")); ByteArrayOutputStream output = new ByteArrayOutputStream(); byte[] buffer = new byte[1024]; int length; while ((length = dataInputStream.read(buffer)) > 0) { output.write(buffer, 0, length); } byte[] bytes = output.toByteArray(); fileOutputStream.write(output.toByteArray()); dataInputStream.close(); fileOutputStream.close(); i++; }}

  • excel中offset函数的使用技巧
  • Interior.ColorIndex = 28EXCEL表格vba属性简介
  • Excel Vba怎么防止修改工作表名称
  • 如何在excel工作表中的某行或某列标记重复内容
  • VBA单元格中如何生成弹出式菜单
  • 热门搜索
    节约用水手抄报简单画 爱国主义手抄报 读书手抄报 元宵节手抄报 关于春天的手抄报 关于读书的手抄报内容 爱眼日手抄报 世界水日手抄报 传统节日手抄报 数学手抄报