如何使用java代码,爬取页面特定内容?

 时间:2026-02-14 01:36:34

1、确认目标我们要爬取的是“百度”首页 

中的 gif 动态图

将它下载下来

如何使用java代码,爬取页面特定内容?

2、加入jsoup依赖

我这里使用的是maven,进行的依赖管理

如果不知道maven是什么可以去百度了解一下

如何使用java代码,爬取页面特定内容?

3、依赖有了我们就开始编码吧

第一步:先把“百度”首页所有的html元素内容全部爬下来

如何使用java代码,爬取页面特定内容?

4、第二步:找到我们需要的图片元素 对象

使用 css 选择器  

jsoup已经为我们封装好了,一起来看吧

如何使用java代码,爬取页面特定内容?

5、第三步:获取图片的网络路径

如何使用java代码,爬取页面特定内容?

6、第四步:通过网络图片地址,将图片下载到本地

如何使用java代码,爬取页面特定内容?

如何使用java代码,爬取页面特定内容?

7、代码都在这里了 : 

public static void main(String [] args) throws IOException {


   Document doc = Jsoup.connect("http://www.baidu.com/").get();
   Elements select = doc.select(".index-logo-src");
   int i = 1;
   java.net.URL url = null;
   for (Element element : select) {
       String src = element.attr("src");
       src = src.substring(2);
       src = "http://" + src;
       url = new java.net.URL(src);
       DataInputStream dataInputStream = new DataInputStream(url.openStream());
       FileOutputStream fileOutputStream = new FileOutputStream(new File("e:/img/" + (i) + ".gif"));
       ByteArrayOutputStream output = new ByteArrayOutputStream();
       byte[] buffer = new byte[1024];
       int length;
       while ((length = dataInputStream.read(buffer)) > 0) {
           output.write(buffer, 0, length);
       }
       byte[] bytes = output.toByteArray();
       fileOutputStream.write(output.toByteArray());
       dataInputStream.close();
       fileOutputStream.close();
       i++;
   }
}
  • excel中offset函数的使用技巧
  • Interior.ColorIndex = 28EXCEL表格vba属性简介
  • Excel Vba怎么防止修改工作表名称
  • 如何在excel工作表中的某行或某列标记重复内容
  • VBA单元格中如何生成弹出式菜单
  • 热门搜索
    酥鱼的做法 暨怎么读 香菇油菜做法 鱿鱼的做法大全 油豆腐怎么做好吃 溜肉段的做法 八宝饭做法 脾胃虚弱怎么调理 春季食谱大全及做法 俯卧撑的正确做法