笔记---使用Java实现简单的爬虫功能爬取网站资源
2021/12/9 11:18:53
本文主要是介绍笔记---使用Java实现简单的爬虫功能爬取网站资源,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!
文章目录
- 项目配置
- 实现代码
项目配置
引入jsoup依赖包
<?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"> <modelVersion>4.0.0</modelVersion> <groupId>org.example</groupId> <artifactId>Spider</artifactId> <version>1.0-SNAPSHOT</version> <properties> <maven.compiler.source>17</maven.compiler.source> <maven.compiler.target>17</maven.compiler.target> </properties> <dependencies> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.14.3</version> </dependency> </dependencies> </project>
实现代码
import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.*; import java.net.URL; import java.net.URLConnection; public class Spider { public static void main(String[] args) throws IOException { //url连接/目标网站 String url = "http://www.dzs.so/Book/List"; //获取保存的位置 File saveFile = new File("D:\\IDEA_CODE_F\\com\\photo"); //由于这里获取到的url地址为相对地址,所以加上前缀 String headURL = "http://www.dzs.so/"; //指定url和超时时间 Document document = Jsoup.parse(new URL(url), 10000); //指定从那个元素中获取 Elements img = document.getElementsByTag("img"); for (Element element : img) { //从src属性中获取url连接 String src = element.attr("src"); //获取图片名 String title = element.attr("title").split("epub")[0]; //获得输入和输出流 URL url1 = new URL(headURL + src); URLConnection urlConnection = url1.openConnection(); InputStream in = urlConnection.getInputStream(); OutputStream out = new FileOutputStream(saveFile + File.separator + title + ".jpg"); int n; while ((n = in.read() )!= -1){ out.write(n); } in.close(); out.close(); } } }
运行结果图:
资料参考:
https://www.bilibili.com/video/BV1RU4y147eZ
https://www.bilibili.com/medialist/play/watchlater/BV19h41147AQ
这篇关于笔记---使用Java实现简单的爬虫功能爬取网站资源的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!
- 2024-11-26Mybatis官方生成器资料详解与应用教程
- 2024-11-26Mybatis一级缓存资料详解与实战教程
- 2024-11-26Mybatis一级缓存资料详解:新手快速入门
- 2024-11-26SpringBoot3+JDK17搭建后端资料详尽教程
- 2024-11-26Springboot单体架构搭建资料:新手入门教程
- 2024-11-26Springboot单体架构搭建资料详解与实战教程
- 2024-11-26Springboot框架资料:新手入门教程
- 2024-11-26Springboot企业级开发资料入门教程
- 2024-11-26SpringBoot企业级开发资料详解与实战教程
- 2024-11-26Springboot微服务资料:新手入门全攻略