Java爬虫小项目

作者: ML李嘉图

爬取数据:(获取请求返回的页面信息,筛选出们想要的数据就可以了!)

项目地址https://gitee.com/zwtgit/java-reptile

导入依赖,写一个工具类

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

写对应的实体类

package com.zwt.utils;
import com.zwt.pojo.Content;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.ArrayList;
import java.util.List;
public class HtmlParseUtil {
    public static void main(String[] args) throws IOException {
        //test
        new HtmlParseUtil().parseJD("贝贝").forEach(System.out::println);
    }
    public List<Content> parseJD(String keywords) throws IOException {
        //获得请求  https://search.jd.com/Search?keyword=java
        //联网 ajax需要模拟浏览器才可以获取
        String url = "https://search.jd.com/Search?keyword=" + keywords;
        //解析网页,返回的就是Document对象
        Document document = Jsoup.parse(new URL(url), 30000);
        //所有JS中的方法这里都可以使用
        Element element = document.getElementById("J_goodsList");
//        System.out.println(element.html());
        ArrayList<Content> goodsList = new ArrayList<>();
        //找到所有的列元素
        Elements elements = element.getElementsByTag("li");
        //这里的el就是每一个列标签
        for (Element el : elements) {
            //关于这种图片特别多的网站,都是后面加载的
            String img = el.getElementsByTag("img").eq(0).attr("src");
            String price = el.getElementsByClass("p-price").eq(0).text();
            String title = el.getElementsByClass("p-name").eq(0).text();

//            System.out.println("爬取京东的数据结果:");
//            System.out.println("==========================================");
//            System.out.println(img);
//            System.out.println(price);
//            System.out.println(title);
            Content content = new Content();
            content.setTitle(title);
            content.setPrice(price);
            content.setImg(img);
            goodsList.add(content);
        }
        return goodsList;
    }
}

封装工具类

package com.zwt.pojo;
import lombok.AllArgsConstructor;
import lombok.Data;
import lombok.NoArgsConstructor;
@Data
@AllArgsConstructor
@NoArgsConstructor
public class Content {
    private String title;
    private String img;
    private String price;
    //属性可以自己添加
}

原文创作:ML李嘉图

原文链接:https://www.cnblogs.com/zwtblog/p/15216808.html

文章列表

更多推荐

更多
  • Java编程思想-9.2 异常的捕获 9.2.1 try块,9.2.2 异常控制器,9.2.3 异常规范,9.2.4 捕获所有异常,9.2.5 重新“抛”出异常, 若某个方法产生一个异常,必须保证该异常能被捕获,并获得正确对待。对于Java的异常控制机制,它的一个好处
  • Java编程思想-9.3 标准Java异常 9.3.1 RuntimeException的特殊情况,Java包含了一个名为`Throwable`的类,它对可以作为异常“抛”出的所有东西进行了描述。`Throwable`对象有两种常规类型(亦即“从`Throwable`继
  • Java编程思想-第8章 对象的容纳 “如果一个程序只含有数量固定的对象,而且已知它们的存在时间,那么这个程序可以说是相当简单的。”通常,我们的程序需要根据程序运行时才知道的一些标准创建新对象。若非程序正式运行,否则我们根本不知道自己到底需要多少数量的对象,甚
  • Java编程思想-9.1 基本异常 9.1.1 异常参数, “异常条件”表示在出现什么问题的时候应中止方法或作用域的继续。为了将异常条件与普通问题区分开,异常条件是非常重要的一个因素。在普通问题的情况下,我们在当地已拥有足够的信息,可在某种程度上解决碰到的问题。而在
  • Java编程思想-9.5 异常的限制 覆盖一个方法时,只能产生已在方法的基类版本中定义的异常。这是一个重要的限制,因为它意味着与基类协同工作的代码也会自动应用于从基类派生的任何对象(当然,这属于基本的OOP概念),其中包括异常。下面这个例子演示了强加在异常身上
  • Java编程思想-9.4 创建自己的异常 并不一定非要使用Java异常。这一点必须掌握,因为经常都需要创建自己的异常,以便指出自己的库可能生成的一个特殊错误——但创建Java分级结构的时候,这个错误是无法预知的。为创建自己的异常类,必须从一个现有的异常类型继承——最
  • Java编程思想-8.8 总结 下面复习一下由标准Java(1.0和1.1)库提供的集合(`BitSet`未包括在这里,因为它更象一种负有特殊使命的类):(1) 数组包含了对象的数字化索引。它容纳的是一种已知类型的对象,所以在查找一个对象时,不必对结果进行
  • Java编程思想-8.9 练习 (1) 新建一个名为`Gerbil`的类,在构造器中初始化一个`int gerbilNumber`(类似本章的`Mouse`例子)。为其写一个名为`hop()`的方法,用它打印出符合`hop()`条件的`Gerbil`的编号。建
  • Java编程思想-8.6 通用集合库 通过本章的学习,大家已知道标准Java库提供了一些特别有用的集合,但距完整意义的集合尚远。除此之外,象排序这样的算法根本没有提供支持。C++出色的一个地方就是它的库,特别是“标准模板库”(STL)提供了一套相当完整的集合,以及
  • Java编程思想-9.10 练习 (1) 用`main()`创建一个类,令其抛出`try`块内的`Exception`类的一个对象。为`Exception`的构造器赋予一个字符串参数。在`catch`从句内捕获异常,并打印出字符串参数。添加一个`finally`
  • 近期文章

    更多
    文章目录

      推荐作者

      更多