如何使用JAVA爬取网站数据?

1. Jsoup介绍官网文档:https://jsoup.orgJsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。2. Jsoup快速入门获取网页标题String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; Document document = Jsoup.connect(url).get(); String title = document.select(“title”).text(); System.out.println(title);运行效果:手机 – 商品搜索 – 京东3. 网站数据分析3.1 分析网站的访问地址以京东商城为例,商品分页列表的url地址,需要带如下几个参数,因此,在发送http请求时,需要携带正确的参数。URL:https://search.jd.com/Search?keyword=手机&wq=手机&page=13.2 分析网站的页面结构通过浏览器的开发者工具,可以分析出页面中我们需要的html结构。
如何使用JAVA爬取网站数据?
可以看出,我们需要的商品数据,封装在一个id=J_goodsList的div标签中,我们可以方便的通过DOM解析出这块数据。4. 实战实现过程获取第1页的商品基本数据public static void main(String[] args) throws Exception { //第1页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }效果预览
如何使用JAVA爬取网站数据?
改造为分页获取public static void main(String[] args) throws Exception { //第N页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=” + i; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }

免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:如何使用JAVA爬取网站数据? https://www.dachanpin.com/a/cyfx/11691.html

(0)
Java教程:NIO的基本用法
上一篇 2023-05-12 03:35:20
Java接口幂等性设计场景解决方案v1.0
下一篇 2023-05-12 03:36:26

相关推荐

  • 忽米网助力重庆兄弟帮创业开火锅店

    2018年3月,王殷和几个经常聚在一起吃火锅的兄弟一拍即合,决定开一家火锅店。决定之后说干就干,从找门店,装修,文化定位,采购,炒料,墩子(指火锅店的刀工)……开火锅店的整个过程都亲自参与。 火锅店一直未注册商标,直到今年8月重庆举办的第一届世界智能博览会上,王殷逛展期间看到了忽米网的介绍,了解到忽米网在市场投放领域,汇聚了众多知名服务业企业、专家顾问,为平…

    创业分享 2023-05-15
    208
  • 大众创业的浙江故事:残疾人投身“双创”成新亮色

      在杭州,仅陆晓英所在的富阳区,便已开设189家残疾人电子服务站。在萧山区靖江街道,通过电商孵化基地的打造,使得25户残疾人家庭在家开起了网店。在丽水,去年以来已有630名残疾人从事电子商务,其中该市电子商务孵化中心入驻孵化43人,孵化成功率达58%。在台州市天台县,目前已有近百名残疾人通过残疾人创业园加入到网络创业潮流中。   在浙江颇有名气的孔黎翔已创…

    创业分享 2023-05-30
    133
  • 陇东学院推进大学生创新创业教育

    版权与免责声明 1、凡注有“每日甘肃网讯”或电头为“每日甘肃网讯[XXX报]”的稿件,均为每日甘肃网及甘肃日报报业集团版权稿件,未经许可不得转载或镜像;授权转载必须注明来源为“每日甘肃网”,并保留“每日甘肃网”电头。 2、凡注明为其它来源的信息,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。 (责任编辑:admin) 2…

    创业分享 2023-05-28
    125
  • 三部委支持打造特色载体推动中小企业创新创业升级工作

    关于支持打造特色载体推动中小企业创新创业升级工作的通知 财建〔2018〕408号   各省、自治区、直辖市、计划单列市财政厅(局)、中小企业主管部门、科技厅(局),新疆生产建设兵团财政局、工信委、科技局:   党的十九大报告指出,创新是引领发展的第一动力,要加强对中小企业创新的支持;中央经济工作会议明确提出打造“双创”升级版;政府工作报告进一步强调促进大众创…

    创业分享 2023-05-16
    125
  • 云南出台新规促进以创业带动就业

    新华社昆明10月20日电(记者 林碧锋)云南省日前印发《关于做好当前和今后一段时期就业创业工作的实施意见》,提出将通过加大减税降费力度、完善创业担保贷款扶持政策、加大创业补贴资金支持力度等举措,促进以创业带动就业。 云南省人社厅副厅长石丽康介绍,意见明确,对高校毕业生、就业困难人员等群体就业创业,按照规定以最高上限比例扣减增值税、城市建设维护税、教育费附加、…

    创业分享 2023-05-21
    168

发表回复

登录后才能评论

联系我们

在线咨询: QQ交谈

邮件:362039258@qq.com

工作时间:周一至周五,9:30-16:30,节假日休息