如何使用JAVA爬取网站数据?

1. Jsoup介绍官网文档:https://jsoup.orgJsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。2. Jsoup快速入门获取网页标题String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; Document document = Jsoup.connect(url).get(); String title = document.select(“title”).text(); System.out.println(title);运行效果:手机 – 商品搜索 – 京东3. 网站数据分析3.1 分析网站的访问地址以京东商城为例,商品分页列表的url地址,需要带如下几个参数,因此,在发送http请求时,需要携带正确的参数。URL:https://search.jd.com/Search?keyword=手机&wq=手机&page=13.2 分析网站的页面结构通过浏览器的开发者工具,可以分析出页面中我们需要的html结构。
如何使用JAVA爬取网站数据?
可以看出,我们需要的商品数据,封装在一个id=J_goodsList的div标签中,我们可以方便的通过DOM解析出这块数据。4. 实战实现过程获取第1页的商品基本数据public static void main(String[] args) throws Exception { //第1页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }效果预览
如何使用JAVA爬取网站数据?
改造为分页获取public static void main(String[] args) throws Exception { //第N页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=” + i; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }

免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:如何使用JAVA爬取网站数据? https://www.dachanpin.com/a/cyfx/11691.html

(0)
上一篇 2023-05-12 03:35:20
下一篇 2023-05-12 03:36:26

相关推荐

  • 中关村企业8090后创业者超半

    责编:马申汇   2017年,北京市双创服务更加偏重“硬科技”,主要聚焦智能装备、新一代信息技术、新材料和生物医药等“高精尖”领域,双创服务平台孵化服务“硬科技”项目4500余项。    双创服务    中关村企业法人中,“80”、“90”后创业者占比超过半数,创业者年轻化成为趋势。北京市统计局昨天公布《2017年度北京市双创统计监测报告》,称20…

    创业分享 2023-05-15
    68
  • 如何自己创业

    前几天跟闺蜜聊天,她一个同学正在创业,每天在群里发信息。 仔细一问,貌似是一家做风投的副总,而她的公司总共就两人。 群里大部分人对这项目不感兴趣,对方劈头盖脸一顿批评:“现在大环境这么好,你们太不思进取了!” 我心想,幸好身边没有如此“上进”的人。我不想被骂,因我自诩是个不思进取的人哪。 近两年来,创业氛围真的是相当浓厚啊。 街上随意找10个人,8个人都在创…

    创业分享 2023-05-13
    81
  • 大学生创业如何挑选合伙人?创业导师团答疑解惑

    在大众创业、万众创新的浪潮下,还在象牙塔或者刚刚迈进社会的大学生们成为了创业大军中的重要组成部分。然而,创业并没有想象中那么简单。创业合伙人如何选择?股权结构如何划分?初创企业如何发展?这些都是困扰着大学生创业的问题。为此,湖南省大学生创新创业联盟进行了线下交流互动机制的初步探索,为创业学生和导师搭建了交流平台,帮扶大学生创业者在“双创”时代破浪前行。 近日…

    创业分享 2023-05-20
    61
  • 不一样的奥运冠军,何中东携李珊珊发力冠军创业项目

    何中东先生在世界冠军创业项目的道路上,除了得到世界冠军、奥运冠军们的热烈响应和支持外,还一直吸引着众多志同道合的伙伴。 编辑:GY653 正是在这种浓浓赤子情怀的指引下,李珊珊,这个多次为祖国争光、多次获得世界冠军的奇女子,其实在世界冠军创业项目中找到了自己人生前行的方向。 2013年她加入“世冠有限公司”,成为世冠有限公司的创始人之一。李珊珊及众多世界冠军…

    创业分享 2023-05-12
    65
  • 金奈集成墙板 营造百看不厌的视角盛宴 让很多人找到居家的感觉

      金奈集成墙板就是一个非常受欢迎的新型环保装饰建材,它源于欧洲前沿设计,引进流行设计元素,研发了全新概念的环保型材料,也是革命性的健康耗材,其安装方式相当的简单,能够实现拼接无死角,内部预留收缩缝,表面无缝对接的技术。 下一篇: 金奈集成墙板 营造百看不厌的视角盛宴 让很多人找到居家的感觉   金奈集成墙板富有质感的外形,高雅而不失端庄,除了具有墙纸、涂料…

    创业分享 2023-05-21
    118

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信