如何使用JAVA爬取网站数据?

1. Jsoup介绍官网文档:https://jsoup.orgJsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。2. Jsoup快速入门获取网页标题String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; Document document = Jsoup.connect(url).get(); String title = document.select(“title”).text(); System.out.println(title);运行效果:手机 – 商品搜索 – 京东3. 网站数据分析3.1 分析网站的访问地址以京东商城为例,商品分页列表的url地址,需要带如下几个参数,因此,在发送http请求时,需要携带正确的参数。URL:https://search.jd.com/Search?keyword=手机&wq=手机&page=13.2 分析网站的页面结构通过浏览器的开发者工具,可以分析出页面中我们需要的html结构。
如何使用JAVA爬取网站数据?
可以看出,我们需要的商品数据,封装在一个id=J_goodsList的div标签中,我们可以方便的通过DOM解析出这块数据。4. 实战实现过程获取第1页的商品基本数据public static void main(String[] args) throws Exception { //第1页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }效果预览
如何使用JAVA爬取网站数据?
改造为分页获取public static void main(String[] args) throws Exception { //第N页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=” + i; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }

免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:如何使用JAVA爬取网站数据? https://www.dachanpin.com/a/cyfx/11691.html

(0)
上一篇 2023-05-12 03:35:20
下一篇 2023-05-12 03:36:26

相关推荐

  • 广西企业荣获中国创新创业大赛总决赛二等奖

    中国创新创业大赛广西赛区暨广西创新创业大赛始于2015年,本届大赛由自治区科技厅联合网信办、教育厅、工商联共同主办,自治区财政厅、共青团广西区委共同支持,广西联讯投资有限公司和广西海科加速科技企业孵化器有限公司联合承办,得到了各市科技局、高新区管委会、中国高新区科技金融信息服务平台、南宁产业投资集团有限责任公司及招商银行股份有限公司南宁分行等单位和部门的大力…

    创业分享 2023-05-12
    5400
  • 2019年度全国创新创业典型经验高校50强发布 安徽师范大学入选

      来源:芜湖日报   据悉,创业典型经验高校评选由教育部组织,旨在深入贯彻党中央、国务院关于做好大学生创新创业工作的重要决策部署,积极发挥典型引领作用,推动全国高校进一步深化创新创业教育改革,提升创业指导服务工作水平。(记者 余霏)   近日,教育部办公厅发布《关于公布2019年度全国创新创业典型经验高校名单的通知》,本年度全国共评选出50所高校,其中中央…

    创业分享 2023-05-12
    4400
  • 华安基金创业板50ETF荣获深交所2019年度“最受投资者欢迎的ETF”

      在随后召开的座谈会上,华安基金等数十家基金管理公司畅所欲言,为ETF的发展积极献言献策。与会代表表示,深交所为了ETF发展,从投资者教育、产品创新、机制改造等方面做了卓有成效的工作,这也是过去几年ETF的规模、品种和投资者人数大幅增加的重要原因。ETF在国内市场还有很大的发展空间,未来要更加积极地参与投资者教育,为市场提供更多满足投资者需求的ETF,真正…

    创业分享 2023-05-12
    6500
  • 海职院邀请专家及企业精英为学生传授创新创业经验

      南海网、南海网客户端海口9月13日消息(南海网记者马伟元)9月12日晚,海南职业技术学院邀请中国工程院院士、原华中农业大学副校长、家畜传染病学专家陈焕春,国务院政府特殊津贴专家喻子牛,海南职业技术学院学术委员会主任、海南省农村信用社联合社理事长、党委书记吴伟雄,围绕“励志青春、创业人生”作主题报告,为全校师生传授创新、创业、成功经验。   “听了三位老师…

    创业分享 2023-05-27
    6100
  • “吉祥物”胡玮炜:被三个男人吞噬的创业者

    2018年11月27日,从这一天开始,摩拜便完全不再属于胡玮炜了,虽然她现在还挂着法定代表人的虚衔,但是却正如一尊吉祥物一般,除了象征意义之外没有其余的价值。 不过如果我们换个角度来看,摩拜或许从来没有属于过胡玮炜。从创业的第一刻开始,这就是别人的生意,而她在这个过程中承担的角色,更像是一个无关轻重的陪跑者。 1 胡玮炜背后的三个男人 在胡玮炜的创业生涯中,…

    创业分享 2023-05-13
    7900

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信