如何使用JAVA爬取网站数据?

1. Jsoup介绍官网文档:https://jsoup.orgJsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。2. Jsoup快速入门获取网页标题String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; Document document = Jsoup.connect(url).get(); String title = document.select(“title”).text(); System.out.println(title);运行效果:手机 – 商品搜索 – 京东3. 网站数据分析3.1 分析网站的访问地址以京东商城为例,商品分页列表的url地址,需要带如下几个参数,因此,在发送http请求时,需要携带正确的参数。URL:https://search.jd.com/Search?keyword=手机&wq=手机&page=13.2 分析网站的页面结构通过浏览器的开发者工具,可以分析出页面中我们需要的html结构。
如何使用JAVA爬取网站数据?
可以看出,我们需要的商品数据,封装在一个id=J_goodsList的div标签中,我们可以方便的通过DOM解析出这块数据。4. 实战实现过程获取第1页的商品基本数据public static void main(String[] args) throws Exception { //第1页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=1”; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }效果预览
如何使用JAVA爬取网站数据?
改造为分页获取public static void main(String[] args) throws Exception { //第N页地址 String url = “https://search.jd.com/Search?keyword=手机&wq=手机&page=” + i; //发送http请求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,获取所有带有data-sku属性的li标签 Elements lis = document.select(“div[id=J_goodsList] li[data-sku]”); lis.forEach( li -> { //获取商品sku String sku = li.attr(“data-sku”); //获取商品name String name = li.select(“div[class=p-name p-name-type-2] a em”).text(); //获取商品图片地址 String img = li.select(“div[class=p-img] a img[data-lazy-img]”).attr(“data-lazy-img”); System.out.println(String.format(“%s, %s, %s”, sku, name, img)); } ); }

免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:如何使用JAVA爬取网站数据? https://www.dachanpin.com/a/cyfx/11691.html

(0)
上一篇 2023-05-12 03:35:20
下一篇 2023-05-12 03:36:26

相关推荐

  • 【资讯·9月27日】格尔木市两企业在全省创新创业大赛上摘金夺铜

    近年来,市残联始终坚持“代表、服务、管理”的职能,深入开展“全面建成小康社会,残疾人一个也不能少”主题活动,广泛走访残疾人托养中心、特殊教育学校、贫困残疾人家庭。对全市0—6岁各类残疾儿童学前教育全面进行登记筛查、落实学前助学金,去年为195名在校残疾中小学生发放助学补助22.36万元;为169名残疾人大学生及残疾人子女大学生发放助学补助金28.62万元,实…

    2023-05-12
    159
  • 餐饮创业经验分享:不要被琐事缠住手脚

        随着人们生活水平的提高,餐饮行业无疑是创业的首选项目之一,但是我们也知道,大到五星级的大酒店,小到路边的大排档,餐饮行业也正趋于饱和,那么如果想要这一行业中立足脚跟该如何做呢?     一、当你找到一个好雇员,告诉他你认为他是一个优秀的雇员。   &n…

    创业分享 2023-05-13
    124
  • 金九银十“丰收季”,必普专家带你攻略创业“第一桶金”

      新闻线索报料通道:应用市场下载“齐鲁壹点”APP,或搜索微信小程序“齐鲁壹点”,全省600位记者在线等你来报料!   9月28日,在“金九银十创业扶持展览会”举办之际,必普电子商务集团股份有限公司(以下简称:必普集团)将在齐鲁壹点发起美食专题直播。届时,齐鲁晚报齐鲁壹点主持人将对话业内专家,了解必普集团的加盟项目和全链条服务体系以及本次“金九银十创业扶持…

    创业分享 2023-05-10
    62
  • 机器学习中入门级必学的算法有哪些?

    K-近邻算法 什么是k-近邻算法? 就是根据你的邻居推断出你的类别 概念: K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN算法是相对比较容易理解的算法 定义 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。 来源:KNN算法最…

    2023-05-12
    81
  • 犀牛·云财神双轨制践行帮助客户成功:产品标准化+咨询服务标准化

    创业路途上,相信创业者们都遇到过很多阻碍,那些繁杂的公司注册文件、令人眼花缭乱的经营许可证,还有产品商标的驳回,让创业者在创业前期就身心俱疲。同时,有一部分人甚至不愿意选择创业服务的代理公司。如此结果,除了创业服务市场的不完善,也是因为能为创业者提供专业、标准的创业服务公司并不多。面对当前市场中创业者的种种困境,犀牛·云财神是如何不断前行,为客户插上成功翅膀…

    创业分享 2023-05-20
    86

发表回复

登录后才能评论

联系我们

在线咨询: QQ交谈

邮件:362039258@qq.com

工作时间:周一至周五,9:30-16:30,节假日休息