怎样使用requests模块抓取网页?

爬取网页其实就是通过URL获取网页信息,网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译过来的意思是专门为人类而设计的HTTP模块,该模块支持发送请求,也支持获取响应。

1.发送请求

requests模块提供了很多发送HTTP请求的函数,常用的请求函数具体如表10-1所示。

表10-1 requests模块的请求函数

怎样使用requests模块抓取网页?

2.获取响应

requests模块提供的Response 类对象用于动态地响应客户端的请求,控制发送给用户的信息,并且将动态地生成响应,包括状态码、网页的内容等。接下来通过一张表来列举Response类可以获取到的信息,如表10-2所示。

表10-2 Response 类的常用属性

怎样使用requests模块抓取网页?

接下来通过一个案例来演示如何使用requests模块抓取百度网页,具体代码如下:

# 01 requests baidu import requests base_url = http://www.baidu.com #发送GET请求 res = requests.get (base_url) print(“响应状态码:{}”.format(res.status_code)) #获取响应状态码 print“编码方式:{}”.format(res.encoding)) #获取响应内容的编码方式 res.encoding = utf-8 #更新响应内容的编码方式为UIE-8 print“网页源代码:n{}”.format(res.text)) #获取响应内容

以上代码中,第2行使用import导入了requests模块;第3~4行代码根据URL向服务器发送了一个GET请求,并使用变量res接收服务器返回的响应内容;第5~6行代码打印了响应内容的状态码和编码方式;第7行将响应内容的编码方式更改为“utf-8”;第8行代码打印了响应内容。运行程序,程序的输出结果如下:

响应状态码:200 编码方式:ISO-8859-1 网页源代码: <!DOCTYPE html> <!–-STATUS OK–><html> <head><meta http-equiv=content-type content=text/html; charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content= always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic. com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head> <body link=#0000cc>…省略N行…</body></html>

值得一提的是,使用requests模块爬取网页时,可能会因为没有连接网络、服务器连接失败等原因导致产生各种异常,最常见的两个异常是URLError和HTTPError,这些网络异常可以使用 try…except 语句捕获与处理。

免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:怎样使用requests模块抓取网页? https://www.dachanpin.com/a/cyfx/10871.html

(0)
上一篇 2023-05-12 02:26:42
下一篇 2023-05-12 02:27:46

相关推荐

  • 四大业务支撑的搜狗,上市后将如何前行?

      开抢了!双11创业者优选服务!   据美国财经网站IPOScoop上信息显示,搜狗将于美国东部时间11月9日在纽交所挂牌交易,以每股11美元至13美元的价格发行4500万股美国存托股票(ADS),拟融资约5.4亿美元。对搜狗来说,选择此时上市,主要是想借助上市来帮助其在主要业务上开拓更为有利的局面。   搜狗的上市底气来源于四大业务   既然要上市,就要…

    创业分享 2023-05-21
    70
  • 家门口就业,路如何越走越宽——来自打工大县和用工大市的思考

    城镇登记失业人员、高校毕业生、返乡创业的农民工等群体自主创业的,可在创业地申请创业担保贷款并享受贴息政策;参加各类技能培训的农民工,不仅可以享受200元至2000元的补贴,参加技能鉴定并考核合格的,还可享受技能鉴定补贴。 一年之计在于春。连日来,湖北日报多路记者深入开春用工市场一线,从打工大县与用工大市的对比视角中,触摸市场,感受变化。诸多新现象,诸多新问题…

    2023-05-13
    83
  • 沪指涨幅收窄 创业板指高开低走

    新浪声明:此消息系转载自新浪合作媒体,新浪网登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。 责任编辑:马秋菊 SF186   3月20日早盘,三大股指集体高开,随后震荡下挫,临近午间收盘,创业板指翻绿。 热点栏目   中国证券网   盘面上看,行业板块涨多跌少,其中建筑材料等板块…

    2023-05-11
    83
  • 坚守诚信之道:创业历程十四年,他的公司累积缴税六千多万

    5月22日,东兴区甜城国际酒店内,54岁的邓安明着一身黑色T恤衫,搭配一条洗得发旧的牛仔裤,出现在记者面前,像个邻家大叔,朴实亲切。他头发已有些花白,依旧矫健的步伐里,透露出他不凡的风采。 从军人到民营企业家,邓安明无疑是成功的。在东兴区军休所,他的创业故事被军休干部们津津乐道,成功之后的邓安明没有忘记践行社会责任。 邓安明 35年前,19岁的邓安明怀着无比…

    2023-05-13
    52
  • 接轨上海 嘉兴科技城人才新政成“磁石”

      4月初,省政府同意嘉兴设立浙江省全面接轨上海示范区,标志着嘉兴要全面接轨上海,融入改革发展的浪潮。去年5月完成扩容升级的嘉兴科技城,成为接轨上海的先行区。   4月21日,上海市浦东新区侨联青委会(以下简称“浦东侨青委”)来到嘉兴科技城参观考察,20多名上海的青年企业家来到科技城寻找合作共赢的机会。   浦东侨青委的企业家代表首先来到敏实集团,作为嘉兴市…

    创业分享 2023-05-24
    74

发表回复

登录后才能评论

联系我们

在线咨询: QQ交谈

邮件:362039258@qq.com

工作时间:周一至周五,9:30-16:30,节假日休息