怎样使用requests模块抓取网页?

爬取网页其实就是通过URL获取网页信息,网页信息的实质是一段添加了JavaScript和CSS的HTML代码。Python提供了一个抓取网页信息的第三方模块requests,requests模块自称“HTTP for Humans”,直译过来的意思是专门为人类而设计的HTTP模块,该模块支持发送请求,也支持获取响应。

1.发送请求

requests模块提供了很多发送HTTP请求的函数,常用的请求函数具体如表10-1所示。

表10-1 requests模块的请求函数

怎样使用requests模块抓取网页?

2.获取响应

requests模块提供的Response 类对象用于动态地响应客户端的请求,控制发送给用户的信息,并且将动态地生成响应,包括状态码、网页的内容等。接下来通过一张表来列举Response类可以获取到的信息,如表10-2所示。

表10-2 Response 类的常用属性

怎样使用requests模块抓取网页?

接下来通过一个案例来演示如何使用requests模块抓取百度网页,具体代码如下:

# 01 requests baidu import requests base_url = http://www.baidu.com #发送GET请求 res = requests.get (base_url) print(“响应状态码:{}”.format(res.status_code)) #获取响应状态码 print“编码方式:{}”.format(res.encoding)) #获取响应内容的编码方式 res.encoding = utf-8 #更新响应内容的编码方式为UIE-8 print“网页源代码:n{}”.format(res.text)) #获取响应内容

以上代码中,第2行使用import导入了requests模块;第3~4行代码根据URL向服务器发送了一个GET请求,并使用变量res接收服务器返回的响应内容;第5~6行代码打印了响应内容的状态码和编码方式;第7行将响应内容的编码方式更改为“utf-8”;第8行代码打印了响应内容。运行程序,程序的输出结果如下:

响应状态码:200 编码方式:ISO-8859-1 网页源代码: <!DOCTYPE html> <!–-STATUS OK–><html> <head><meta http-equiv=content-type content=text/html; charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content= always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic. com/r/www/cache/bdorz/baidu.min.css><title>百度一下,你就知道</title></head> <body link=#0000cc>…省略N行…</body></html>

值得一提的是,使用requests模块爬取网页时,可能会因为没有连接网络、服务器连接失败等原因导致产生各种异常,最常见的两个异常是URLError和HTTPError,这些网络异常可以使用 try…except 语句捕获与处理。

免责声明:文章内容来自互联网,本站仅作为分享,不对其真实性负责,如有侵权等情况,请与本站联系删除。
转载请注明出处:怎样使用requests模块抓取网页? https://www.dachanpin.com/a/cyfx/10871.html

(0)
上一篇 2023-05-12 02:26:42
下一篇 2023-05-12 02:27:46

相关推荐

  • 创业板指涨近2% 个股高低切换中如何布局?机构:这个方向有望成

      今日三大股指受外围影响全线高开,如期开启反弹走势,可以说是市场普遍预期,伴随着利好兑现完毕,板块个股逐步进行高低切换!市场预期一致形成合力比较容易,但是盘面上资金后期出现分歧,短暂调整亦属正常。盘面来看,市场资金明显更偏向基建方向,传统基建中大部分是权重股所以其空间和持续性较差,所以接下来具体方向是新基建方向,一旦新基建概念市场形成做多共识,有可能成为市…

    2023-05-11
    50
  • 浙商少帅分享创业经验

    本报杭州9月23日讯 (记者 袁华明) 9月23日,由《浙商》杂志等发起主办的“2015中国民企少帅大会”在杭州召开,大会吸引了超过1500名青年翘楚以及重量级学者、境内外企业家参加。 这次出现在大会的“少帅”们,有的是才华出众的艺术家和赛车手,有29岁便拥有自己上市公司的霸道总裁,甚至还有慈善公益项目的创始人。浙商群体走过了30年,许多企业处在新老接替的关…

    创业分享 2023-05-16
    58
  • 自媒体内容创业红宝书:朋友圈是读者关注公众号的第一渠道

      1、自媒体读者的关注列表有哪些特点?   对自媒体读者而言,信息丰富的同时,也带来许多问题,比如资讯真假难辨,内容质量良莠不齐。在渐成红海的自媒体供给中,读者如何分配他们的注意力?   2、什么类型的公众号更吸引读者置顶?   那还要不要做内容创业?   点开公众号的页面,一片未读信息的红点大概是很多人习以为常的现象——然而这并不妨碍我们从朋友圈或者其他…

    创业分享 2023-05-29
    62
  • 创业黑马涨停资金大换手

    摘要 【创业黑马涨停资金大换手】上周五,小幅低开后的创业黑马,早盘便以超强走势封上涨停。其间虽有打开,但截至收盘,创业黑马仍收于45.33元,上涨10.00%,全天成交1.89亿元,换手率为24.91%。数据显示,上周五该股净流入主力资金2866万元。(中国证券报)   上周五,小幅低开后的厦门厦禾路席位。卖出该股前五的席位也均来自营业部席位。   今年初以…

    2023-05-19
    96
  • 建强流动“党员之家” 打造“双向带动”堡垒 —–冶溪镇驻泉州流动党支部充分发挥战

    冶溪镇驻泉州流动党支部成立于2004年,属我县成立最早的驻外流动党支部。历经12年发展,支部不断创新工作机制,各项活动开展有声有色,在构建流动党员之家、搭建桥梁纽带平台等方面发挥了积极作用。   一是创新管理,增强凝聚力和向心力。支部班子分工明确,职责清晰,通过定期组织生活、党课教育、节假日集体座谈交流等活动,不断提升党员素质,使流动党员产生强烈的归属感;同…

    创业分享 2023-06-01
    60

发表回复

登录后才能评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信