快速简易爬虫教程

由 avimitin 发布
文章尚未完成

前言

爬虫其实难度真的没那么大,本质上还是使用人家写好的库,写好的接口,然后你自己再一部分一部分调用而已。有时候写Python真的会怀疑自己是不是在编程:语言写起来像是在写英语作文,构造写起来就是调库,每个人都是调库工。。。

依赖

丧气话不说多。想要爬虫需要三个依赖:用来获取网页响应的requests;用来解析网页的Beautifulsoap;还有让Beautifulsoap用来解析的工具html5lib。用pip3安装即可。

pip3 install requests Beautifulsoap html5lib

上手

先来个小项目直接上手,这样学起来快一点:

requests

requests用来对指定url发起请求并返回网页内容,也就是我们平常浏览网页的第一步:在地址栏输入地址并访问。

requests的具体用法请看官网doc介绍,这里就讲几个等会会用到的方法和参数:

import requests

# 创建一个requests对象实例
r = requests.get('https://www.douban.com/')

像这样就成功向豆瓣发出请求了。

实战爬网页

打开豆瓣官网,一定要用Chrome或者edge或者任何2020年会用的浏览器,打开之后按下F12,查看网页源代码。

一般来说长这样

左侧就是网页,右侧就是我们需要用到的解析。

咕咕咕


2 条评论

  1. Rorical
    Rorical · 2020-08-11 19:45

    python爬虫还是scrapy框架好啊

    1. avimitin
      avimitin · 2020-08-11 19:50 作者

      确实,不过简单爬的话 BS4 够用了

发表评论