网页档案如果我们想要用 Beautiful Soup 解析已经下载的 HTML 档案,可以直接将开启的档案交给 BeautifulSoup 处理

学习完了爬虫的技巧,让以后能够快速的整合资料,也可以搭配MySql来建置一个资料库。

范例:下载 Yahoo 头条新闻Beautiful Soup 本身只是一个 HTML 解析工具,它并不负责下载网页,所以通常我们在开发爬虫程式时,会搭配 requests 模组一同使用。

在这个范例中,我们打算开发一个爬虫程式,可从 Yahoo 的首页把头条新闻的标题与网址抓下来,在开发程式之前,我们通常都会先用浏览器的开发人员工具,观察一下目标网页的 HTML 结构,找出我们有兴趣的资料所在位置,并设计好萃取资料的规则以 Yahoo 头条新闻来说,我们可以发现网页中的头条新闻超连结都有 story-title 这个 CSS 的 class,所以我们只要找出网页中所有符合此条件的标籤,就可以把头条新闻的资讯抓出来了。