从0开始的python之路

网页档案如果我们想要用 Beautiful Soup 解析已经下载的 HTML 档案，可以直接将开启的档案交给 BeautifulSoup 处理

学习完了爬虫的技巧，让以后能够快速的整合资料，也可以搭配MySql来建置一个资料库。

范例:下载 Yahoo 头条新闻Beautiful Soup 本身只是一个 HTML 解析工具，它并不负责下载网页，所以通常我们在开发爬虫程式时，会搭配 requests 模组一同使用。

在这个范例中，我们打算开发一个爬虫程式，可从 Yahoo 的首页把头条新闻的标题与网址抓下来，在开发程式之前，我们通常都会先用浏览器的开发人员工具，观察一下目标网页的 HTML 结构，找出我们有兴趣的资料所在位置，并设计好萃取资料的规则以 Yahoo 头条新闻来说，我们可以发现网页中的头条新闻超连结都有 story-title 这个 CSS 的 class，所以我们只要找出网页中所有符合此条件的标籤，就可以把头条新闻的资讯抓出来了。