前言

在朋友的推荐下开始使用PTT,个人最常逛的就是表特版,因为希望能更快速的过滤出想要看的文章,所以试着爬虫想要看的文章,幸运的是PTT爬虫友善,且也有许多文章可以参考。

PTT表特版

PTT就是充满着乡民的那个PTT,给人的印象比较多是充满着暴戾之气,不过在表特版中,不太常有纷争、笔战,更多的是纯欣赏和赞美,是让眼睛和心情放鬆的好所在。

文章格式

网址是 https://www.ptt.cc/bbs/Beauty/index.html ,而因为有规定文章的格式,PTT很适合用来练习爬虫。例如像文章在结束前会有个 "--",所以撷取 "--" 前的图片就不会撷取到留言区的图片 不过有时候在文章结束前会有图片中本人的社群连结,所以要加入黑名单过滤几个常见的平台

目标文章

目标是昨天的文章因为今天会不会再有新增的文章不知道,但是昨天总不会有新文章了吧;锁定分类不含[神人]和[帅哥],并且标题中不包含 "Cosplay",且没有被删除的文章 , personal reference , 因为比较少看动漫所以看不太懂 Coser 扮的是谁。

程式码

python version 3.13,会使用到requests和bs4, 要先

pip install requests bs4

在网址中选择昨天的文章,并取出文章中的图片,程式码参考了版上其他文章例如: 使用 requests & bs4 爬虫、确认已成年的 cookie 、翻页 ...等等,就不一一列举了。

# import library
import requests
from bs4 import BeautifulSoup as BS
import time #用来time.sleep()
from datetime import datetime, timedelta

def Main():
# 设定URL
base_url = "https://www.ptt.cc"
sub_url = f"/bbs/Beauty/index.html"
cookies = {\'over18\': \'1\'}
session = requests.Session()

# 使用config中的函数获取昨天日期
yesterday = yesterday = datetime.now() - timedelta(days=1)
yesterday_str = f"{yesterday.month}/{yesterday.day:02d}"

# 初始化变数用来记录爬取的文章和总爬取的页数
data = list()
page_count = 0
max_page = 8

while page_count < max_page: # 设定最多爬几页
full_url = f"{base_url}{sub_url}" # 组合URL

response = session.get(full_url, cookies=cookies) # 设定网站的cookie确认成年
bs = BS(response.text, "html.parser") # BeautifulSoup解析网页

# 找出所有文章列表项目
articles = bs.find_all("div", class_="r-ent")
# 文章列表中找出昨天的文章
for article in articles:
date = article.find("div", class_="date").text.strip()
title_div = article.find("div", class_="title")

if date == yesterday_str: # 找到今天的文章
title = title_div.text.strip()
if "Cosplay" in title or "帅哥" in title or "神人" in title:
continue
parsed_title = SplitTitle(title)
if parsed_title is None:
continue

title_link = title_div.find(\'a\') # 找到文章连结
if title_link:
post_url = base_url + title_link.get(\'href\')
images = ExtractImages(post_url, cookies, session)
parsed_title["Images"] = images

if parsed_title:
data.append(parsed_title)

# 找下一页的连结
next_page = FindNextPage(bs)
if not next_page: # 如果没有下一页就结束
break

sub_url = next_page # 更新 sub_url 为下一页的网址
page_count += 1

image_urls = []
for article in data:
if "Images" in article:
image_urls.extend(article["Images"])
return image_urls

def SplitTitle(title: str):
if "本文已被删除" in title:
return
if "[" not in title:
return
if "]" not in title:
return

r = title.index("]")

title = title[r + 1 :].strip()

return {"Title": title}

def FindNextPage(bs):
links = bs.find_all("a", attrs={"class": "btn wide"})
for link in links:
if link.text == "‹ 上页":
return link.attrs["href"]

# 设定黑名单,所有包含这些字串的网址都会被过滤掉
BLACKLIST = [
"instagram",
"facebook",
"tiktok",
"https://x.com/",
"twitter",
"youtube",
"https://youtu"
]

def ExtractImages(url, cookies, session):
try:
web = session.get(url, cookies=cookies)
time.sleep(1)

if web.status_code == 429:
time.sleep(int(web.headers.get(\'Retry-After\', 60)))
web = session.get(url, cookies=cookies)

soup = BS(web.text, "html.parser")
main_content = soup.find(\'div\', id=\'main-content\')

links = []
for element in main_content.contents: # 遍历所有子节点 (包括 #text)
if isinstance(element, str) and element.strip() == "--":
break # 遇到 "--" 则停止

if element.name == \'a\' and \'href\' in element.attrs:
href = element[\'href\']

# 黑名单过滤: 如果网址包含黑名单中的关键字,就跳过
if any(blacklisted in href for blacklisted in BLACKLIST):
continue

links.append(href)

return links

except requests.exceptions.TooManyRedirects:
print(f"重定向过多: {url}")
return [] # 返回空列表,表示没有获取到图片

if __name__ == "__main__":
urls = Main()
print(f"找到{len(urls)} 张图片")

结语

这段 Main() 函式回传昨天表特版上目标文章中图片url的阵列,可以再结合之前有关 Notion 的发文 - 使用Python Notion API汇入新页面 ,把图片汇入Notion中,并使用 Notion 的图库及日历的浏览模式来管理图片。