各位好
最近小弟要练习python想说拿学校的教师资讯来作题目
先订一个目标,先针一个系所,有明确网址的来作爬虫https://www.im.tku.edu.tw/%e5%b0%88%e4%bb%bb%e6%95%99%e5%b8%ab/
借由爬虫解析出网页中的教师资讯:姓名、职称、专长、电子信箱
然而分析出来的结果,只有抓到部分的资讯有一些没有解析出来,就先作略过想请教一下是有什么问题导致无法解析的呢?(初学python,菜味重…)要如何调整、优化,使之可以爬完整个系所的教师资讯还请版上的大大指点一下,谢谢
后续还会想说扩大到整个学校(还没有方向要如何取得所有科系的师资网址…最后是找全台各大专院校的~(感觉很作梦XD
以下是小弟的程式码,还请指点,谢谢
import requests
from bs4 import BeautifulSoup
import csv
# 目标网址
url = "https://www.im.tku.edu.tw/%e5%b0%88%e4%bb%bb%e6%95%99%e5%b8%ab/"
# 发送 GET 请求
response = requests.get(url)
# 确认请求成功
if response.status_code == 200:
soup = BeautifulSoup(response.text, \'html.parser\')
# 选取包含教师资讯的部分
faculty_sections = soup.select(".elementor-column")
# 储存结果的清单
faculty_data = []
for section in faculty_sections:
try:
print(section)
# 解析教师姓名、职称、专长、电子信箱、研究室位置
print("=====s======")
name = section.select_one(".elementor-heading-title span").text.strip()
print(name)
title = section.select_one(".elementor-widget-text-editor b").text.strip()
print(title)
expertise = section.find_all("b")[1].text.strip()
print(expertise)
email = section.select_one("a[href^=\'mailto\']").text.strip()
print(email)
print("=====e======")
# 将资料加入结果清单
faculty_data.append({
"姓名": name,
"职称": title,
"专长": expertise,
"电子信箱": email
})
except Exception as e:
print(f"解析失败: {e}")
# 将资料写入 CSV 档案
with open(\'faculty_data.csv\', \'w\', newline=\'\', encoding=\'utf-8\') as csvfile:
fieldnames = ["姓名", "职称", "专长", "电子信箱"]
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
# 写入栏位名称
writer.writeheader()
# 写入资料
for faculty in faculty_data:
writer.writerow(faculty)
print("资料已成功写入 faculty_data.csv")
else:
print(f"无法存取网站: {url}")
2 个回答
2
haward79
iT邦研究生 1 级 ‧ 2025-01-08 12:17:39
最佳解答
试试看这个吧!
元素筛选是关键
import requests
from bs4 import BeautifulSoup
import csv
# 目标网址
url = "https://www.im.tku.edu.tw/%e5%b0%88%e4%bb%bb%e6%95%99%e5%b8%ab/"
# 发送 GET 请求
response = requests.get(url)
# 确认请求成功
if response.status_code == 200:
soup = BeautifulSoup(response.text, \'html.parser\')
# 选取教师姓名(较有唯一性)
faculty_headings = soup.select(".elementor-widget-heading")
# 储存结果的清单
faculty_data = []
for heading in faculty_headings:
# 教师姓名
name = heading.get_text(strip=True)
# 先到父元件(因为其他栏位在父元件下),再选其他栏位
items = heading.parent.select(\'p>span\')
try:
# 解析职称、专长、电子信箱
title = items[0].get_text(strip=True)
expertise = items[1].get_text(strip=True)
email = items[2].get_text(strip=True)
# 将资料加入结果清单
faculty_data.append({
"姓名": name,
"职称": title,
"专长": expertise,
"电子信箱": email
})
except Exception as e:
print(f"解析失败: {e}")
print(faculty_data)
# 将资料写入 CSV 档案
else:
print(f"无法存取网站: {url}")
0
zivzhong
iT邦研究生 4 级 ‧ 2025-01-07 15:43:21
附个参考资料给你之后看看:
https://pala.tw/python-web-crawler/