各位好

最近小弟要练习python想说拿学校的教师资讯来作题目

先订一个目标,先针一个系所,有明确网址的来作爬虫https://www.im.tku.edu.tw/%e5%b0%88%e4%bb%bb%e6%95%99%e5%b8%ab/

借由爬虫解析出网页中的教师资讯:姓名、职称、专长、电子信箱

然而分析出来的结果,只有抓到部分的资讯有一些没有解析出来,就先作略过想请教一下是有什么问题导致无法解析的呢?(初学python,菜味重…)要如何调整、优化,使之可以爬完整个系所的教师资讯还请版上的大大指点一下,谢谢

后续还会想说扩大到整个学校(还没有方向要如何取得所有科系的师资网址…最后是找全台各大专院校的~(感觉很作梦XD

以下是小弟的程式码,还请指点,谢谢

import requests
from bs4 import BeautifulSoup
import csv

# 目标网址
url = "https://www.im.tku.edu.tw/%e5%b0%88%e4%bb%bb%e6%95%99%e5%b8%ab/"

# 发送 GET 请求
response = requests.get(url)

# 确认请求成功
if response.status_code == 200:
soup = BeautifulSoup(response.text, \'html.parser\')

# 选取包含教师资讯的部分
faculty_sections = soup.select(".elementor-column")

# 储存结果的清单
faculty_data = []

for section in faculty_sections:
try:
print(section)
# 解析教师姓名、职称、专长、电子信箱、研究室位置
print("=====s======")
name = section.select_one(".elementor-heading-title span").text.strip()
print(name)
title = section.select_one(".elementor-widget-text-editor b").text.strip()
print(title)
expertise = section.find_all("b")[1].text.strip()
print(expertise)
email = section.select_one("a[href^=\'mailto\']").text.strip()
print(email)
print("=====e======")

# 将资料加入结果清单
faculty_data.append({
"姓名": name,
"职称": title,
"专长": expertise,
"电子信箱": email
})
except Exception as e:
print(f"解析失败: {e}")

# 将资料写入 CSV 档案
with open(\'faculty_data.csv\', \'w\', newline=\'\', encoding=\'utf-8\') as csvfile:
fieldnames = ["姓名", "职称", "专长", "电子信箱"]
writer = csv.DictWriter(csvfile, fieldnames=fieldnames)

# 写入栏位名称
writer.writeheader()

# 写入资料
for faculty in faculty_data:
writer.writerow(faculty)

print("资料已成功写入 faculty_data.csv")
else:
print(f"无法存取网站: {url}")

2 个回答

2

haward79

iT邦研究生 1 级 ‧ 2025-01-08 12:17:39

最佳解答

试试看这个吧!
元素筛选是关键

import requests
from bs4 import BeautifulSoup
import csv

# 目标网址
url = "https://www.im.tku.edu.tw/%e5%b0%88%e4%bb%bb%e6%95%99%e5%b8%ab/"

# 发送 GET 请求
response = requests.get(url)

# 确认请求成功
if response.status_code == 200:
    soup = BeautifulSoup(response.text, \'html.parser\')

    # 选取教师姓名(较有唯一性)
    faculty_headings = soup.select(".elementor-widget-heading")

    # 储存结果的清单
    faculty_data = []

    for heading in faculty_headings:
        # 教师姓名
        name = heading.get_text(strip=True)

        # 先到父元件(因为其他栏位在父元件下),再选其他栏位
        items = heading.parent.select(\'p>span\')

        try:
            # 解析职称、专长、电子信箱
            title = items[0].get_text(strip=True)
            expertise = items[1].get_text(strip=True)
            email = items[2].get_text(strip=True)

            # 将资料加入结果清单
            faculty_data.append({
                "姓名": name,
                "职称": title,
                "专长": expertise,
                "电子信箱": email
            })
        except Exception as e:
            print(f"解析失败: {e}")

    print(faculty_data)

    # 将资料写入 CSV 档案

else:
    print(f"无法存取网站: {url}")

0

zivzhong

iT邦研究生 4 级 ‧ 2025-01-07 15:43:21

附个参考资料给你之后看看:
https://pala.tw/python-web-crawler/