標籤 "CSDN博客" 下的文章

Python2實現簡單的爬蟲

2018-04-10 268 閱讀其他爬蟲 Python CSDN博客

這個項目是一個簡單的網頁爬蟲，用於從CSDN博客中抓取相關內容，並將其保存爲HTML文件。該項目包括了爬蟲的基本流程：爬取、解析和存儲。 ### 爬取過程 1. **調度器 (`spider_main.py`)**: - 這是整個項目的入口點。 - 調用 `HtmlOutputer` 來輸出數據，調用 `Downloader` 下載網頁內容，並調用 `HtmlParser` 解析下

閱讀全文