标签: CSDN博客

Python2实现简单的爬虫

2018-04-10 92 阅读其他爬虫 Python CSDN博客

这个项目是一个简单的网页爬虫，用于从CSDN博客中抓取相关内容，并将其保存为HTML文件。该项目包括了爬虫的基本流程：爬取、解析和存储。 ### 爬取过程 1. **调度器 (`spider_main.py`)**: - 这是整个项目的入口点。 - 调用 `HtmlOutputer` 来输出数据，调用 `Downloader` 下载网页内容，并调用 `HtmlParser` 解析下

阅读全文

夜雨飘零

友情链接

标签: CSDN博客

Python2实现简单的爬虫