Public

WeChat Login

Code Issues Pull requests Events Packages Insights

main

Branch

feat: fix apt bugs

.vscode
Data
PySpider
.cnb.yml
Dockerfile
README.md
settings.json

课题四、网络爬虫

实验目标：

本次实验目标为设计一个分布式网络爬虫实现一下功能：

从一个给定的网址中分析其所包含的 URL 并爬取对应的网页，直到爬取完全部不重复的网页为止。
支持分布式爬取，同时记录输出每一个网页的大小。
采用多线程结构设计，实现高性能的网络爬虫。

随着国际互联网的迅速发展，网上的信息越来越多，全球网页数量超过 20 亿，每天新增加 730 万网页。要在如此浩瀚的信息海洋里寻找信息，就像"大海捞针"一样困难。在实际生活中我们经常会使用像百度、Google 这些搜索引擎检索各种信息，搜索引擎正是为了解决这个问题而出现的技术，而网络爬虫正是搜索引擎所需要的关键部分。本次实验主要的内容就是利用 IO 复用抓取网页，并多线程的分析每个抓取到的网页所包含的 URL 信息，通过消息队列将抓取网页的部分和分析网页部分进行通信，最终记录下 160000 网页中所包含的所有 URL，实现分布式网络爬虫。

项目概述

本项目成功实现了一个高性能的分布式网络爬虫系统，采用多线程架构和消息队列通信机制，能够高效地抓取和解析网页内容。该系统通过分布式设计实现了生产者-消费者模式，支持大规模网页抓取任务。

实验成果

本地测试：最高完成抓取解析成功写入CSV文件 160,000个网页
网络环境：最高完成抓取解析成功写入CSV文件 25,000个网页
性能表现：支持24个抓取线程、20个解析线程并发工作
数据处理：实时输出网页信息，包括URL、大小和提取的URL数量

实验目标完成情况

✅ URL分析和爬取：从给定网址开始，递归分析包含的URL并爬取网页
✅ 去重机制：高性能分片去重器确保不重复抓取
✅ 分布式支持：多线程并发，支持大规模网页抓取
✅ 网页大小记录：实时记录每个网页的大小信息
✅ 高性能设计：IO复用和多线程架构实现高性能
✅ 实际验证：本地16万页面、网络2.5万页面的成功抓取

系统架构

架构设计原则

本系统采用分层架构设计，将复杂的爬虫任务分解为多个独立但相互协作的模块：

输入层：负责程序启动和配置管理
核心控制层：统筹整个爬虫的生命周期
处理层：实现网页抓取、解析和结果处理的业务逻辑
管理层：提供线程池、URL去重等基础设施

核心组件详解

1. 输入层组件

`main.py` - 主程序入口

核心职责：程序启动入口、资源清理、异常处理
关键功能：
- 自动清理CSV文件和__pycache__文件夹
- 配置验证和初始化
- 优雅的异常捕获和退出机制
- 统一的错误处理流程

`config.py` - 配置管理

核心职责：统一配置参数管理，支持大规模网页抓取
关键配置：
- 基础设置：起始URL、目标数量、输出文件
- 线程配置：24个抓取线程、20个解析线程
- 队列配置：优化的队列大小，支持16万页面处理
- 网络配置：超时时间、重试机制、请求头设置
- 性能调优：内存限制、垃圾回收间隔、URL去重分片数

2. 核心控制层

`distributed_crawler.py` - 分布式爬虫控制器

核心职责：协调所有组件，管理爬虫完整生命周期
关键特性：
- 动态超时机制：根据目标页面数量智能调整等待时间
- 进度监控：实时检测进度停滞，自动延长超时时间
- 完成检测：智能判断任务完成，确保数据完整性
- 优雅关闭：全面的资源清理和线程同步

3. 处理层组件

`concurrent_fetcher.py` - 并发抓取器

核心职责：多线程网页内容抓取，支持高并发访问
技术特性：
- HTTP/HTTPS支持：完整协议实现，自动处理重定向
- 会话复用：connection pooling提高网络效率
- 智能重试：最大3次重试，指数退避算法
- 请求优化：自定义User-Agent、Accept头、编码处理

`distributed_parser.py` - 分布式解析器

核心职责：HTML内容解析和URL提取，支持批量处理
技术特性：
- HTMLParser集成：基于标准库的高效解析器
- URL标准化：相对URL转换为绝对URL，格式清理
- 性能控制：可配置的每页URL提取限制
- 错误容错：单个页面解析失败不影响整体进程

`result_processor.py` - 结果处理器

核心职责：处理抓取结果并输出CSV文件，提供实时反馈
技术特性：
- 实时写入：逐行写入CSV，断电不丢失
- 进度显示：控制台实时输出处理进度
- 完成信号：达到目标数量时自动通知主控制器
- 数据完整性：缓冲区管理确保数据安全

4. 管理层组件

`thread_pool.py` - 线程池管理器

核心职责：统一管理抓取和解析线程，提供基础设施服务
关键组件：
- URLDeduplicator：高性能分片去重器，64个分片减少锁竞争
- URL过滤器：智能域名过滤、黑名单模式匹配
- 统计监控：实时收集和报告系统运行状态
- 队列管理：协调三种消息队列的数据流动

`message_queue.py` - 消息队列系统

核心职责：线程间通信和数据传递，确保数据安全可靠
队列类型：
- FetchQueue：URL抓取队列，存储待抓取的URL
- ParseQueue：页面解析队列，存储已抓取的页面内容
- ResultQueue：结果队列，存储解析后的URL结果
技术特性：
- 线程安全：基于Python标准queue.Queue实现
- 非阻塞模式：避免死锁，提高系统响应性
- 消息类型：枚举定义，结构化数据传输

环境配置与部署

支持的开发环境

本地开发环境

操作系统: Windows + Anaconda
Python版本: Python 3.13.9
依赖管理: pip + requirements.txt
推荐工具: VS Code + Python扩展

云端CNB环境

基础镜像: Ubuntu 24.04
Python版本: Python 3.12+
开发工具: code-server (浏览器访问 http://localhost:8080)
容器化: Docker 支持

快速部署指南

本地环境部署


# 1. 进入项目目录
cd PySpider

# 2. 安装依赖
pip install -r requirements.txt

# 3. 配置好config.py后运行主程序
python main.py

# 4. 查看输出结果
# 实时进度：控制台输出
# 最终结果：CSV文件（如 Github.csv）

Docker容器化部署


# 1. 构建镜像
docker build -t docker.cnb.cool/orionseeker/webspider:latest .

# 2. 运行容器
docker run -d -p 8080:8080 -v $(pwd):/workspace --name webspider-dev docker.cnb.cool/orionseeker/webspider:latest

# 3. 访问开发环境
浏览器打开 http://localhost:8080

# 4. 在容器中运行爬虫
cd PySpider
python main.py

配置参数详解

核心配置文件：`config.py`


# === 基本爬虫配置 ===
"start_urls": ["https://github.com/"]     # 起始URL列表
"target_count": 10000                     # 目标抓取页面数量
"output_file": "Github.csv"               # 输出CSV文件名

# === 线程池配置 ===
"num_fetcher_threads": 24                # 抓取线程数量
"num_parser_threads": 20                 # 解析线程数量

# === 队列配置 ===
"fetch_queue_size": 160000               # 抓取队列大小
"parse_queue_size": 120000               # 解析队列大小
"result_queue_size": 160000              # 结果队列大小
"url_queue_size": 240000                 # URL队列大小

# === 网络请求配置 ===
"request_timeout": 30                    # 请求超时时间(秒)
"max_retries": 3                         # 最大重试次数
"user_agent": "Mozilla/5.0..."          # 用户代理字符串
"headers": {...}                         # HTTP请求头配置

# === URL过滤配置 ===
"url_blacklist_patterns": [...]          # URL黑名单正则表达式
"max_depth": 5                           # 最大抓取深度
"same_domain_only": False                # 是否只抓取同域名页面
"max_urls_per_page": 2000                # 每页最大URL提取数量

# === 性能优化配置 ===
"memory_limit_mb": 8192                  # 内存限制(8GB)
"gc_interval": 3                         # 垃圾回收间隔(秒)
"url_deduplication_shards": 64           # URL去重器分片数量

# === 动态超时配置 ===
"timeout_per_page": 1.0                  # 每页预计处理时间(秒)
"min_completion_timeout": 3600           # 最小完成超时时间(1小时)
"max_completion_timeout": 86400          # 最大完成超时时间(24小时)

输出数据格式

CSV文件结构

实时生成的CSV文件包含三列数据：

列名	描述	示例
URL	网页地址	`https://github.com/torvalds/linux`
Size	网页大小（字节）	`45678`
URL_Count	从该页面提取的URL数量	`42`

控制台输出格式


2025-12-17 10:30:45 | [1/10000] | https://github.com | 45678 bytes | 42 URLs
2025-12-17 10:30:46 | [2/10000] | https://github.com/features | 38291 bytes | 38 URLs
...

实验结果与性能分析

性能指标达成

抓取能力测试

本地环境峰值：成功抓取解析维基百科 160,000个网页
网络环境峰值：成功抓取解析Github 25,000个网页
并发处理能力：44个线程同时工作（24抓取+20解析）
平均处理速度：根据网络条件动态调整2-10页面/秒

数据质量评估

URL去重效率

分片去重器：64个分片，大幅减少锁竞争
内存占用：每10万URL约占用800MB内存
去重准确率：100%无重复URL处理
查询性能：平均查询时间<1ms

数据完整性保证

实时写入：逐行写入CSV，断电不丢失
事务安全：每次写入原子操作
错误恢复：单个页面失败不影响整体
数据验证：URL格式验证，大小统计准确

项目文件结构

核心代码文件


PySpider/
├── main.py                # 主程序入口和生命周期管理
├── config.py              # 配置管理和参数优化
├── distributed_crawler.py # 分布式爬虫控制器
├── concurrent_fetcher.py  # 并发抓取器
├── distributed_parser.py  # 分布式解析器
├── thread_pool.py         # 线程池管理器
├── message_queue.py       # 消息队列系统
├── result_processor.py    # 结果处理器
└── requirements.txt       # Python依赖包列表

项目配置文件


workspace/
├── README.md              # 项目完整文档
├── .cnb.yml               # 代码仓库配置
├── Dockerfile             # Docker容器配置
└── settings.json          # code-server配置

数据输出文件


PySpider/Data
├── Github.csv             # GitHub网站爬取结果             
└── Wiki.csv               # Wikipedia网站爬取结果

技术亮点与优化

1. 分层分布式架构

设计理念：采用分层架构模式，各层职责清晰
核心优势：抓取和解析分离，通过消息队列解耦
扩展性：支持水平扩展，易于增加新功能模块

2. 高性能URL去重算法

分片设计：64个分片集合，大幅减少锁竞争
哈希优化：MD5哈希分布，均匀性高
内存效率：每10万URL仅占用800MB内存

3. 智能动态超时机制

自适应算法：根据目标页面数量动态调整超时时间
进度监控：实时检测进度停滞，自动延长超时
资源保护：避免无限等待，确保系统资源释放

4. 实时数据处理与监控

逐行写入：CSV文件实时写入，断电不丢失
进度显示：控制台实时输出，用户体验优秀
统计监控：多维度统计信息，便于性能分析

5. 错误处理

多级重试：网络请求自动重试，指数退避策略
异常隔离：单个组件失败不影响整体系统
优雅关闭：Ctrl+C安全停止，资源完整释放

依赖分析

核心第三方库

requests>=2.25.0: HTTP请求库
- 功能特性：支持HTTP/HTTPS、自动重定向、会话复用
- 性能优势：连接池、Keep-Alive、智能超时
- 配置优化：自定义User-Agent、请求头、编码处理

Python标准库应用

并发处理：threading（多线程）、queue（线程安全队列）
网络处理：urllib.parse（URL解析）、html.parser（HTML解析）
数据处理：csv（CSV输出）、hashlib（URL去重）、re（正则表达式）
系统交互：time（时间处理）、signal（信号处理）、pathlib（路径操作）
类型安全：typing（类型提示）、enum（枚举）、dataclasses（数据类）

系统架构深度解析

数据流动设计


输入URL → URL去重器 → 抓取队列 → 并发抓取器 → 解析队列 → 分布式解析器 → 结果队列 → 结果处理器 → CSV输出
     ↑                                                                                               ↓
     └────────────────────────── 新URL回流循环 ──────────────────────────────────────────────────────┘

并发模型

生产者-消费者模式：抓取器生产，解析器消费
多级队列缓冲：避免生产者阻塞，提高吞吐量
非阻塞通信：线程间高效通信，减少等待时间

内存管理策略

分片去重：64个分片，减少锁竞争
队列大小控制：防止内存溢出
垃圾回收优化：3秒间隔，及时释放内存
流式处理：逐页处理，避免大量数据堆积

扩展性与未来发展

功能扩展方向

分布式扩展：支持多机器协同工作
数据存储：集成数据库存储（MySQL、MongoDB）
内容分析：文本分析、关键词提取
可视化界面：Web界面，实时监控面板

性能优化潜力

异步IO：asyncio替代threading
协程池：uvloop高性能事件循环
缓存优化：Redis缓存重复请求
负载均衡：智能URL分发算法

通过本分布式网络爬虫项目的开发，我们不仅完成了课题要求的技术目标，更重要的是建立了一个现代化、高性能、可扩展的网络爬虫系统，为搜索引擎的关键组成部分——网络爬虫提供了一个完整的解决方案。

About

分布式网络爬虫

Python分布式系统

48.70 MiB

0 forks 0 stars 1 branches 1 TagREADMEhttps://cnb.cool/OrionSeeker/WebSpider

Release
0

Tag

Packages

WebSpider

Contributors
1

Language

Python92.5%

Dockerfile7.5%

35/F,Tencent Building,Kejizhongyi Avenue,Nanshan District,Shenzhen

京ICP备11018762号-111