项目概述
自动化采集多个高校校园集市的帖子数据,支持批量提取帖子标题、内容、链接等信息,方便跨校园交流和数据分析。
功能特性
核心功能
- 多校园支持:支持云南大学、昆明理工、云南民族大学等7所高校集市
- 帖子提取:自动提取帖子标题、内容、发布时间、浏览量等完整信息
- 链接生成:自动生成可分享的短链接,方便跨校传播
- 数据导出:将所有数据导出为CSV格式,便于后续处理
- 学校标识:清晰标注每条帖子来源学校,便于分类管理
技术亮点
- 模拟微信浏览器环境访问
- 自动处理时间戳转换
- 支持分页数据提取
- 完善的异常处理机制
支持的校园集市
| 学校名称 | CID | 集市链接 |
|---|---|---|
| 云南大学 | ynu | https://c.zanao.com/p/hot?cid=ynu |
| 昆明理工大学 | kmust | https://c.zanao.com/p/home?cid=kmust |
| 云南民族大学 | ymu | https://c.zanao.com/p/home?cid=ymu |
| 云南艺术学院 | ynart | https://c.zanao.com/p/home?cid=ynart |
| 昆明医科大学 | kmmu | https://c.zanao.com/p/home?cid=kmmu |
| 云南开放大学 | ynou | https://c.zanao.com/p/home?cid=ynou |
| 深圳技术大学 | hitsz | https://c.zanao.com/p/home?cid=hitsz |
数据字段说明
提取的CSV文件包含以下字段:
| 字段名 | 说明 |
|---|---|
| market_name | 集市名称(学校名称) |
| cid | 学校唯一标识 |
| thread_id | 帖子ID |
| short_url | 可分享的短链接 |
| title | 帖子标题 |
| content | 帖子内容 |
| cate_name | 分类名称 |
| nickname | 发帖人昵称 |
| p_time | 发布时间 |
| c_count | 评论数 |
| view_count | 浏览量 |
| l_count | 点赞数 |
使用方法
1. 安装依赖
pip install requests loguru urllib3
2. 运行脚本
python main.py
3. 查看结果
脚本会自动生成 campus_markets_data.csv 文件,包含所有校园集市的帖子数据。
代码示例
提取单个学校数据
from main import School
# 创建学校对象
school = School(cid='ynu', name='云南大学集市')
# 获取帖子列表
thread_list = school.save_csv()
# 处理数据
for thread in thread_list:
print(f"标题: {thread['title']}")
print(f"链接: https://c.zanao.com/p/info/{thread['thread_id']}?cid=ynu")
提取所有学校数据
from main import save_all_markets_to_csv
# 一键提取所有校园集市数据
save_all_markets_to_csv('campus_markets_data.csv')
API接口说明
帖子列表接口
GET https://c.zanao.com/sc-api/thread/v2/list
参数:
- from_time: 时间戳,用于分页
- hot: 1(热门排序)
- isIOS: false
请求头:
- x-sc-alias: {cid} (学校标识)
帖子详情接口
GET https://c.zanao.com/sc-api/thread/info
参数:
- thread_id: 帖子ID
应用场景
- 跨校交流:获取帖子链接后,可以发送给对应学校的同学帮忙留言互动
- 数据分析:分析不同学校的热门话题、活跃度等
- 信息聚合:将多个学校的二手交易、活动信息集中展示
- 舆情监控:监控校园热点话题和讨论趋势
技术架构
赞噢校园集市采集系统
├── main.py # 主程序
├── test.py # 测试脚本
├── campus_markets_data.csv # 输出数据
└── doc/
└── REDEME.md # 项目文档
注意事项
⚠️ 重要提示:
- 本项目仅用于学习和技术交流
- 请遵守网站的使用条款和robots协议
- 建议添加合理的请求间隔,避免对服务器造成压力
- 数据仅供个人学习使用,请勿用于商业用途
技术栈
- Python 3.x
- requests: HTTP请求库
- loguru: 日志记录
- csv: 数据导出
更新日志
- v1.0 (2025-01): 初始版本,支持7所高校数据采集
- 支持自动生成短链接
- 支持时间戳转换
- 完善的异常处理
联系方式
如有问题或建议,欢迎提Issue讨论。
#校园集市 #数据采集 #微信浏览器 #Python爬虫
评论一下?