赞噢校园集市数据采集系统

2025-11-6 / 0 评论 / 2 阅读

项目概述

自动化采集多个高校校园集市的帖子数据,支持批量提取帖子标题、内容、链接等信息,方便跨校园交流和数据分析。

功能特性

核心功能

  • 多校园支持:支持云南大学、昆明理工、云南民族大学等7所高校集市
  • 帖子提取:自动提取帖子标题、内容、发布时间、浏览量等完整信息
  • 链接生成:自动生成可分享的短链接,方便跨校传播
  • 数据导出:将所有数据导出为CSV格式,便于后续处理
  • 学校标识:清晰标注每条帖子来源学校,便于分类管理

技术亮点

  • 模拟微信浏览器环境访问
  • 自动处理时间戳转换
  • 支持分页数据提取
  • 完善的异常处理机制

支持的校园集市

学校名称 CID 集市链接
云南大学 ynu https://c.zanao.com/p/hot?cid=ynu
昆明理工大学 kmust https://c.zanao.com/p/home?cid=kmust
云南民族大学 ymu https://c.zanao.com/p/home?cid=ymu
云南艺术学院 ynart https://c.zanao.com/p/home?cid=ynart
昆明医科大学 kmmu https://c.zanao.com/p/home?cid=kmmu
云南开放大学 ynou https://c.zanao.com/p/home?cid=ynou
深圳技术大学 hitsz https://c.zanao.com/p/home?cid=hitsz

数据字段说明

提取的CSV文件包含以下字段:

字段名 说明
market_name 集市名称(学校名称)
cid 学校唯一标识
thread_id 帖子ID
short_url 可分享的短链接
title 帖子标题
content 帖子内容
cate_name 分类名称
nickname 发帖人昵称
p_time 发布时间
c_count 评论数
view_count 浏览量
l_count 点赞数

使用方法

1. 安装依赖

pip install requests loguru urllib3

2. 运行脚本

python main.py

3. 查看结果

脚本会自动生成 campus_markets_data.csv 文件,包含所有校园集市的帖子数据。

代码示例

提取单个学校数据

from main import School

# 创建学校对象
school = School(cid='ynu', name='云南大学集市')

# 获取帖子列表
thread_list = school.save_csv()

# 处理数据
for thread in thread_list:
    print(f"标题: {thread['title']}")
    print(f"链接: https://c.zanao.com/p/info/{thread['thread_id']}?cid=ynu")

提取所有学校数据

from main import save_all_markets_to_csv

# 一键提取所有校园集市数据
save_all_markets_to_csv('campus_markets_data.csv')

API接口说明

帖子列表接口

GET https://c.zanao.com/sc-api/thread/v2/list
参数:
  - from_time: 时间戳,用于分页
  - hot: 1(热门排序)
  - isIOS: false
请求头:
  - x-sc-alias: {cid} (学校标识)

帖子详情接口

GET https://c.zanao.com/sc-api/thread/info
参数:
  - thread_id: 帖子ID

应用场景

  1. 跨校交流:获取帖子链接后,可以发送给对应学校的同学帮忙留言互动
  2. 数据分析:分析不同学校的热门话题、活跃度等
  3. 信息聚合:将多个学校的二手交易、活动信息集中展示
  4. 舆情监控:监控校园热点话题和讨论趋势

技术架构

赞噢校园集市采集系统
├── main.py          # 主程序
├── test.py          # 测试脚本
├── campus_markets_data.csv  # 输出数据
└── doc/
    └── REDEME.md    # 项目文档

注意事项

⚠️ 重要提示

  • 本项目仅用于学习和技术交流
  • 请遵守网站的使用条款和robots协议
  • 建议添加合理的请求间隔,避免对服务器造成压力
  • 数据仅供个人学习使用,请勿用于商业用途

技术栈

  • Python 3.x
  • requests: HTTP请求库
  • loguru: 日志记录
  • csv: 数据导出

更新日志

  • v1.0 (2025-01): 初始版本,支持7所高校数据采集
  • 支持自动生成短链接
  • 支持时间戳转换
  • 完善的异常处理

联系方式

如有问题或建议,欢迎提Issue讨论。


#校园集市 #数据采集 #微信浏览器 #Python爬虫

    评论一下?

    OωO
    取消