# 产品需求文档（PRD）## 项目名称小红书涉烟线索爬虫## 项目背景小红书作为一个内容分享平台，用户分享笔记的同时可能会存在涉及非法烟草销售的行为

# 产品需求文档（PRD）

## 项目名称
小红书涉烟线索爬虫

## 项目背景
小红书作为一个内容分享平台，用户分享笔记的同时可能会存在涉及非法烟草销售的行为。为了保护青少年，打击非法烟草销售，开发一个爬虫程序，定期抓取小红书的平台内容并分析是否存在涉烟线索是非常必要的。

## 项目目标
1. 开发爬虫程序，自动化爬取小红书中的笔记和评论。
2. 利用大语言模型分析获取的内容，判断是否涉及烟草产品的暗示或销售。
3. 针对网络销售卷烟或电子烟的行为，形成智能的识别和报告功能。

## 功能需求

### 1. 数据爬取
- 笔记内容抓取：爬虫需能抓取用户分享的图文内容，包括标题、正文、图片、视频及其链接。
- 评论抓取：爬取相关笔记下的用户评论，提取信息。

### 2. 数据存储
- 数据结构设计：设计合理的数据结构以存储爬取的笔记和评论，并确保数据的可查询性和可扩展性。
- 数据库：使用适合的数据库（如MongoDB）来存储爬取的数据。

### 3. 数据分析
#### 3.1 内容过滤
- 文本分析：
- 识别常见的烟草相关词汇，如“烟”、“电子烟”、“烟草”等。
- 识别隐晦表达或暗语，包括但不限于“yan”、“🚬”等符号及表情。
- 设计一个正则表达式或关键词库，帮助识别相关内容。

#### 3.2 机器学习模型
- 大语言模型：
- 利用大型预训练模型（如GPT-3 / GPT-4）分析文本内容，判断其是否可能与烟草销售有关。
- 训练模型对烟草相关内容的识别能力，使用反向标签数据（如标注好的涉烟与非涉烟内容）进行微调，提升模型准确率。

### 4. 报告生成
- 自动报告：定期生成报告，包括抓取的数据概览、分析结果、识别出的涉烟线索及其来源。
- 警报机制：一旦识别出高风险内容，及时推送警报给相关管理或审查人员，方便后续的人工审查。

## 技术需求
- 技术栈：Python爬虫框架（如Scrapy或BeautifulSoup）、数据库（MongoDB）、自然语言处理模型（如TensorFlow或PyTorch）。
- 部署环境：云服务器，满足爬虫及数据存储的资源需求。

## 安全与合规性
- 确保爬取过程中遵循网站的robots.txt文件及其他法律法规，不影响小红书的正常运营。
- 处理用户数据时，遵循相关隐私政策和数据保护法规。

## 项目进度计划
- 阶段1：需求分析与设计（2周）
- 阶段2：爬虫开发与测试（4周）
- 阶段3：数据分析模块开发与模型训练（4周）
- 阶段4：系统集成与部署（2周）
- 阶段5：系统测试与优化（2周）

## 预期结果
通过该项目，能够有效识别小红书平台上的涉烟线索，生成分析报告，辅助相关管理部门的工作，降低烟草销售的隐患，促进健康环境的建立。