# 产品需求文档(PRD)
## 项目名称
小红书涉烟线索爬虫
## 项目背景
小红书作为一个内容分享平台,用户分享笔记的同时可能会存在涉及非法烟草销售的行为。为了保护青少年,打击非法烟草销售,开发一个爬虫程序,定期抓取小红书的平台内容并分析是否存在涉烟线索是非常必要的。
## 项目目标
1. 开发爬虫程序,自动化爬取小红书中的笔记和评论。
2. 利用大语言模型分析获取的内容,判断是否涉及烟草产品的暗示或销售。
3. 针对网络销售卷烟或电子烟的行为,形成智能的识别和报告功能。
## 功能需求
### 1. 数据爬取
- 笔记内容抓取:爬虫需能抓取用户分享的图文内容,包括标题、正文、图片、视频及其链接。
- 评论抓取:爬取相关笔记下的用户评论,提取信息。
### 2. 数据存储
- 数据结构设计:设计合理的数据结构以存储爬取的笔记和评论,并确保数据的可查询性和可扩展性。
- 数据库:使用适合的数据库(如MongoDB)来存储爬取的数据。
### 3. 数据分析
#### 3.1 内容过滤
- 文本分析:
- 识别常见的烟草相关词汇,如“烟”、“电子烟”、“烟草”等。
- 识别隐晦表达或暗语,包括但不限于“yan”、“🚬”等符号及表情。
- 设计一个正则表达式或关键词库,帮助识别相关内容。
#### 3.2 机器学习模型
- 大语言模型:
- 利用大型预训练模型(如GPT-3 / GPT-4)分析文本内容,判断其是否可能与烟草销售有关。
- 训练模型对烟草相关内容的识别能力,使用反向标签数据(如标注好的涉烟与非涉烟内容)进行微调,提升模型准确率。
### 4. 报告生成
- 自动报告:定期生成报告,包括抓取的数据概览、分析结果、识别出的涉烟线索及其来源。
- 警报机制:一旦识别出高风险内容,及时推送警报给相关管理或审查人员,方便后续的人工审查。
## 技术需求
- 技术栈:Python爬虫框架(如Scrapy或BeautifulSoup)、数据库(MongoDB)、自然语言处理模型(如TensorFlow或PyTorch)。
- 部署环境:云服务器,满足爬虫及数据存储的资源需求。
## 安全与合规性
- 确保爬取过程中遵循网站的robots.txt文件及其他法律法规,不影响小红书的正常运营。
- 处理用户数据时,遵循相关隐私政策和数据保护法规。
## 项目进度计划
- 阶段1:需求分析与设计(2周)
- 阶段2:爬虫开发与测试(4周)
- 阶段3:数据分析模块开发与模型训练(4周)
- 阶段4:系统集成与部署(2周)
- 阶段5:系统测试与优化(2周)
## 预期结果
通过该项目,能够有效识别小红书平台上的涉烟线索,生成分析报告,辅助相关管理部门的工作,降低烟草销售的隐患,促进健康环境的建立。
## 项目名称
小红书涉烟线索爬虫
## 项目背景
小红书作为一个内容分享平台,用户分享笔记的同时可能会存在涉及非法烟草销售的行为。为了保护青少年,打击非法烟草销售,开发一个爬虫程序,定期抓取小红书的平台内容并分析是否存在涉烟线索是非常必要的。
## 项目目标
1. 开发爬虫程序,自动化爬取小红书中的笔记和评论。
2. 利用大语言模型分析获取的内容,判断是否涉及烟草产品的暗示或销售。
3. 针对网络销售卷烟或电子烟的行为,形成智能的识别和报告功能。
## 功能需求
### 1. 数据爬取
- 笔记内容抓取:爬虫需能抓取用户分享的图文内容,包括标题、正文、图片、视频及其链接。
- 评论抓取:爬取相关笔记下的用户评论,提取信息。
### 2. 数据存储
- 数据结构设计:设计合理的数据结构以存储爬取的笔记和评论,并确保数据的可查询性和可扩展性。
- 数据库:使用适合的数据库(如MongoDB)来存储爬取的数据。
### 3. 数据分析
#### 3.1 内容过滤
- 文本分析:
- 识别常见的烟草相关词汇,如“烟”、“电子烟”、“烟草”等。
- 识别隐晦表达或暗语,包括但不限于“yan”、“🚬”等符号及表情。
- 设计一个正则表达式或关键词库,帮助识别相关内容。
#### 3.2 机器学习模型
- 大语言模型:
- 利用大型预训练模型(如GPT-3 / GPT-4)分析文本内容,判断其是否可能与烟草销售有关。
- 训练模型对烟草相关内容的识别能力,使用反向标签数据(如标注好的涉烟与非涉烟内容)进行微调,提升模型准确率。
### 4. 报告生成
- 自动报告:定期生成报告,包括抓取的数据概览、分析结果、识别出的涉烟线索及其来源。
- 警报机制:一旦识别出高风险内容,及时推送警报给相关管理或审查人员,方便后续的人工审查。
## 技术需求
- 技术栈:Python爬虫框架(如Scrapy或BeautifulSoup)、数据库(MongoDB)、自然语言处理模型(如TensorFlow或PyTorch)。
- 部署环境:云服务器,满足爬虫及数据存储的资源需求。
## 安全与合规性
- 确保爬取过程中遵循网站的robots.txt文件及其他法律法规,不影响小红书的正常运营。
- 处理用户数据时,遵循相关隐私政策和数据保护法规。
## 项目进度计划
- 阶段1:需求分析与设计(2周)
- 阶段2:爬虫开发与测试(4周)
- 阶段3:数据分析模块开发与模型训练(4周)
- 阶段4:系统集成与部署(2周)
- 阶段5:系统测试与优化(2周)
## 预期结果
通过该项目,能够有效识别小红书平台上的涉烟线索,生成分析报告,辅助相关管理部门的工作,降低烟草销售的隐患,促进健康环境的建立。