小红书涉烟内容监测系统 PRD(产品需求文档)
---
### 一、项目背景
小红书作为生活方式分享平台存在部分用户通过笔记/评论进行烟草制品(卷烟/电子烟)的隐蔽引流行为。该类内容常使用图片暗示、暗语(如"yan"、"🚬")、变体词等规避审核,需结合多模态分析与语义理解进行精准识别。
---
### 二、核心目标
构建智能化监测系统,通过爬虫获取数据并运用大语言模型进行多维度分析,精准识别涉烟引流内容,输出结构化违规线索。
---
### 三、需求范围
#### 1. 数据采集模块
- 爬取对象:
- 笔记内容(文本+图片/视频)
- 评论区内容(含子评论)
- 用户基础信息(昵称、简介、标签)
- 关键技术:
- 动态加载内容处理(滚动加载/分页)
- 反爬策略:随机请求头/IP代理池/请求频率控制(<5次/秒)
- 多媒体下载:图片(压缩格式处理)、视频(分段下载)
#### 2. 数据预处理模块
- 文本清洗:
- 特殊符号标准化(如"🅥→V")
- 方言/拼音转换(如"yan→烟")
- Emoji语义映射(🚬→"烟")
- 图像处理:
- OCR文字提取(关注水印/背景文字)
- 关键物体检测(烟盒/电子烟形状)
- 视频处理:
- 关键帧抽取(每秒1帧)
- 音频转文字(方言识别)
#### 3. 涉烟特征分析模型
A. 显性特征识别
- 关键词库:
- 直接词:电子烟/雾化器/尼古丁(含变体如"dianziyan")
- 引流词:VX/微/货/代发
- Emoji库:🚬/💨/🌫
- 正则规则:
- 联系方式匹配(微信号格式)
- 价格暗示(如"三位数")
B. 隐性特征识别
- 上下文语义分析:
- 大语言模型判断"口感/烟弹"等专业术语
- 识别伪装句式("朋友在做"、"需要可推")
- 图像语义关联:
- 文字+图片组合分析(如文字"口感好" + 雾化器图片)
- 颜色特征检测(电子烟常见配色)
C. 多模态融合判定
- 建立权重评分体系:
#### 4. 线索输出模块
- 结构化数据输出:
- 可视化报告:
- 用户关系图谱
- 高频引流话术TOP10
- 违规内容趋势分析
---
### 四、非功能需求
1. 识别准确率:召回率>92%,误报率<8%
2. 处理性能:单日处理100万条笔记
3. 模型更新:支持词库/规则每周动态更新
4. 法律合规:数据存储周期≤30天,匿名化处理
---
### 五、风险控制
1. 误判规避:
- 建立白名单(合规测评类内容)
- 二次人工复核机制
2. 抗对抗策略:
- 识别镜像文字/谐音词(如"咽"替代"烟")
- 检测图片局部马赛克处理
3. 法律风险:
- 限制爬虫深度(不爬用户私信)
- 数据加密存储
---
### 六、实施计划
| 阶段 | 周期 | 交付物 |
|-------|-------|-------|
| 爬虫开发 | 2周 | 支持多媒体爬取的分布式爬虫 |
| 模型训练 | 3周 | 准确率>85%的识别模型 |
| 系统联调 | 1周 | 完整监测流水线 |
| 试运行 | 2周 | 误报分析报告 |
---
### 七、成功标准
- 每周发现有效涉烟线索≥500条
- 人工复核通过率≥90%
- 线索移交监管部门响应时间<24h
---
附件:典型涉烟内容示例
1. 笔记内容:"新到水果口味,🉑📦"
2. 评论区:"姐妹求推荐那个yan"
3. 图片示例:模糊化处理的电子烟产品图配文字"夏日清凉神器"
---
### 一、项目背景
小红书作为生活方式分享平台存在部分用户通过笔记/评论进行烟草制品(卷烟/电子烟)的隐蔽引流行为。该类内容常使用图片暗示、暗语(如"yan"、"🚬")、变体词等规避审核,需结合多模态分析与语义理解进行精准识别。
---
### 二、核心目标
构建智能化监测系统,通过爬虫获取数据并运用大语言模型进行多维度分析,精准识别涉烟引流内容,输出结构化违规线索。
---
### 三、需求范围
#### 1. 数据采集模块
- 爬取对象:
- 笔记内容(文本+图片/视频)
- 评论区内容(含子评论)
- 用户基础信息(昵称、简介、标签)
- 关键技术:
- 动态加载内容处理(滚动加载/分页)
- 反爬策略:随机请求头/IP代理池/请求频率控制(<5次/秒)
- 多媒体下载:图片(压缩格式处理)、视频(分段下载)
#### 2. 数据预处理模块
- 文本清洗:
- 特殊符号标准化(如"🅥→V")
- 方言/拼音转换(如"yan→烟")
- Emoji语义映射(🚬→"烟")
- 图像处理:
- OCR文字提取(关注水印/背景文字)
- 关键物体检测(烟盒/电子烟形状)
- 视频处理:
- 关键帧抽取(每秒1帧)
- 音频转文字(方言识别)
#### 3. 涉烟特征分析模型
A. 显性特征识别
- 关键词库:
- 直接词:电子烟/雾化器/尼古丁(含变体如"dianziyan")
- 引流词:VX/微/货/代发
- Emoji库:🚬/💨/🌫
- 正则规则:
- 联系方式匹配(微信号格式)
- 价格暗示(如"三位数")
B. 隐性特征识别
- 上下文语义分析:
- 大语言模型判断"口感/烟弹"等专业术语
- 识别伪装句式("朋友在做"、"需要可推")
- 图像语义关联:
- 文字+图片组合分析(如文字"口感好" + 雾化器图片)
- 颜色特征检测(电子烟常见配色)
C. 多模态融合判定
- 建立权重评分体系:
总分 = 文本权重×0.6 + 图片权重×0.3 + 视频权重×0.1
权重触发规则:
- 单维度强信号(如出现"电子烟货源")直接判定
- 多维度弱信号(文字"口感好"+雾化图+🚬emoji)累计判定
#### 4. 线索输出模块
- 结构化数据输出:
{
"note_id": "123456",
"risk_level": "高危",
"evidence": [
{"type":"text","content":"口感细腻可+V"},
{"type":"image","objects":["雾化器"]}
],
"user_chain": ["发布者A","评论者B"]
}
- 可视化报告:
- 用户关系图谱
- 高频引流话术TOP10
- 违规内容趋势分析
---
### 四、非功能需求
1. 识别准确率:召回率>92%,误报率<8%
2. 处理性能:单日处理100万条笔记
3. 模型更新:支持词库/规则每周动态更新
4. 法律合规:数据存储周期≤30天,匿名化处理
---
### 五、风险控制
1. 误判规避:
- 建立白名单(合规测评类内容)
- 二次人工复核机制
2. 抗对抗策略:
- 识别镜像文字/谐音词(如"咽"替代"烟")
- 检测图片局部马赛克处理
3. 法律风险:
- 限制爬虫深度(不爬用户私信)
- 数据加密存储
---
### 六、实施计划
| 阶段 | 周期 | 交付物 |
|-------|-------|-------|
| 爬虫开发 | 2周 | 支持多媒体爬取的分布式爬虫 |
| 模型训练 | 3周 | 准确率>85%的识别模型 |
| 系统联调 | 1周 | 完整监测流水线 |
| 试运行 | 2周 | 误报分析报告 |
---
### 七、成功标准
- 每周发现有效涉烟线索≥500条
- 人工复核通过率≥90%
- 线索移交监管部门响应时间<24h
---
附件:典型涉烟内容示例
1. 笔记内容:"新到水果口味,🉑📦"
2. 评论区:"姐妹求推荐那个yan"
3. 图片示例:模糊化处理的电子烟产品图配文字"夏日清凉神器"