小红书涉烟内容爬取与分析系统 PRD1. 项目背景近年来，网络销售卷烟及电子烟的行为日益隐蔽，社交媒体平台（如小红书）成为非法商家的引流渠道

小红书涉烟内容爬取与分析系统 PRD

1. 项目背景

近年来，网络销售卷烟及电子烟的行为日益隐蔽，社交媒体平台（如小红书）成为非法商家的引流渠道。他们通常使用黑话、暗语（如“yan”、“🚬”）、图片或视频等方式进行隐蔽宣传。为了识别并分析这些涉烟线索，我们计划开发一个小红书爬虫系统，结合大语言模型（LLM），自动化爬取并分析潜在涉烟内容。

---

2. 目标

1. 高效爬取小红书的公开笔记及其评论，包括文本、图片、视频等内容。

2. 精准识别涉烟线索，挖掘引流、隐晦宣传等行为，降低误判率。

3. 自动化分析利用 LLM 解析文本中的暗语、黑话、图片及视频信息，结合上下文判断是否涉及涉烟行为。

4. 可视化呈现以结构化数据存储分析结果，并提供可视化报表。

---

3. 主要功能

3.1 爬取模块

笔记爬取

关键词爬取（如“电子烟”、“烟草”、“烟弹”）

账号爬取（重点监测疑似涉烟账号）

话题爬取（监测特定话题下的相关内容）

图片及视频爬取（支持 URL 解析、下载、存储）

评论爬取（分析互动内容）

反爬策略

代理池（动态切换 IP）

浏览器模拟（Selenium + Puppeteer）

随机 UA 头

模拟人类行为（延迟点击、随机滚动）

3.2 涉烟内容识别模块

文本分析

关键词匹配（包括变体及拼音）：

直白词汇：电子烟、烟弹、烟油、尼古丁

黑话词汇：yan、🚬、大烟、雾化器、口粮

变体拼写：yán、Y4N、y@n

上下文分析

判断是否为商品介绍、用户体验分享、购买引导等场景

结合 LLM 解析语境，区分正常讨论与引流行为

图片分析

OCR 文字识别（提取包装盒、聊天截图中的文字）

目标检测（识别烟草类商品，如电子烟设备、烟油瓶等）

水印检测（判断是否带有店铺、VX、二维码等引流信息）

视频分析

关键帧提取（抽帧分析是否涉及烟草产品）

语音转文本（识别视频中的语音内容）

字幕解析（提取并分析字幕中的涉烟信息）

---

4. 识别涉烟行为的关键方法

4.1 直接涉烟内容

包含明确的涉烟词汇（包括暗语）

直接展示烟草或电子烟产品

说明产品规格（如“3%尼古丁”）

出现“购买”、“货到”、“渠道”等交易相关内容

4.2 变体及隐晦表达

变形词（y@n、Y4N、🚬）

隐晦描述（“每天一口，神清气爽”）

拼音替代（yan、dianzi、wu hua qi）

表情+文字（🚬+“补货了”）

4.3 引流行为

常见引流方式

附带“VX”、“Q”、“TG”字样

贴出二维码或加好友引导

提及“评论区见”、“私信聊”等暗示行为

典型话术

“靠谱渠道”+“懂的来”

“一手货源”+“无痕交易”

“加V了解”+“暗号xx”

4.4 结合 LLM 进行智能识别

语义分析：LLM 通过上下文推理，判断是否涉及引流或交易

多模态分析：结合文本、图片、视频等多方面信息综合判断

反常规检测：发现异常的内容组合，如“养生+🚬”等反常搭配

---

5. 数据存储及展示

存储结构

爬取的笔记及评论（文本、图片、视频）

涉烟判定结果（高风险、中风险、低风险）

涉烟词汇统计（出现频率、变种等）

账号跟踪（可疑账号的历史记录）

数据展示

可视化报表

高风险涉烟笔记列表

词云分析（黑话演变趋势）

账号关联网络（识别可能的销售团伙）

预警系统

高风险内容自动报警

识别疑似引流链路

---

6. 反滥用与合规性

仅用于合规监测，禁止爬取用户私密信息

避免存储敏感个人数据

采用合规手段进行爬取（如公开 API）

数据加密存储，防止滥用

---

7. 技术选型

---

8. 结论

本项目通过小红书爬虫和 LLM 结合，对涉烟内容进行识别与分析。重点突破隐晦表达（黑话、拼音变体、emoji）、引流行为（暗示交易、社交平台引流）等问题，形成完整的涉烟监测方案，助力监管和风险防控。