小红书涉烟内容爬取与分析系统 PRD

1. 项目背景

近年来,网络销售卷烟及电子烟的行为日益隐蔽,社交媒体平台(如小红书)成为非法商家的引流渠道。他们通常使用黑话、暗语(如“yan”、“🚬”)、图片或视频等方式进行隐蔽宣传。为了识别并分析这些涉烟线索,我们计划开发一个小红书爬虫系统,结合大语言模型(LLM),自动化爬取并分析潜在涉烟内容。


---

2. 目标

1. 高效爬取 小红书的公开笔记及其评论,包括文本、图片、视频等内容。


2. 精准识别 涉烟线索,挖掘引流、隐晦宣传等行为,降低误判率。


3. 自动化分析 利用 LLM 解析文本中的暗语、黑话、图片及视频信息,结合上下文判断是否涉及涉烟行为。


4. 可视化呈现 以结构化数据存储分析结果,并提供可视化报表。




---

3. 主要功能

3.1 爬取模块

笔记爬取

关键词爬取(如“电子烟”、“烟草”、“烟弹”)

账号爬取(重点监测疑似涉烟账号)

话题爬取(监测特定话题下的相关内容)

图片及视频爬取(支持 URL 解析、下载、存储)

评论爬取(分析互动内容)


反爬策略

代理池(动态切换 IP)

浏览器模拟(Selenium + Puppeteer)

随机 UA 头

模拟人类行为(延迟点击、随机滚动)



3.2 涉烟内容识别模块

文本分析

关键词匹配(包括变体及拼音):

直白词汇:电子烟、烟弹、烟油、尼古丁

黑话词汇:yan、🚬、大烟、雾化器、口粮

变体拼写:yán、Y4N、y@n


上下文分析

判断是否为商品介绍、用户体验分享、购买引导等场景

结合 LLM 解析语境,区分正常讨论与引流行为



图片分析

OCR 文字识别(提取包装盒、聊天截图中的文字)

目标检测(识别烟草类商品,如电子烟设备、烟油瓶等)

水印检测(判断是否带有店铺、VX、二维码等引流信息)


视频分析

关键帧提取(抽帧分析是否涉及烟草产品)

语音转文本(识别视频中的语音内容)

字幕解析(提取并分析字幕中的涉烟信息)



---

4. 识别涉烟行为的关键方法

4.1 直接涉烟内容

包含明确的涉烟词汇(包括暗语)

直接展示烟草或电子烟产品

说明产品规格(如“3%尼古丁”)

出现“购买”、“货到”、“渠道”等交易相关内容


4.2 变体及隐晦表达

变形词(y@n、Y4N、🚬

隐晦描述(“每天一口,神清气爽”)

拼音替代(yan、dianzi、wu hua qi)

表情+文字(🚬+“补货了”)


4.3 引流行为

常见引流方式

附带“VX”、“Q”、“TG”字样

贴出二维码或加好友引导

提及“评论区见”、“私信聊”等暗示行为


典型话术

“靠谱渠道”+“懂的来”

“一手货源”+“无痕交易”

“加V了解”+“暗号xx”



4.4 结合 LLM 进行智能识别

语义分析:LLM 通过上下文推理,判断是否涉及引流或交易

多模态分析:结合文本、图片、视频等多方面信息综合判断

反常规检测:发现异常的内容组合,如“养生+🚬”等反常搭配



---

5. 数据存储及展示

存储结构

爬取的笔记及评论(文本、图片、视频)

涉烟判定结果(高风险、中风险、低风险)

涉烟词汇统计(出现频率、变种等)

账号跟踪(可疑账号的历史记录)


数据展示

可视化报表

高风险涉烟笔记列表

词云分析(黑话演变趋势)

账号关联网络(识别可能的销售团伙)


预警系统

高风险内容自动报警

识别疑似引流链路





---

6. 反滥用与合规性

仅用于合规监测,禁止爬取用户私密信息

避免存储敏感个人数据

采用合规手段进行爬取(如公开 API)

数据加密存储,防止滥用



---

7. 技术选型


---

8. 结论

本项目通过小红书爬虫和 LLM 结合,对涉烟内容进行识别与分析。重点突破隐晦表达(黑话、拼音变体、emoji)、引流行为(暗示交易、社交平台引流)等问题,形成完整的涉烟监测方案,助力监管和风险防控。
 
 
Back to Top