小红书涉烟内容爬取与分析系统 PRD
1. 项目背景
近年来,网络销售卷烟及电子烟的行为日益隐蔽,社交媒体平台(如小红书)成为非法商家的引流渠道。他们通常使用黑话、暗语(如“yan”、“🚬”)、图片或视频等方式进行隐蔽宣传。为了识别并分析这些涉烟线索,我们计划开发一个小红书爬虫系统,结合大语言模型(LLM),自动化爬取并分析潜在涉烟内容。
---
2. 目标
1. 高效爬取 小红书的公开笔记及其评论,包括文本、图片、视频等内容。
2. 精准识别 涉烟线索,挖掘引流、隐晦宣传等行为,降低误判率。
3. 自动化分析 利用 LLM 解析文本中的暗语、黑话、图片及视频信息,结合上下文判断是否涉及涉烟行为。
4. 可视化呈现 以结构化数据存储分析结果,并提供可视化报表。
---
3. 主要功能
3.1 爬取模块
笔记爬取
关键词爬取(如“电子烟”、“烟草”、“烟弹”)
账号爬取(重点监测疑似涉烟账号)
话题爬取(监测特定话题下的相关内容)
图片及视频爬取(支持 URL 解析、下载、存储)
评论爬取(分析互动内容)
反爬策略
代理池(动态切换 IP)
浏览器模拟(Selenium + Puppeteer)
随机 UA 头
模拟人类行为(延迟点击、随机滚动)
3.2 涉烟内容识别模块
文本分析
关键词匹配(包括变体及拼音):
直白词汇:电子烟、烟弹、烟油、尼古丁
黑话词汇:yan、🚬、大烟、雾化器、口粮
变体拼写:yán、Y4N、y@n
上下文分析
判断是否为商品介绍、用户体验分享、购买引导等场景
结合 LLM 解析语境,区分正常讨论与引流行为
图片分析
OCR 文字识别(提取包装盒、聊天截图中的文字)
目标检测(识别烟草类商品,如电子烟设备、烟油瓶等)
水印检测(判断是否带有店铺、VX、二维码等引流信息)
视频分析
关键帧提取(抽帧分析是否涉及烟草产品)
语音转文本(识别视频中的语音内容)
字幕解析(提取并分析字幕中的涉烟信息)
---
4. 识别涉烟行为的关键方法
4.1 直接涉烟内容
包含明确的涉烟词汇(包括暗语)
直接展示烟草或电子烟产品
说明产品规格(如“3%尼古丁”)
出现“购买”、“货到”、“渠道”等交易相关内容
4.2 变体及隐晦表达
变形词(y@n、Y4N、🚬)
隐晦描述(“每天一口,神清气爽”)
拼音替代(yan、dianzi、wu hua qi)
表情+文字(🚬+“补货了”)
4.3 引流行为
常见引流方式
附带“VX”、“Q”、“TG”字样
贴出二维码或加好友引导
提及“评论区见”、“私信聊”等暗示行为
典型话术
“靠谱渠道”+“懂的来”
“一手货源”+“无痕交易”
“加V了解”+“暗号xx”
4.4 结合 LLM 进行智能识别
语义分析:LLM 通过上下文推理,判断是否涉及引流或交易
多模态分析:结合文本、图片、视频等多方面信息综合判断
反常规检测:发现异常的内容组合,如“养生+🚬”等反常搭配
---
5. 数据存储及展示
存储结构
爬取的笔记及评论(文本、图片、视频)
涉烟判定结果(高风险、中风险、低风险)
涉烟词汇统计(出现频率、变种等)
账号跟踪(可疑账号的历史记录)
数据展示
可视化报表
高风险涉烟笔记列表
词云分析(黑话演变趋势)
账号关联网络(识别可能的销售团伙)
预警系统
高风险内容自动报警
识别疑似引流链路
---
6. 反滥用与合规性
仅用于合规监测,禁止爬取用户私密信息
避免存储敏感个人数据
采用合规手段进行爬取(如公开 API)
数据加密存储,防止滥用
---
7. 技术选型
---
8. 结论
本项目通过小红书爬虫和 LLM 结合,对涉烟内容进行识别与分析。重点突破隐晦表达(黑话、拼音变体、emoji)、引流行为(暗示交易、社交平台引流)等问题,形成完整的涉烟监测方案,助力监管和风险防控。
1. 项目背景
近年来,网络销售卷烟及电子烟的行为日益隐蔽,社交媒体平台(如小红书)成为非法商家的引流渠道。他们通常使用黑话、暗语(如“yan”、“🚬”)、图片或视频等方式进行隐蔽宣传。为了识别并分析这些涉烟线索,我们计划开发一个小红书爬虫系统,结合大语言模型(LLM),自动化爬取并分析潜在涉烟内容。
---
2. 目标
1. 高效爬取 小红书的公开笔记及其评论,包括文本、图片、视频等内容。
2. 精准识别 涉烟线索,挖掘引流、隐晦宣传等行为,降低误判率。
3. 自动化分析 利用 LLM 解析文本中的暗语、黑话、图片及视频信息,结合上下文判断是否涉及涉烟行为。
4. 可视化呈现 以结构化数据存储分析结果,并提供可视化报表。
---
3. 主要功能
3.1 爬取模块
笔记爬取
关键词爬取(如“电子烟”、“烟草”、“烟弹”)
账号爬取(重点监测疑似涉烟账号)
话题爬取(监测特定话题下的相关内容)
图片及视频爬取(支持 URL 解析、下载、存储)
评论爬取(分析互动内容)
反爬策略
代理池(动态切换 IP)
浏览器模拟(Selenium + Puppeteer)
随机 UA 头
模拟人类行为(延迟点击、随机滚动)
3.2 涉烟内容识别模块
文本分析
关键词匹配(包括变体及拼音):
直白词汇:电子烟、烟弹、烟油、尼古丁
黑话词汇:yan、🚬、大烟、雾化器、口粮
变体拼写:yán、Y4N、y@n
上下文分析
判断是否为商品介绍、用户体验分享、购买引导等场景
结合 LLM 解析语境,区分正常讨论与引流行为
图片分析
OCR 文字识别(提取包装盒、聊天截图中的文字)
目标检测(识别烟草类商品,如电子烟设备、烟油瓶等)
水印检测(判断是否带有店铺、VX、二维码等引流信息)
视频分析
关键帧提取(抽帧分析是否涉及烟草产品)
语音转文本(识别视频中的语音内容)
字幕解析(提取并分析字幕中的涉烟信息)
---
4. 识别涉烟行为的关键方法
4.1 直接涉烟内容
包含明确的涉烟词汇(包括暗语)
直接展示烟草或电子烟产品
说明产品规格(如“3%尼古丁”)
出现“购买”、“货到”、“渠道”等交易相关内容
4.2 变体及隐晦表达
变形词(y@n、Y4N、🚬)
隐晦描述(“每天一口,神清气爽”)
拼音替代(yan、dianzi、wu hua qi)
表情+文字(🚬+“补货了”)
4.3 引流行为
常见引流方式
附带“VX”、“Q”、“TG”字样
贴出二维码或加好友引导
提及“评论区见”、“私信聊”等暗示行为
典型话术
“靠谱渠道”+“懂的来”
“一手货源”+“无痕交易”
“加V了解”+“暗号xx”
4.4 结合 LLM 进行智能识别
语义分析:LLM 通过上下文推理,判断是否涉及引流或交易
多模态分析:结合文本、图片、视频等多方面信息综合判断
反常规检测:发现异常的内容组合,如“养生+🚬”等反常搭配
---
5. 数据存储及展示
存储结构
爬取的笔记及评论(文本、图片、视频)
涉烟判定结果(高风险、中风险、低风险)
涉烟词汇统计(出现频率、变种等)
账号跟踪(可疑账号的历史记录)
数据展示
可视化报表
高风险涉烟笔记列表
词云分析(黑话演变趋势)
账号关联网络(识别可能的销售团伙)
预警系统
高风险内容自动报警
识别疑似引流链路
---
6. 反滥用与合规性
仅用于合规监测,禁止爬取用户私密信息
避免存储敏感个人数据
采用合规手段进行爬取(如公开 API)
数据加密存储,防止滥用
---
7. 技术选型
---
8. 结论
本项目通过小红书爬虫和 LLM 结合,对涉烟内容进行识别与分析。重点突破隐晦表达(黑话、拼音变体、emoji)、引流行为(暗示交易、社交平台引流)等问题,形成完整的涉烟监测方案,助力监管和风险防控。