问题概述
通过 Google 搜索追踪发现,Semalt.com 正在运营一个大规模的 AI 驱动 SEO 欺诈系统. 该系统爬取 V2EX 等技术社区的内容, 使用 AI 生成虚假标题和描述, 然后通过 URL 参数注入到数百个客户网站中, 以劫持搜索引擎流量。
从 URL 中的序列号可以看出, 该系统已生成超过 1000 万个虚假页面.
追踪数据
- 2025-10-16: 识别号 1,226,522
- 2025-11-16: 识别号 9,956,398
- 2025-11-17: 识别号 10,070,497
- 月增长: 870 万页
- 生成速度: 日均 28 万页, 11 月加速到 40 万+ 页/天
验证方法
任何人都可以在 Google 搜索以下内容验证:
inurl:"?s-news" inurl:"2025-11" "v2ex" inurl:"?s-news" inurl:"2025-10" "v2ex" 工作原理
URL 模式
https://[域名]/?s-news-[识别号]-[日期]-[AI 垃圾标题] 运作流程
-
爬取内容 - Semalt 大量爬取 V2EX 页面 (包括用户个人资料页面)
-
AI 生成虚假新闻 - AI 被输入 V2EX 的页面信息, 被要求编写虚构的随机"新闻", 标题和描述尽可能吸引人. 例如:
- "WangSD Discontinues Tech Engagement After V2EX Membership Termination"
- "V2EX 用户 liuliancc 未能加入本站,未成为第 522760 号会员,时间早于 2020 年 12 月 7 日 20 时 37 分"
- "Innovative Personal News Briefing Systm Proposed by V2EX Member FFM"
- "V2EX Member Wang Shares Insights on MacBook Pro..."
-
参数注入 - 通过 URL query parameters 将生成的内容注入到客户网站
-
搜索引擎索引 - Google 索引这些页面, 将 AI 生成的欺骗性虚假标题和描述编入搜索结果
-
流量劫持 - 用户搜索 V2EX 相关内容时, 看到大量"神秘 V2EX 小新闻", 点击后被导向完全不相关的网站
搜索结果截图



甚至搜索我自己的 V2EX 用户名 "bOOOOc" 时, 都能找到使用 Semalt SEO 欺诈手法的网站. 
可以看到这些 AI 生成的虚假标题都含有 v2ex
实际的例子
以下是实际发现的虚假页面示例:
例 1:地方新闻网站
https://lufkindailynews.com/test/?s-news-7728932-2025-11-11-v2ex-userliuliancc... - 标题声称: 报道 V2EX 用户 liuliancc 未能注册会员的"新闻"
- 实际内容: 美国 Lufkin 地方新闻网站,与 V2EX 毫无关系
- 虚构程度: 把注册失败的数据包装成新闻报道
例 2:伊朗通讯社
https://www.isna.ir/news/...?s-news-8218190-2025-11-12-member-of-v2ex-exploring... - 标题声称: V2EX 会员在技术社区的贡献分析
- 实际内容: 伊朗通讯社关于恐怖袭击的波斯语新闻
- 欺骗性: URL 参数完全独立于页面实际内容
例 3:哥伦比亚大学
https://globalfreedomofexpression.columbia.edu/about/...?s-news-3135576... - 标题声称: V2EX 用户技术交流分析
- 实际内容: 哥伦比亚大学言论自由项目页面
- 影响: 连大学网站也被利用
受影响的域名(部分)
初步发现涉及数百个域名,包括但不限于:
新闻媒体:
- lufkindailynews.com (美国地方新闻)
- 24.kg (科技新闻)
- isna.ir (伊朗国家通讯社)
教育机构:
- globalfreedomofexpression.columbia.edu (哥伦比亚大学)
- portal.ufgd.edu.br (巴西联邦大学)
- jak.ppke.hu (匈牙利大学)
商业网站:
- meeyland.com (越南房地产平台)
- internet-bilet.ua (乌克兰票务网站)
其他:
这些网站是 Semalt 的付费客户,购买了其"autoSEO"或者"AIO Promotion"服务。 但这些客户可能:
- 完全知情并接受这种黑帽手段
- 不完全了解 Semalt 的具体操作方式,以为是正规 SEO
- 只关心流量数字,不在乎来源和方式
AI 生成内容的展示
-
编造戏剧性事件
- 把"用户注销账号"编成"被开除并停止技术讨论"
- 例如:"WangSD Dismissed from V2EX and Discontinues Tech Engagement"
-
把数据记录包装成新闻
- 将后台数据编成"独家报道"
- 例如:"V2EX 用户 liuliancc 未能加入本站,未成为第 522760 号会员,时间早于 2020 年 12 月 7 日 20 时 37 分"
-
虚构创新提案
- 从关键词中提取,编造不存在的"重大创新"
- 例如:"Innovative Personal News Briefing System Proposed by V2EX Member FFM"
-
普通求助变专家见解
- 把"救命,我的 MBP 坏了"包装成"资深用户专家分析"
- 例如:"V2EX Member Wang Shares Insights on MacBook Pro Problems"
Semalt 将爬取的数据无差别地输入 LLM, 要求生成"吸引眼球的新闻", 完全不在乎内容的任何真实性.
为什么我认为是 Semalt.com
直接证据:重定向追踪
在测试这些虚假页面时, 发现点击某些页面会被重定向到以下域名:
这些域名直接指向 Semalt 及其关联服务. 其中 podbex.com 直接重定向至 semalt.com aio.com.ai 的其中一个 google chrome 浏览器扩展的开发者是"Semalt LLC" semalt.com/autoseo 是 Semalt 的自动化 SEO 服务页面, 正是生成这些虚假页面的产品.
Semalt 的历史劣迹
Semalt.com 在 SEO 社区中早已臭名昭著:
referrer spam (引荐垃圾)
- 2014-2016 年, Semalt 大规模污染网站的 Google Analytics 数据
- 在访问统计中留下大量虚假引荐记录
- 目的是让网站管理员看到"semalt.com"并访问其网站
aggressive crawling (激进爬虫)
- 不遵守 robots.txt 规则
- 大量消耗服务器资源
- 被全球数万网站管理员投诉
黑帽 SEO 服务
- 承诺"快速提升排名"和"增加流量"
- 使用违反搜索引擎政策的手段
- 客户面临被 Google 惩罚的风险
社区讨论
- Moz 、Reddit /r/SEO 、WebmasterWorld 等平台有大量关于 Semalt 的投诉
- StackOverflow 上有数十个"如何屏蔽 Semalt"的技术问答
- 被 SEO 从业者广泛认为是"垃圾服务商"
商业模式吻合
- 不择手段获取流量
- 规模化操作
- 欺骗搜索引擎
- 滥用他人品牌
这些虚假的 AI 垃圾仍然在极速增速生成
根据识别号变化推算:
| 时期 | 识别号范围 | 日均生成量 |
|---|---|---|
| 10 月中旬 | 120 万 → 290 万 | 约 12 万/天 |
| 10 月底-11 月初 | 290 万 → 770 万 | 约 37 万/天 |
| 11 月中旬 | 770 万 → 1007 万 | 约 44 万/天 |
按当前速度计算:
- 每天:40 万+ 页
- 每小时:1.6 万+ 页
- 每分钟:280+ 页
- 每秒:4-5 页
希望站长能考虑屏蔽 Semalt 的爬虫访问 (他们似乎不在乎 robots.txt)
