YisouSpider[神马搜索]这是在 CC 攻击还是在抓取网站?它会给我们流量吗? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yeyeye
V2EX    问与答

YisouSpider[神马搜索]这是在 CC 攻击还是在抓取网站?它会给我们流量吗?

  yeyeye 2016-01-11 15:06:48 +08:00 3254 次点击
这是一个创建于 3563 天前的主题,其中的信息可能已经有所发展或是发生改变。
这些个参数,根本就不是我网站所拥有的,一上网搜索 YisouSpider 的神马搜索引擎站长都是想骂人, YisouSpider 蜘蛛的抓取速度又快,神马搜索的蜘蛛竟然还在网址后面加随机参数和值!

我就想问问,这个破搜索引擎真的会给你们来流量吗?

说真的,降低一下频率很难么……?遵守 robots.txt 很难么?我真是不懂这些做搜索引擎的。

网上还说神马搜索是阿里的,微博话题是#阿里神马搜索#……

神马搜索的网站 http://m.sm.cn http://sm.cn http://www.yisou.com [一搜搜索引擎] (电脑打不开搜索页面)

网站日志截图

网站日志备用图
http://i11.tietuku.com/a1dbfcc03ee42b8a.png

网友抱怨的就不发图了,大家自己点开就能看到鸟
https://www.baidu.com/s?wd=YisouSpider
https://www.google.com/#q=YisouSpider
18 条回复    2016-01-12 21:19:11 +08:00
yeyeye
    1
yeyeye  
OP
   2016-01-11 15:20:55 +08:00
最最不理解的就是在网址后面加随机参数,这不是 CC 攻击玩的那一套么……
popu111
    2
popu111  
   2016-01-11 21:04:49 +08:00 via Android   1
一般都是直接 ban ,好歹 yisou 还看 robots.txt , 360 那种直接无视的才让人蛋疼(不过 360 有流量,一年见不到一个 yisou 来的人)
yeyeye
    3
yeyeye  
OP
   2016-01-11 21:24:12 +08:00
@popu111 看 robots 或许是好的,但是随机加参数访问还过快,这就有点太奇葩。合理的弄好,虽然不会爱,但是也不太会抱怨就是了。
popu111
    4
popu111  
   2016-01-11 21:30:26 +08:00 via Android   1
@yeyeye yisou 蜘蛛被抱怨好多年了,还是先 disallow 吧
yeyeye
    5
yeyeye  
OP
   2016-01-11 22:26:58 +08:00
@popu111 我收不到你的 @
popu111
    6
popu111  
   2016-01-11 22:30:12 +08:00 via Android   1
@yeyeye 不知为何我好像被降权的很厉害,发个贴都能变 3 天前
@Livid 能请问一下我有什么大过错么?
Hello1995
    7
Hello1995  
   2016-01-11 22:46:16 +08:00 via Android   1
如果你用 Apache:

ine On

RewriteCond %{HTTP_USER_AGENT} .*(FooSpider) [NC]
RewriteRule ^.*$ http://zheshiyigebucunzaidewangzhan.com/ [R=301,L]

FooSpider 自行修改。
Andy1999
    8
Andy1999  
   2016-01-11 22:50:56 +08:00 via iPhone   1
这点流量都扛不住么?
Hello1995
    9
Hello1995  
   2016-01-11 22:53:16 +08:00 via Android   1
7# 更正: RewriteEngine On
dzxx36gyy
    10
dzxx36gyy  
   2016-01-12 00:31:52 +08:00 via Android   1
宜搜不但会发起 cc 一般的抓取,而且还会把页面转码,你的网页在手机端的宜搜结果是被宜搜转码的,并不会给你带来流量,可谓毒瘤……
Hello1995
    11
Hello1995  
   2016-01-12 00:57:14 +08:00 via Android   1
@dzxx36gyy 不是宜搜,是一搜。“神马搜索”
msg7086
    12
msg7086  
   2016-01-12 01:02:28 +08:00   1
@Andy1999 能抗住不代表就要去抗。
别人扇你一巴掌也不会让你残疾,不代表别人就可以扇你玩了啊。

@yeyeye 直接 ip ban 一个段就好了,轻松愉快。
Andy1999
    13
Andy1999  
   2016-01-12 01:18:47 +08:00 via iPhone   1
@msg7086 我觉得无所谓 你这比喻有问题
LEFT
    14
LEFT  
   2016-01-12 07:14:20 +08:00 via iPhone   1
你把包括 360 , yisou 在内的,统统重定向到 127.0.0.1 了
dzxx36gyy
    15
dzxx36gyy  
   2016-01-12 11:50:31 +08:00   1
@Hello1995 sorry ,一不小心叫错了,不过没搞错对象……宜搜的是 Easou ,这个 Yisou 我一直叫错_(:з」∠)_
doublleft
    16
doublleft  
   2016-01-12 12:22:31 +08:00   1
现在啊 招了几个阿里出来的就好意思说是阿里领军,搞了几个百度的就敢说自己和巨头合作。
我在阿里擦过玻璃,送过外卖,也算是上市公司合伙人了?
yeyeye
    17
yeyeye  
OP
   2016-01-12 14:22:03 +08:00
@Andy1999 看了一下频繁的时候 1 秒 5 次访问( php 页面)……那岂不是一天可以接受 45 万左右的流量……也正是最近看了日志才觉得写个过滤垃圾流量是很有必要的(很多扫漏洞的,有的一天暴力破解后台密码坚持了几天几夜,我还用的是虚拟主机,就害怕被管理咔嚓了)

如果是缓存到了倒也没关系……但是这搜索引擎居然还在随机字符……而且 wordpress 连 404 都是动态处理的,页面处理时间 0.5 秒左右!于是昨天忍无可忍写了个拦截的,每个请求消耗 0.0005 秒左右检查特征(符合规则就封 ip ,爽),但是大部分垃圾流量都干掉了。

@dzxx36gyy 蛋疼啊,原来如此,果断屏蔽!

@msg7086 wordpress 每个 404 页面 pv 要浪费 0.5 秒去处理,真心蛋疼

@doublleft 从一定程度上说,你在上班期间,你就是这个公司的一部分,当别人说 XXX 公司怎么怎么样的时候……说的不是公司……其实是人啊!
msg7086
    18
msg7086  
   2016-01-12 21:19:11 +08:00
#17 @yeyeye 这话说得不完全对。
有时候说的是人。
有时候说的是领导人 / 管理层。
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3536 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 31ms UTC 05:03 PVG 13:03 LAX 22:03 JFK 01:03
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86