为什么爬一些简单的福利站总能引起巨大关注量?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3062 天前的主题，其中的信息可能已经有所发展或是发生改变。

没有贬低的意思, 只是好奇一从些简单的公开的网站上爬下来些妹子图、福利图等
然后发在 V2EX 就这么受欢迎和关注..
尤其是程序员版块, 这不是稍微会点 HTTP 相关技能就能做到的事情吗?

福利站

V2EX

贬低

程序员

73 条回复 2022-12-21 13:05:17 +08:00

Immortal

2017 年 11 月 6 日

这和技术没啥关系

rocksolid

2017 年 11 月 6 日

talk is cheap, show me the code

Devmingwang

2017 年 11 月 6 日 via Android

色心的驱使。

ssshooter

2017 年 11 月 6 日

切，男人.jpg

holajamc

2017 年 11 月 6 日

我写了一个汤不热的爬虫= =根据 following 和 follower 继续抓取，写的太菜没发

Luckyray

2017 年 11 月 6 日

技术不是一切

zrj766

2017 年 11 月 6 日 via Android

都喜欢看漂亮妹子，滑稽

shuaige

2017 年 11 月 6 日 via Android

1、这和技术没关系
2、性是第一生产力

likuku

2017 年 11 月 6 日

建议楼主作个爬各种漂亮汉子图的爬虫站...反响也不会差

XiaoFaye

2017 年 11 月 6 日 via Android

食色性也，几千年前的人都知道，楼主没理由不知道啊！

LastingTime

2017 年 11 月 6 日

@shuaige
@Immortal
@Devmingwang
@Luckyray
然而即使拿到源码或拿到那几个 G 的图片, 真的会一张张翻吗?
我觉得跟之前裸贷的接近 10 个 G 下载下来随便看几张就全删了会是同一个结果吧..

mooncakejs

2017 年 11 月 6 日

楼主要是知道互联网超过一半以上流量是色情相关，会不会惊讶

LastingTime

2017 年 11 月 6 日

@mooncakejs
并不惊讶, 但是跟这个问题性质好像不太一样. 毕竟咱们这波人是自己可以根据自己的喜好定制抓取..
另外你应该想表达,人为流量的一半以上是色情吧, 互联网 9.7 成流量是机器干的..

tscat

2017 年 11 月 6 日

互联网上，大部分社交软件，发家的时候往往伴随着色这个字眼。
马化腾还在 qq 上假装少妇和人聊天呢，什么微信摇一摇，陌陌。
然后直播，除了游戏，还有很大一部分还是色流。

testcount

2017 年 11 月 6 日 via Android

想多了，关注这种东西的大多数都是刚开始学编程的小娃娃，而且觉得“这个东西对我好像有点用，照着抄一下，成就感爆棚”。V 站大多数编程老鸟根本不会点开链接看的，点开了最多看下实现有啥猫腻。

LastingTime

2017 年 11 月 6 日

@testcount 明白人

stephenyin

2017 年 11 月 6 日

程序员就一定会 html 和爬虫么？我不会爬，所以别人爬到我会看的很开心。BTW，看起来 v2 已被前端占领。。。

HeyWeGo

2017 年 11 月 6 日

除了食色性也，君不见，很多人还有收藏的心理，不看放着也挺好~

gamexg

2017 年 11 月 6 日 via Android

@LastingTime 别说翻了，爬虫也只是看一眼加个星标就完事，根本不会下载爬虫。

LastingTime

2017 年 11 月 6 日

@stephenyin 哈哈哈也有道理

LastingTime

2017 年 11 月 6 日

@HeyWeGo
@gamexg
恩跟 15 楼朋友一个意思

nuansediao

2017 年 11 月 6 日

曲高和寡~~~你跟我谈流体力学，我也得能接的上话呀。

coderluan

2017 年 11 月 6 日

你以为是发爬虫？其实是在发网站！！！

发个不知名小福利网站才会被点赞，发煎蛋这种烂大街只能被鄙视和吐槽。

ZYX0819

2017 年 11 月 6 日

@holajamc 不翻墙的话能看你的内容吗。。可以的话跪求啊

woscaizi

2017 年 11 月 6 日

其实也没那么受欢迎吧。

x86

2017 年 11 月 6 日

煎蛋福利图那种叫养眼，色？

jin5354

2017 年 11 月 6 日

跟做 vue 高仿美团外卖饿了么能拿好多 star 是一个道理
『这个东西我好像能看懂，照着抄一下，成就感爆棚』

stzz

2017 年 11 月 6 日

@LastingTime 不要代表所有人,10 个 G 的图片我就都看了
没错,我这种人就是这些图片的目标群体~

holajamc

2017 年 11 月 6 日

@ZYX0819前置条件是有一个前端= =我不会

akira

2017 年 11 月 6 日

整天讨论代码很无聊的。。

ylsc633

2017 年 11 月 6 日

以前入行时候, 随手爬了一下达盖尔.. 到现在还有人找我要那一段代码呢.....

可能是市场需要吧..

最近几个公众号推送几个直播给我...

全是肉色表演..

一个房间同时观看的有好几千... 而且这些软件,隔个两三天就换证书(ios),几乎每天就会更新一次,且一个星期左右就会换 logo 和名字... 然后一个月后,app 就会停了... 换新的!

还是市场需要....

8355

2017 年 11 月 6 日

大家都是写代码为什么工资有高低?

linuxchild

2017 年 11 月 6 日

@ylsc633 老司机不开个车？

linuxchild

2017 年 11 月 6 日

楼主只看见了技术，没看见人性。

oldmenplus

2017 年 11 月 6 日 via Android

程序员。。。( Д｀)=3

chenhaifeng

2017 年 11 月 6 日

这就是为什么做的比抨击的厉害的原因。

wangfei324017

2017 年 11 月 6 日

Python 爬虫确实太牛了，GitHub 上发现个爬某位 tumblr 博主的全部视频照片代码，买了搬瓦工 vps 做中转，一个月 1T 流量都被我用光了……

helica

2017 年 11 月 6 日 via iPhone

(当人们发现手机可以看黄片)

yuhr123

2017 年 11 月 6 日

性是科技发展的主要驱动力原话不是这么说的，但就是这意思。

LastingTime

2017 年 11 月 6 日

@stzz 好的吧...

LastingTime

2017 年 11 月 6 日

@coderluan 我就是看到那个爬煎蛋的, 技术也不难, 网站也没墙, 关注的人还不少, 所以很奇怪

LastingTime

2017 年 11 月 6 日

@jin5354 懂你意思

Sain

2017 年 11 月 6 日

@ylsc633 求公众号

LastingTime

2017 年 11 月 6 日

@ylsc633 确实, 能生存说明有需求有市场, 有对应的受众, 倒是我想多了

LastingTime

2017 年 11 月 6 日

@chenhaifeng 没明白, 什么意思?

2017 年 11 月 6 日

@LastingTime 可能多数人懒得自己动手吧，你自己东扒一点西抓一把多费事，这下人家给你一下子给了你一箩筐现成的，肯定就吸引人了。

比如你弄个 app，将各种福利直播整合到一起，肯定有市场（不过，这种玩意现在已经有很多了，不过还没有免费的）。。。:D

surv2ex

2017 年 11 月 6 日

好色之心，人皆有之

coderluan

2017 年 11 月 6 日

@LastingTime #41 那个没受欢迎啊，大多数吐槽和鄙视的

tdstevelx333

2017 年 11 月 6 日 via Android

@wangfei324017 能请教下那个代码的地址？

hanxiaoqiang

2017 年 11 月 6 日 via iPhone

话说，从哪里开始爬的呢？

Tunar

2017 年 11 月 6 日

看妹子而已

rswl

2017 年 11 月 6 日

跟技术无关两个同标题的帖子一个封面有小姐姐一个没有你猜哪个点击率高

zcc0810

2017 年 11 月 6 日

心之所向，性之所往

woshinide300yuan

2017 年 11 月 6 日

哈哈~ 纯属凑热闹嘛。毕竟其他领域可能还涉及到有没有兴趣的问题。福利谁会没兴趣哦~~~~~~

stcasshern

2017 年 11 月 6 日

开个不好笑的玩笑，露珠有点像进入贤者时间了哈哈。

ii4Rookie

2017 年 11 月 6 日

这种东西一个人看是没意思的，要一起分享大家才会觉得有意思

momocraft

2017 年 11 月 6 日

门槛低。更复杂的事，哪怕更有价值，这些人未必看得懂。

c4fun

2017 年 11 月 6 日

都是来看网址的

sola97

2017 年 11 月 6 日 via Android

@holajamc 我按照这个规则，爬了 tumblr 的上万个视频，精品要百里挑一，人工筛选吃不消，最后就按标题挑了一些来看然后就没兴致了

idblife

2017 年 11 月 6 日

让我来上个网址吧
爬虫保证不了质量啊

https://qingbuyaohaixiu.com/

ryd994

2017 年 11 月 7 日 via Android

重点在福利而不在简单
你要有能力爬复杂的福利站，一样有流量

zjlin1984

2017 年 11 月 7 日

@ryd994 这个见解比较好。

fish19901010

2017 年 11 月 7 日

重点在福利不在简单+1，我相信就算人工保存下来过来发帖，一样能够很高人气。。。关键在于分享的快乐，以及聚众看片的那种感觉。

holajamc

2017 年 11 月 7 日

@sola97 嗯我也没有细细看过，不如抽出来关键帧去阿里鉴别一下？

yuxuan

2017 年 11 月 7 日

最大的乐趣还是 “卧槽我在办公室直接打开了 XXX 就在我旁边”

jijiwaiwai

2017 年 11 月 7 日

#encoding=utf8
import re
import os
import urllib
import requests
import download_progress
from pyquery import PyQuery

httplib = requests.Session()
# httplib.proxies = {
# "http": "127.0.0.1:1080",
# "https": "127.0.0.1:1080",
# }
httplib.proxies = None

BASE_URL = "http://www.91porn.com"
# BASE_URL = "http://email.91dizhi.at.gmail.com.7h4.space"
HOST = BASE_URL.replace("http://", "")
headers = {
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Encoding": "gzip, deflate, sdch",
"Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6,ja;q=0.4",
"Cache-Control": "max-age=0",
"Connection": "keep-alive",
"Upgrade-Insecure-Requests": "1",
"Cookie": "__cfduid=db012482c270fa1f5ded2903a6e23bc7c1489314005; CLIPSHARE=mkfverli1mp659s49rklg7s4c6; watch_times=1; evercookie_cache=undefined; evercookie_etag=undefined; show_msg=3; 91username=dfdsdfdgfgdfgf; DUID=51a2l
wwqvsbLKLuC8GzQhovCxkJIoz3nOTQ3cXXjR4w31%2FFE; USERNAME=18f7vcdO6LmTdVWCgMCD1L0IVQqGLjL0BWT%2FxBYxbXDXzFxQRSnfKsKTVg; user_level=1; EMAILVERIFIED=no; level=1; __utma=69831812.144777271.1489314006.1489314006.1489322790.2; __utmb=69
831812.0.10.1489322790; __utmc=69831812; __utmz=69831812.1489314006.1.1.utmcsr=91dizhi.space|utmccn=(referral)|utmcmd=referral|utmcct=/; AJSTAT_ok_pages=8; AJSTAT_ok_times=2",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36"
}

def get_vids_v1():
url = "%s/v.php?category=top&viewtype=basic" %BASE_URL
data = httplib.get(url, headers=headrs).content
DOM = PyQuery(data)
a_list = DOM("div.listchannel a")
urls = []
for i in range(len(a_list)):
href = a_list.eq(i).attr("href")
if "viewkey" in href:
urls.append(href)
# print href

urls = list(set(urls))
# print "\n".join(urls)
return urls

def get_vids():
url = "%s/index.php" %BASE_URL
data = httplib.get(url, headers=headers).content
DOM = PyQuery(data)
a_list = DOM("div#tab-featured a")
urls = []
for i in range(len(a_list)):
href = a_list.eq(i).attr("href")
if "viewkey" in href:
urls.append(href)
# print href

urls = list(set(urls))
# print "\n".join(urls)
return urls

def get_video_url_v1(url):
data = httplib.get(url, headers=headers, timeout=10).content
data = data.replace("\n", "")
data = data.replace(" ", "")
# print data
"""
<title> xxxx-Chinese homemade video</title>
so.addVariable('file','201812');
so.addVariable('max_vid','202377');
so.addVariable('seccode' , '842fa039535238905a93ccb961e21183');
"""
# print re.findall("so.addVariable.+?so.write", data)

title = re.findall("<title>(.+?)-(.+?)</title>", data)[0]
VID = re.findall("so.addVariable\('file','(\d+)'\);", data)[0]
max_vid = re.findall("so.addVariable\('max_vid','(\d+)'\);", data)[0]
seccode = re.findall("so.addVariable\('seccode','(.+?)'\);", data)[0]

getfile_url = "%s/getfile.php?VID=%s&mp4=0&seccode=%s&max_vid=%s" %(BASE_URL, VID, seccode, max_vid)
# print getfile_url
"""
file=http%3A%2F%2F192.240.120.2%2Fmp43%2F202132.mp4%3Fst%3DeGVzsftsOLn7pxPgdeV-dg%26e%3D1489306723&domainUrl=http://91porn.ro.lt&imgUrl=http://img.file.am/91porn/>
"""
headers["Referer"] = url
headers["X-Requested-With"] = "ShockwaveFlash/23.0.0.207"
headers["Accept"] = "*/*"
headers["Host"] = "*/*"
headers["Connection"] = "keep-alive"

data = httplib.get(getfile_url, headers=headers, timeout=10).content
# print data.strip()
video_url = data.split("&domainUrl=")[0].split("file=")[-1]
video_url = urllib.unquote(video_url)
# print video_url
print VID, title, video_url
return VID, video_url

def get_video_url(url):
data = httplib.get(url, headers=headers, timeout=10).content
data = data.replace("\n", "")
data = data.replace("\r", "")
video_url = re.findall('<source src="(.+?)"', data)[0]
title = re.findall('<div id="viewvideo-title">(.+?)</div>', data)[0]
# print video_url
print title.decode("utf8")
print video_url
return title, video_url

def download_video(video_url, file_name):
if os.path.exists(file_name):
return True

cOnn= urllib.urlopen(video_url)
data = download_progress.chunk_read(conn, report_hook=download_progress.chunk_report)
f = open(file_name, "wb")
f.write(data)
f.close()

urls = get_vids()
for url in urls:
print "=" * 60
print url
try:
title, video_url = get_video_url(url)
title = title.replace("/", "-")
title = title.replace("?", "-")
title = title.replace(":", "-")
title = title.replace("\\", "-")
title = title.replace("(", "")
title = title.replace(")", "")
title = title.replace("&", "-")
title = title.replace(" ", "-")
title = title.replace("\"", "")
title = title.replace("'", "")

file_name = "downloads/%s.mp4" %(title)
# file_name = "%s.mp4" %(url.split("viewkey=")[-1].split("&")[0])
# print video_url
download_video(video_url, file_name)

os.system("echo 11111 >> %s" %file_name)

except Exception as e:
# print e
pass

ic3z

2017 年 11 月 7 日 via Android

为什么讨论爬福利站的帖子的帖子也能引起巨大关注量

sola97

2017 年 11 月 7 日

@holajamc #64 阿里要是能鉴别是欧美的还是亚洲的就好了哈哈

holajamc

2017 年 11 月 7 日

@sola97 我觉得根据音频嗯说不定可以（滑稽.png

LastingTime

2017 年 11 月 8 日

@holajamc six six six

holajamc

2017 年 11 月 8 日

@LastingTime 设想是这样的根据音频识别文字然后 testrank 算出来关键文本最后 ngram 推测语言 2333

wangfei324017

2017 年 12 月 5 日

@tdstevelx333 #49 https://github.com/dixudx/tumblr-crawler

5ipapa

2022 年 12 月 21 日

嘟嘟嘟发车了
t.9217lu.com/t8k2c8
收藏不迷路