
1 Immortal 2017 年 11 月 6 日 这和技术没啥关系 |
2 rocksolid 2017 年 11 月 6 日 talk is cheap, show me the code |
3 Devmingwang 2017 年 11 月 6 日 via Android 色心的驱使。 |
4 ssshooter 2017 年 11 月 6 日 切,男人.jpg |
5 holajamc 2017 年 11 月 6 日 我写了一个汤不热的爬虫= =根据 following 和 follower 继续抓取,写的太菜没发 |
6 Luckyray 2017 年 11 月 6 日 技术不是一切 |
7 zrj766 2017 年 11 月 6 日 via Android 都喜欢看漂亮妹子,滑稽 |
8 shuaige 2017 年 11 月 6 日 via Android 1、这和技术没关系 2、性是第一生产力 |
9 likuku 2017 年 11 月 6 日 建议楼主作个爬各种漂亮汉子图的爬虫站...反响也不会差 |
10 XiaoFaye 2017 年 11 月 6 日 via Android 食色性也,几千年前的人都知道,楼主没理由不知道啊! |
11 LastingTime OP @shuaige @Immortal @Devmingwang @Luckyray 然而即使拿到源码或拿到那几个 G 的图片, 真的会一张张翻吗? 我觉得跟之前裸贷的接近 10 个 G 下载下来随便看几张就全删了会是同一个结果吧.. |
12 mooncakejs 2017 年 11 月 6 日 楼主要是知道互联网超过一半以上流量是色情相关,会不会惊讶 |
13 LastingTime OP @mooncakejs 并不惊讶, 但是跟这个问题 性质好像不太一样. 毕竟咱们这波人是自己可以根据自己的喜好定制抓取.. 另外你应该想表达,人为流量的一半以上是色情吧, 互联网 9.7 成流量是机器干的.. |
14 tscat 2017 年 11 月 6 日 互联网上,大部分社交软件,发家的时候往往伴随着 色 这个字眼。 马化腾还在 qq 上假装少妇和人聊天呢,什么微信摇一摇,陌陌。 然后直播,除了游戏,还有很大一部分还是色流。 |
15 testcount 2017 年 11 月 6 日 via Android 想多了,关注这种东西的大多数都是刚开始学编程的小娃娃,而且觉得“这个东西对我好像有点用,照着抄一下,成就感爆棚”。V 站大多数编程老鸟根本不会点开链接看的,点开了最多看下实现有啥猫腻。 |
16 LastingTime OP @testcount 明白人 |
17 stephenyin 2017 年 11 月 6 日 程序员就一定会 html 和爬虫么?我不会爬,所以别人爬到我会看的很开心。BTW,看起来 v2 已被前端占领。。。 |
18 HeyWeGo 2017 年 11 月 6 日 除了食色性也,君不见,很多人还有收藏的心理,不看放着也挺好~ |
19 gamexg 2017 年 11 月 6 日 via Android @LastingTime 别说翻了,爬虫也只是看一眼加个星标就完事,根本不会下载爬虫。 |
20 LastingTime OP @stephenyin 哈哈哈 也有道理 |
21 LastingTime OP |
22 nuansediao 2017 年 11 月 6 日 曲高和寡~~~你跟我谈流体力学,我也得能接的上话呀。 |
23 coderluan 2017 年 11 月 6 日 你以为是发爬虫?其实是在发网站!!! 发个不知名小福利网站才会被点赞,发煎蛋这种烂大街只能被鄙视和吐槽。 |
25 woscaizi 2017 年 11 月 6 日 其实也没那么受欢迎吧。 |
26 x86 2017 年 11 月 6 日 煎蛋福利图那种叫养眼,色? |
27 jin5354 2017 年 11 月 6 日 跟做 vue 高仿美团外卖饿了么 能拿好多 star 是一个道理 『这个东西我好像能看懂,照着抄一下,成就感爆棚』 |
28 stzz 2017 年 11 月 6 日 @LastingTime 不要代表所有人,10 个 G 的图片我就都看了 没错,我这种人就是这些图片的目标群体~ |
30 akira 2017 年 11 月 6 日 整天讨论代码很无聊的。。 |
31 ylsc633 2017 年 11 月 6 日 以前入行时候, 随手爬了一下 达盖尔.. 到现在还有人找我要那一段代码呢..... 可能是市场需要吧.. 最近几个公众号推送几个直播给我... 全是 肉色表演.. 一个房间同时观看的有好几千... 而且这些软件,隔个两三天就换证书(ios),几乎每天就会更新一次,且 一个星期左右就会换 logo 和名字... 然后一个月后,app 就会停了... 换新的! 还是市场需要.... |
32 8355 2017 年 11 月 6 日 大家都是写代码 为什么工资有高低? |
33 linuxchild 2017 年 11 月 6 日 @ylsc633 老司机不开个车? |
34 linuxchild 2017 年 11 月 6 日 楼主只看见了技术,没看见人性。 |
35 oldmenplus 2017 年 11 月 6 日 via Android 程序员。。。( Д`)=3 |
36 chenhaifeng 2017 年 11 月 6 日 这就是为什么做的比抨击的厉害的原因。 |
37 wangfei324017 2017 年 11 月 6 日 Python 爬虫确实太牛了,GitHub 上发现个爬某位 tumblr 博主的全部视频照片代码,买了搬瓦工 vps 做中转,一个月 1T 流量都被我用光了…… |
38 helica 2017 年 11 月 6 日 via iPhone (当人们发现手机可以看黄片) |
39 yuhr123 2017 年 11 月 6 日 性是科技发展的主要驱动力 原话不是这么说的,但就是这意思。 |
40 LastingTime OP @stzz 好的吧... |
41 LastingTime OP @coderluan 我就是看到那个爬煎蛋的, 技术也不难, 网站也没墙, 关注的人还不少, 所以很奇怪 |
42 LastingTime OP @jin5354 懂你意思 |
44 LastingTime OP @ylsc633 确实, 能生存说明有需求有市场, 有对应的受众, 倒是我想多了 |
45 LastingTime OP @chenhaifeng 没明白, 什么意思? |
46 pq 2017 年 11 月 6 日 @LastingTime 可能多数人懒得自己动手吧,你自己东扒一点西抓一把多费事,这下人家给你一下子给了你一箩筐现成的,肯定就吸引人了。 比如你弄个 app,将各种福利直播整合到一起,肯定有市场(不过,这种玩意现在已经有很多了,不过还没有免费的)。。。:D |
47 surv2ex 2017 年 11 月 6 日 好色之心,人皆有之 |
48 coderluan 2017 年 11 月 6 日 @LastingTime #41 那个没受欢迎啊,大多数吐槽和鄙视的 |
49 tdstevelx333 2017 年 11 月 6 日 via Android @wangfei324017 能请教下那个代码的地址? |
50 hanxiaoqiang 2017 年 11 月 6 日 via iPhone 话说,从哪里开始爬的呢? |
51 Tunar 2017 年 11 月 6 日 看妹子而已 |
52 rswl 2017 年 11 月 6 日 跟技术无关 两个同标题的帖子一个封面有小姐姐一个没有你猜哪个点击率高 |
53 zcc0810 2017 年 11 月 6 日 心之所向,性之所往 |
54 woshinide300yuan 2017 年 11 月 6 日 哈哈~ 纯属凑热闹嘛。毕竟其他领域可能还涉及到有没有兴趣的问题。福利谁会没兴趣哦~~~~~~ |
55 stcasshern 2017 年 11 月 6 日 开个不好笑的玩笑,露珠有点像进入贤者时间了哈哈。 |
56 ii4Rookie 2017 年 11 月 6 日 这种东西一个人看是没意思的,要一起分享 大家才会觉得有意思 |
57 momocraft 2017 年 11 月 6 日 门槛低。更复杂的事,哪怕更有价值,这些人未必看得懂。 |
58 c4fun 2017 年 11 月 6 日 都是来看网址的 |
59 sola97 2017 年 11 月 6 日 via Android @holajamc 我按照这个规则,爬了 tumblr 的上万个视频,精品要百里挑一,人工筛选吃不消,最后就按标题挑了一些来看然后就没兴致了 |
60 idblife 2017 年 11 月 6 日 |
61 ryd994 2017 年 11 月 7 日 via Android 重点在福利而不在简单 你要有能力爬复杂的福利站,一样有流量 |
63 fish19901010 2017 年 11 月 7 日 重点在福利不在简单+1,我相信就算人工保存下来过来发帖,一样能够很高人气。。。关键在于分享的快乐,以及聚众看片的那种感觉。 |
65 yuxuan 2017 年 11 月 7 日 最大的乐趣还是 “卧槽 我在办公室直接打开了 XXX 就在我旁边” |
66 jijiwaiwai 2017 年 11 月 7 日 #encoding=utf8 import re import os import urllib import requests import download_progress from pyquery import PyQuery httplib = requests.Session() # httplib.proxies = { # "http": "127.0.0.1:1080", # "https": "127.0.0.1:1080", # } httplib.proxies = None BASE_URL = "http://www.91porn.com" # BASE_URL = "http://email.91dizhi.at.gmail.com.7h4.space" HOST = BASE_URL.replace("http://", "") headers = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6,ja;q=0.4", "Cache-Control": "max-age=0", "Connection": "keep-alive", "Upgrade-Insecure-Requests": "1", "Cookie": "__cfduid=db012482c270fa1f5ded2903a6e23bc7c1489314005; CLIPSHARE=mkfverli1mp659s49rklg7s4c6; watch_times=1; evercookie_cache=undefined; evercookie_etag=undefined; show_msg=3; 91username=dfdsdfdgfgdfgf; DUID=51a2l wwqvsbLKLuC8GzQhovCxkJIoz3nOTQ3cXXjR4w31%2FFE; USERNAME=18f7vcdO6LmTdVWCgMCD1L0IVQqGLjL0BWT%2FxBYxbXDXzFxQRSnfKsKTVg; user_level=1; EMAILVERIFIED=no; level=1; __utma=69831812.144777271.1489314006.1489314006.1489322790.2; __utmb=69 831812.0.10.1489322790; __utmc=69831812; __utmz=69831812.1489314006.1.1.utmcsr=91dizhi.space|utmccn=(referral)|utmcmd=referral|utmcct=/; AJSTAT_ok_pages=8; AJSTAT_ok_times=2", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36" } def get_vids_v1(): url = "%s/v.php?category=top&viewtype=basic" %BASE_URL data = httplib.get(url, headers=headrs).content DOM = PyQuery(data) a_list = DOM("div.listchannel a") urls = [] for i in range(len(a_list)): href = a_list.eq(i).attr("href") if "viewkey" in href: urls.append(href) # print href urls = list(set(urls)) # print "\n".join(urls) return urls def get_vids(): url = "%s/index.php" %BASE_URL data = httplib.get(url, headers=headers).content DOM = PyQuery(data) a_list = DOM("div#tab-featured a") urls = [] for i in range(len(a_list)): href = a_list.eq(i).attr("href") if "viewkey" in href: urls.append(href) # print href urls = list(set(urls)) # print "\n".join(urls) return urls def get_video_url_v1(url): data = httplib.get(url, headers=headers, timeout=10).content data = data.replace("\n", "") data = data.replace(" ", "") # print data """ <title> xxxx-Chinese homemade video</title> so.addVariable('file','201812'); so.addVariable('max_vid','202377'); so.addVariable('seccode' , '842fa039535238905a93ccb961e21183'); """ # print re.findall("so.addVariable.+?so.write", data) title = re.findall("<title>(.+?)-(.+?)</title>", data)[0] VID = re.findall("so.addVariable\('file','(\d+)'\);", data)[0] max_vid = re.findall("so.addVariable\('max_vid','(\d+)'\);", data)[0] seccode = re.findall("so.addVariable\('seccode','(.+?)'\);", data)[0] getfile_url = "%s/getfile.php?VID=%s&mp4=0&seccode=%s&max_vid=%s" %(BASE_URL, VID, seccode, max_vid) # print getfile_url """ file=http%3A%2F%2F192.240.120.2%2Fmp43%2F202132.mp4%3Fst%3DeGVzsftsOLn7pxPgdeV-dg%26e%3D1489306723&domainUrl=http://91porn.ro.lt&imgUrl=http://img.file.am/91porn/> """ headers["Referer"] = url headers["X-Requested-With"] = "ShockwaveFlash/23.0.0.207" headers["Accept"] = "*/*" headers["Host"] = "*/*" headers["Connection"] = "keep-alive" data = httplib.get(getfile_url, headers=headers, timeout=10).content # print data.strip() video_url = data.split("&domainUrl=")[0].split("file=")[-1] video_url = urllib.unquote(video_url) # print video_url print VID, title, video_url return VID, video_url def get_video_url(url): data = httplib.get(url, headers=headers, timeout=10).content data = data.replace("\n", "") data = data.replace("\r", "") video_url = re.findall('<source src="(.+?)"', data)[0] title = re.findall('<div id="viewvideo-title">(.+?)</div>', data)[0] # print video_url print title.decode("utf8") print video_url return title, video_url def download_video(video_url, file_name): if os.path.exists(file_name): return True cOnn= urllib.urlopen(video_url) data = download_progress.chunk_read(conn, report_hook=download_progress.chunk_report) f = open(file_name, "wb") f.write(data) f.close() urls = get_vids() for url in urls: print "=" * 60 print url try: title, video_url = get_video_url(url) title = title.replace("/", "-") title = title.replace("?", "-") title = title.replace(":", "-") title = title.replace("\\", "-") title = title.replace("(", "") title = title.replace(")", "") title = title.replace("&", "-") title = title.replace(" ", "-") title = title.replace("\"", "") title = title.replace("'", "") file_name = "downloads/%s.mp4" %(title) # file_name = "%s.mp4" %(url.split("viewkey=")[-1].split("&")[0]) # print video_url download_video(video_url, file_name) os.system("echo 11111 >> %s" %file_name) except Exception as e: # print e pass |
67 ic3z 2017 年 11 月 7 日 via Android 为什么讨论爬福利站的帖子的帖子也能引起巨大关注量 |
70 LastingTime OP @holajamc six six six |
71 holajamc 2017 年 11 月 8 日 @LastingTime 设想是这样的根据音频识别文字然后 testrank 算出来关键文本最后 ngram 推测语言 2333 |
72 wangfei324017 2017 年 12 月 5 日 |
73 5ipapa 2022 年 12 月 21 日 |