1
Immortal 2017-11-06 10:17:01 +08:00 4
这和技术没啥关系
|
2
rocksolid 2017-11-06 10:17:21 +08:00 2
talk is cheap, show me the code
|
3
Devmingwang 2017-11-06 10:17:51 +08:00 via Android
色心的驱使。
|
4
ssshooter 2017-11-06 10:18:11 +08:00
切,男人.jpg
|
5
holajamc 2017-11-06 10:18:48 +08:00
我写了一个汤不热的爬虫= =根据 following 和 follower 继续抓取,写的太菜没发
|
6
Luckyray 2017-11-06 10:20:01 +08:00
技术不是一切
|
7
zrj766 2017-11-06 10:21:58 +08:00 via Android
都喜欢看漂亮妹子,滑稽
|
8
shuaige 2017-11-06 10:23:44 +08:00 via Android
1、这和技术没关系
2、性是第一生产力 |
9
likuku 2017-11-06 10:25:57 +08:00
建议楼主作个爬各种漂亮汉子图的爬虫站...反响也不会差
|
10
XiaoFaye 2017-11-06 10:28:29 +08:00 via Android
食色性也,几千年前的人都知道,楼主没理由不知道啊!
|
11
LastingTime OP @shuaige
@Immortal @Devmingwang @Luckyray 然而即使拿到源码或拿到那几个 G 的图片, 真的会一张张翻吗? 我觉得跟之前裸贷的接近 10 个 G 下载下来随便看几张就全删了会是同一个结果吧.. |
12
mooncakejs 2017-11-06 10:29:29 +08:00 1
楼主要是知道互联网超过一半以上流量是色情相关,会不会惊讶
|
13
LastingTime OP @mooncakejs
并不惊讶, 但是跟这个问题 性质好像不太一样. 毕竟咱们这波人是自己可以根据自己的喜好定制抓取.. 另外你应该想表达,人为流量的一半以上是色情吧, 互联网 9.7 成流量是机器干的.. |
14
tscat 2017-11-06 10:39:54 +08:00
互联网上,大部分社交软件,发家的时候往往伴随着 色 这个字眼。
马化腾还在 qq 上假装少妇和人聊天呢,什么微信摇一摇,陌陌。 然后直播,除了游戏,还有很大一部分还是色流。 |
15
testcount 2017-11-06 10:44:39 +08:00 via Android 1
想多了,关注这种东西的大多数都是刚开始学编程的小娃娃,而且觉得“这个东西对我好像有点用,照着抄一下,成就感爆棚”。V 站大多数编程老鸟根本不会点开链接看的,点开了最多看下实现有啥猫腻。
|
16
LastingTime OP @testcount 明白人
|
17
stephenyin 2017-11-06 11:54:19 +08:00 1
程序员就一定会 html 和爬虫么?我不会爬,所以别人爬到我会看的很开心。BTW,看起来 v2 已被前端占领。。。
|
18
HeyWeGo 2017-11-06 12:06:14 +08:00
除了食色性也,君不见,很多人还有收藏的心理,不看放着也挺好~
|
19
gamexg 2017-11-06 12:34:42 +08:00 via Android
@LastingTime 别说翻了,爬虫也只是看一眼加个星标就完事,根本不会下载爬虫。
|
20
LastingTime OP @stephenyin 哈哈哈 也有道理
|
21
LastingTime OP |
22
nuansediao 2017-11-06 13:00:12 +08:00
曲高和寡~~~你跟我谈流体力学,我也得能接的上话呀。
|
23
coderluan 2017-11-06 13:05:00 +08:00 1
你以为是发爬虫?其实是在发网站!!!
发个不知名小福利网站才会被点赞,发煎蛋这种烂大街只能被鄙视和吐槽。 |
25
woscaizi 2017-11-06 13:20:42 +08:00
其实也没那么受欢迎吧。
|
26
x86 2017-11-06 13:24:48 +08:00
煎蛋福利图那种叫养眼,色?
|
27
jin5354 2017-11-06 13:37:51 +08:00 1
跟做 vue 高仿美团外卖饿了么 能拿好多 star 是一个道理
『这个东西我好像能看懂,照着抄一下,成就感爆棚』 |
28
stzz 2017-11-06 13:45:48 +08:00
@LastingTime 不要代表所有人,10 个 G 的图片我就都看了
没错,我这种人就是这些图片的目标群体~ |
30
akira 2017-11-06 14:02:03 +08:00
整天讨论代码很无聊的。。
|
31
ylsc633 2017-11-06 14:32:38 +08:00
以前入行时候, 随手爬了一下 达盖尔.. 到现在还有人找我要那一段代码呢.....
可能是市场需要吧.. 最近几个公众号推送几个直播给我... 全是 肉色表演.. 一个房间同时观看的有好几千... 而且这些软件,隔个两三天就换证书(ios),几乎每天就会更新一次,且 一个星期左右就会换 logo 和名字... 然后一个月后,app 就会停了... 换新的! 还是市场需要.... |
32
8355 2017-11-06 14:40:43 +08:00
大家都是写代码 为什么工资有高低?
|
33
linuxchild 2017-11-06 14:43:10 +08:00
@ylsc633 老司机不开个车?
|
34
linuxchild 2017-11-06 14:43:26 +08:00
楼主只看见了技术,没看见人性。
|
35
oldmenplus 2017-11-06 15:03:12 +08:00 via Android
程序员。。。( ´Д`)=3
|
36
chenhaifeng 2017-11-06 15:06:20 +08:00 1
这就是为什么做的比抨击的厉害的原因。
|
37
wangfei324017 2017-11-06 15:10:42 +08:00
Python 爬虫确实太牛了,GitHub 上发现个爬某位 tumblr 博主的全部视频照片代码,买了搬瓦工 vps 做中转,一个月 1T 流量都被我用光了……
|
38
helica 2017-11-06 15:12:23 +08:00 via iPhone
(当人们发现手机可以看黄片)
|
39
yuhr123 2017-11-06 15:15:53 +08:00
性是科技发展的主要驱动力 原话不是这么说的,但就是这意思。
|
40
LastingTime OP @stzz 好的吧...
|
41
LastingTime OP @coderluan 我就是看到那个爬煎蛋的, 技术也不难, 网站也没墙, 关注的人还不少, 所以很奇怪
|
42
LastingTime OP @jin5354 懂你意思
|
44
LastingTime OP @ylsc633 确实, 能生存说明有需求有市场, 有对应的受众, 倒是我想多了
|
45
LastingTime OP @chenhaifeng 没明白, 什么意思?
|
46
pq 2017-11-06 15:40:49 +08:00
@LastingTime 可能多数人懒得自己动手吧,你自己东扒一点西抓一把多费事,这下人家给你一下子给了你一箩筐现成的,肯定就吸引人了。
比如你弄个 app,将各种福利直播整合到一起,肯定有市场(不过,这种玩意现在已经有很多了,不过还没有免费的)。。。:D |
47
surv2ex 2017-11-06 15:57:57 +08:00
好色之心,人皆有之
|
48
coderluan 2017-11-06 16:01:04 +08:00
@LastingTime #41 那个没受欢迎啊,大多数吐槽和鄙视的
|
49
tdstevelx333 2017-11-06 16:03:41 +08:00 via Android
@wangfei324017 能请教下那个代码的地址?
|
50
hanxiaoqiang 2017-11-06 16:05:56 +08:00 via iPhone
话说,从哪里开始爬的呢?
|
51
Tunar 2017-11-06 16:44:43 +08:00
看妹子而已
|
52
rswl 2017-11-06 17:58:13 +08:00
跟技术无关 两个同标题的帖子一个封面有小姐姐一个没有你猜哪个点击率高
|
53
zcc0810 2017-11-06 18:11:21 +08:00
心之所向,性之所往
|
54
woshinide300yuan 2017-11-06 18:16:51 +08:00
哈哈~ 纯属凑热闹嘛。毕竟其他领域可能还涉及到有没有兴趣的问题。福利谁会没兴趣哦~~~~~~
|
55
stcasshern 2017-11-06 18:18:23 +08:00
开个不好笑的玩笑,露珠有点像进入贤者时间了哈哈。
|
56
ii4Rookie 2017-11-06 18:52:59 +08:00
这种东西一个人看是没意思的,要一起分享 大家才会觉得有意思
|
57
momocraft 2017-11-06 18:54:26 +08:00
门槛低。更复杂的事,哪怕更有价值,这些人未必看得懂。
|
58
c4fun 2017-11-06 19:16:09 +08:00
都是来看网址的
|
59
sola97 2017-11-06 20:47:46 +08:00 via Android
@holajamc 我按照这个规则,爬了 tumblr 的上万个视频,精品要百里挑一,人工筛选吃不消,最后就按标题挑了一些来看然后就没兴致了
|
60
idblife 2017-11-06 21:41:44 +08:00
|
61
ryd994 2017-11-07 02:08:28 +08:00 via Android
重点在福利而不在简单
你要有能力爬复杂的福利站,一样有流量 |
63
fish19901010 2017-11-07 09:25:26 +08:00
重点在福利不在简单+1,我相信就算人工保存下来过来发帖,一样能够很高人气。。。关键在于分享的快乐,以及聚众看片的那种感觉。
|
65
yuxuan 2017-11-07 09:55:11 +08:00
最大的乐趣还是 “卧槽 我在办公室直接打开了 XXX 就在我旁边”😂
|
66
jijiwaiwai 2017-11-07 10:55:04 +08:00
#encoding=utf8
import re import os import urllib import requests import download_progress from pyquery import PyQuery httplib = requests.Session() # httplib.proxies = { # "http": "127.0.0.1:1080", # "https": "127.0.0.1:1080", # } httplib.proxies = None BASE_URL = "http://www.91porn.com" # BASE_URL = "http://email.91dizhi.at.gmail.com.7h4.space" HOST = BASE_URL.replace("http://", "") headers = { "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Accept-Encoding": "gzip, deflate, sdch", "Accept-Language": "zh-CN,zh;q=0.8,en;q=0.6,ja;q=0.4", "Cache-Control": "max-age=0", "Connection": "keep-alive", "Upgrade-Insecure-Requests": "1", "Cookie": "__cfduid=db012482c270fa1f5ded2903a6e23bc7c1489314005; CLIPSHARE=mkfverli1mp659s49rklg7s4c6; watch_times=1; evercookie_cache=undefined; evercookie_etag=undefined; show_msg=3; 91username=dfdsdfdgfgdfgf; DUID=51a2l wwqvsbLKLuC8GzQhovCxkJIoz3nOTQ3cXXjR4w31%2FFE; USERNAME=18f7vcdO6LmTdVWCgMCD1L0IVQqGLjL0BWT%2FxBYxbXDXzFxQRSnfKsKTVg; user_level=1; EMAILVERIFIED=no; level=1; __utma=69831812.144777271.1489314006.1489314006.1489322790.2; __utmb=69 831812.0.10.1489322790; __utmc=69831812; __utmz=69831812.1489314006.1.1.utmcsr=91dizhi.space|utmccn=(referral)|utmcmd=referral|utmcct=/; AJSTAT_ok_pages=8; AJSTAT_ok_times=2", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36" } def get_vids_v1(): url = "%s/v.php?category=top&viewtype=basic" %BASE_URL data = httplib.get(url, headers=headers).content DOM = PyQuery(data) a_list = DOM("div.listchannel a") urls = [] for i in range(len(a_list)): href = a_list.eq(i).attr("href") if "viewkey" in href: urls.append(href) # print href urls = list(set(urls)) # print "\n".join(urls) return urls def get_vids(): url = "%s/index.php" %BASE_URL data = httplib.get(url, headers=headers).content DOM = PyQuery(data) a_list = DOM("div#tab-featured a") urls = [] for i in range(len(a_list)): href = a_list.eq(i).attr("href") if "viewkey" in href: urls.append(href) # print href urls = list(set(urls)) # print "\n".join(urls) return urls def get_video_url_v1(url): data = httplib.get(url, headers=headers, timeout=10).content data = data.replace("\n", "") data = data.replace(" ", "") # print data """ <title> xxxx-Chinese homemade video</title> so.addVariable('file','201812'); so.addVariable('max_vid','202377'); so.addVariable('seccode' , '842fa039535238905a93ccb961e21183'); """ # print re.findall("so.addVariable.+?so.write", data) title = re.findall("<title>(.+?)-(.+?)</title>", data)[0] VID = re.findall("so.addVariable\('file','(\d+)'\);", data)[0] max_vid = re.findall("so.addVariable\('max_vid','(\d+)'\);", data)[0] seccode = re.findall("so.addVariable\('seccode','(.+?)'\);", data)[0] getfile_url = "%s/getfile.php?VID=%s&mp4=0&seccode=%s&max_vid=%s" %(BASE_URL, VID, seccode, max_vid) # print getfile_url """ file=http%3A%2F%2F192.240.120.2%2Fmp43%2F202132.mp4%3Fst%3DeGVzsftsOLn7pxPgdeV-dg%26e%3D1489306723&domainUrl=http://91porn.ro.lt&imgUrl=http://img.file.am/91porn/> """ headers["Referer"] = url headers["X-Requested-With"] = "ShockwaveFlash/23.0.0.207" headers["Accept"] = "*/*" headers["Host"] = "*/*" headers["Connection"] = "keep-alive" data = httplib.get(getfile_url, headers=headers, timeout=10).content # print data.strip() video_url = data.split("&domainUrl=")[0].split("file=")[-1] video_url = urllib.unquote(video_url) # print video_url print VID, title, video_url return VID, video_url def get_video_url(url): data = httplib.get(url, headers=headers, timeout=10).content data = data.replace("\n", "") data = data.replace("\r", "") video_url = re.findall('<source src="(.+?)"', data)[0] title = re.findall('<div id="viewvideo-title">(.+?)</div>', data)[0] # print video_url print title.decode("utf8") print video_url return title, video_url def download_video(video_url, file_name): if os.path.exists(file_name): return True conn = urllib.urlopen(video_url) data = download_progress.chunk_read(conn, report_hook=download_progress.chunk_report) f = open(file_name, "wb") f.write(data) f.close() urls = get_vids() for url in urls: print "=" * 60 print url try: title, video_url = get_video_url(url) title = title.replace("/", "-") title = title.replace("?", "-") title = title.replace(":", "-") title = title.replace("\\", "-") title = title.replace("(", "") title = title.replace(")", "") title = title.replace("&", "-") title = title.replace(" ", "-") title = title.replace("\"", "") title = title.replace("'", "") file_name = "downloads/%s.mp4" %(title) # file_name = "%s.mp4" %(url.split("viewkey=")[-1].split("&")[0]) # print video_url download_video(video_url, file_name) os.system("echo 11111 >> %s" %file_name) except Exception as e: # print e pass |
67
ic3z 2017-11-07 11:01:55 +08:00 via Android
为什么讨论爬福利站的帖子的帖子也能引起巨大关注量
|
70
LastingTime OP @holajamc six six six
|
71
holajamc 2017-11-08 12:29:51 +08:00
@LastingTime 设想是这样的根据音频识别文字然后 testrank 算出来关键文本最后 ngram 推测语言 2333
|
72
wangfei324017 2017-12-05 10:27:22 +08:00
|
73
5ipapa 2022-12-21 13:05:17 +08:00
|