V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 306 页 / 共 324 页
回复总数  6464
1 ... 302  303  304  305  306  307  308  309  310  311 ... 324  
2018-12-15 05:47:08 +08:00
回复了 changwei 创建的主题 问与答 Bilibili 上面那些数据可视化的视频,数据都是来自哪里?
@locoz #16 补充第一点的对比,可以看到用 [2017 年 8 月 17 号的全站数据] 统计出来的 [发布时间小于等于 2009 年 10 月 1 日的视频] 的收藏数都要比视频中的高出很多。
https://i.imgur.com/LwEUjrd.png
https://i.imgur.com/F7Z3XWj.png
2018-12-15 05:40:19 +08:00
回复了 changwei 创建的主题 问与答 Bilibili 上面那些数据可视化的视频,数据都是来自哪里?
首先从八年前开始爬到现在的概率非常低,这个 up 主的账号是 2014 年注册的,八年前他可能还不知道 b 站,或者并不会觉得这个网站的数据能有什么意义。
然后根据他发的视频内容来看,av26727147 这个视频里在 2009 年的时候就出现了广告和时尚区的记录,而这两个区在我的印象中是最近一两年才出来的;还有一点就是所有视频的开头都是有一部分不为 0。
推测出可能的情况:
1、根据发布时间筛选那个时间以前的视频,并计算需要的值的总和。(但是根据我服务器上 2017 年 8 月 17 日的全站数据来看,按这种方式算出来的值与视频中的对不上)
2、数据来源于第三方监控平台。(但是起始时间太早了,那时候一是可能没有这种监控平台,二是当时 b 站只是小众圈子,就算有监控平台也不太可能收录)
3、b 站官方记录的数据,py 交易得来。(概率较低,那么早的时候 b 站会专门存这种每天的记录?)
4、爬网页时光机、快照之类的东西,得到历史网页并解析出当时的实际值。(覆盖面不广、没有完整的数据,视频里看着又挺多,也不太可能)
5、用评论来做估值,根据评论时间和数量判断当时的值是多少,并生成假数据。(有点可能性,但存在评论很少播放量 /收藏量很高的视频,这么弄的话误差可能比较大)
6、以部分时间节点为关键点,并根据现在的数据来生成假数据。
所以很可能是假数据 https://ws1.sinaimg.cn/bmiddle/62e721e4gw1et00rsrkrnj200k00k3y9.jpg
2018-12-12 18:19:46 +08:00
回复了 yongliang 创建的主题 问与答 问下原生 Android 爱好者,现在都用什么手机?
华为 mate20pro。。懒得折腾了,不推广告就行了
2018-12-12 17:24:55 +08:00
回复了 yuanrenxue 创建的主题 Python 又来个爬虫小偏方:修改 referer 绕开访问控制
2018-12-12 11:12:01 +08:00
回复了 cxa 创建的主题 Python 异步编程之使用 yield from
@xpresslink #12 hhhhhhhhh 明明根本连输出都不会有
2018-12-12 10:54:47 +08:00
回复了 locoz 创建的主题 全球工单系统 广东电信的兄 dei 进来看看
@tomhuang #3 另一个呢?我这现在看 gd.189.cn 也不报不安全了
2018-12-11 11:14:22 +08:00
回复了 luosuosile 创建的主题 信息安全 token 真的安全吗?
上了 https+ssl pinning 之后其实就很难被拦截了,毕竟就算是用户自己想要抓这个包都挺麻烦的,又是装证书又是强制解除 ssl pinning,第三者在没有办法控制用户手机的情况下很难做到这些操作
2018-12-11 10:51:51 +08:00
回复了 locoz 创建的主题 全球工单系统 广东电信的兄 dei 进来看看
@skylancer #1 我知道啊 https://ws2.sinaimg.cn/bmiddle/62e721e4gw1et00rujyz4j200k00k3y9.jpg 但是普通用户看到这个会怎么想?
2018-12-09 14:33:39 +08:00
回复了 MuscleOf2016 创建的主题 程序员 昨天同事分享的假肯德基链接简单分析了下。
然后你如果顺着注册信息摸下去还会发现这些注册信息也是假的或者是小号,后面是不知道多少个同类型网站以及各种黑产服务
2018-12-06 15:47:41 +08:00
回复了 punkAssOnEos 创建的主题 程序员 如何刷实时热度?大佬们给个思路?
@punkAssOnEos #4 为什么要模拟点击,抓包直接看协议啊,有协议了想怎么搞不跟玩一样的?
2018-12-06 14:50:17 +08:00
回复了 punkAssOnEos 创建的主题 程序员 如何刷实时热度?大佬们给个思路?
@punkAssOnEos #2 那你就模拟一堆假人开一堆房啊
2018-12-06 14:23:56 +08:00
回复了 punkAssOnEos 创建的主题 程序员 如何刷实时热度?大佬们给个思路?
模拟一堆假人进房不就行了吗
2018-12-06 10:35:20 +08:00
回复了 jackblack369 创建的主题 程序员 在什么时期开启第二语言的学习比较合适?
需要用的时候
2018-12-06 10:28:11 +08:00
回复了 zitengdu 创建的主题 iPhone iPhone XR 官方透明手机壳,各位怎么看
2018-12-06 08:59:36 +08:00
回复了 zitengdu 创建的主题 iPhone iPhone XR 官方透明手机壳,各位怎么看
2018-12-05 17:08:17 +08:00
回复了 martyartrt1 创建的主题 Python Python 怎么获取 Fiddler 监听的数据。
直接写个 mitmproxy 插件吧
2018-12-04 11:02:50 +08:00
回复了 sagaxu 创建的主题 Python Python 爬虫改成 go,性能提高 5 倍?
@hasbug #106 编程语言很多东西都是共通的,所以语言并不是关键,看哪个好找工作就学哪个
2018-12-04 10:56:54 +08:00
回复了 yuanrenxue 创建的主题 Python 聊点俗的, Python 爬虫挣钱的道道
@xiaoyazi #23 然后起手来个携程飞猪? 500 一个月怕是没人给你搞
1 ... 302  303  304  305  306  307  308  309  310  311 ... 324  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3113 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 67ms · UTC 04:58 · PVG 12:58 · LAX 20:58 · JFK 23:58
Developed with CodeLauncher
♥ Do have faith in what you're doing.