V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
glongzh
V2EX  ›  程序员

没有关于12306插件的技术讨论么?

  •  
  •   glongzh · 2013-01-19 10:07:20 +08:00 · 5636 次点击
    这是一个创建于 4325 天前的主题,其中的信息可能已经有所发展或是发生改变。
    有没有研究过这插件代码的?代码质量如何?写这样一个插件难度多大?

    作者通过这个插件,现在可以算是小有名气了,大家没有什么想说的吗?

    还有这种插件的屏蔽与反屏蔽技术大家都可以说说。

    顺便吐槽下那些浏览器们借个插件来炒作的卑劣行为,工信部竟只字未提谷歌浏览器,Chrome是该哭还是笑呢。。。

    P.S.本人小菜,想听听各位大牛的想法。
    20 条回复    1970-01-01 08:00:00 +08:00
    hiddenstar
        1
    hiddenstar  
       2013-01-19 10:22:00 +08:00
    https://github.com/mbin/12306_ticket_helper
    这个东西本来是由于12306的验证码跳过漏洞(已修复)进行自动登陆和自动填表的
    不过现在就是自动填好所有表格什么的,只要输个验证码,其他的就是类似于清除无效项美化界面什么的小事情……
    反正相当于一个简化的12306接口……个人看法……
    binux
        2
    binux  
       2013-01-19 10:38:23 +08:00
    没有必要研究,任何前端工程师高兴都能写一个。
    你也想出名,也写一个呗。
    屏蔽是不可能的,最多加个验证码,即使如此,ORC能解决大部分问题。
    借擦肩插件操作?这是插件作者和浏览器们的事,不用你操心。
    for4
        3
    for4  
       2013-01-19 10:41:05 +08:00
    @binux OCR
    subpo
        4
    subpo  
       2013-01-19 10:51:43 +08:00
    现在对猎豹浏览器就是一个字,反感,特别是昨天买通一大堆微博大号转发那个“猎豹浏览器,挺住!”的微博,滥用人的同情心和一堆无脑愤青对国家的恶感
    glongzh
        5
    glongzh  
    OP
       2013-01-19 10:51:48 +08:00
    @binux 哈哈,本人JS菜鸟,还是算鸟……怎么感觉OCR再强大,也赶不上验证码的变化快。
    hiddenstar
        6
    hiddenstar  
       2013-01-19 10:53:39 +08:00
    12306所有的验证码都是斜体字,没有大小变化和扭曲,只有随机的直线和模糊的背景,唯一无法辨识的地方是j有的时候下半部分会被遮住什么的(虽然人类也无法识别……)
    OCR判断率应该可以达到90%以上,咳咳……
    binux
        7
    binux  
       2013-01-19 10:55:04 +08:00
    @glongzh 即使一个个填验证码,插件也能解决绝大部分问题。实在不行,直接放弃界面,往接口上发数据。任何你能看到的信息都无法阻止脚本化。

    @for4 (๑•́ ₃ •̀๑)
    Tianpu
        8
    Tianpu  
       2013-01-19 12:07:10 +08:00 via iPhone
    真想做成服务,就打码呗
    walkingway
        9
    walkingway  
       2013-01-19 13:05:44 +08:00
    倪超:关于订票助手的,写点什么,廖做纪念吧 http://t.qq.com/p/t/178867047072630

    作者说貌似不加自动识别还是为了遵守规则,但还是被关照了
    kaiqiz89
        10
    kaiqiz89  
       2013-01-19 13:07:36 +08:00 via Android
    之前看报道说经过验证,验证码能做到反ocr的就只有google和reCAPTCHA,但后者又被google收购了……
    Cofyc
        11
    Cofyc  
       2013-01-19 13:26:25 +08:00   ❤️ 1
    google 就是用 reCAPTCHA,reCAPTCHA 的图片文字是从电脑出现前的物理书上复印来的,不是算法生成的,没有规律可循,很难编写一套程序识别所有的文字。人来辨识 reCAPTCHA,顺便就将这些书籍数字化了。
    chaos_mical
        12
    chaos_mical  
       2013-01-19 14:54:26 +08:00
    binux+1,没有必要研究

    另外引用最早在raw.github上的问题:

    “  “12306订票助手”的开发者iccfish(木鱼)在GitHub上解释:他引用了托管在Github上的Javascript代码,不同浏览器又使用了该插件,导致大量请求涌向Github,最终拖慢了服务器。

      这里不妨说说具体原因,供开发者参考:GitHub有个未知安全检测,当访问比较频繁的时候,会直接返回403错误。作者就加了一条规则:如果返回的是403,就每5秒重试一次,并且是永久重试。结果GitHub认为用户访问更频繁了,于是一直返回403,最后成了死循环。”


    楼主觉得这种处理手法的水平还需要讨论什么吗...
    zx900930
        13
    zx900930  
       2013-01-19 15:41:46 +08:00
    @subpo 炒作确实很恶心,所以金山也不是什么好鸟
    annielong
        14
    annielong  
       2013-01-19 15:51:29 +08:00
    供开发者参考:GitHub有个未知安全检测,当访问比较频繁的时候,会直接返回403错误。作者就加了一条规则:如果返回的是403,就每5秒重试一次,并且是永久重试。结果GitHub认为用户访问更频繁了,于是一直返回403,最后成了死循环。”
    那能怎么处理?设置1分钟后再重试,或者干脆不访问吗?
    shuizhuzi
        15
    shuizhuzi  
       2013-01-19 21:38:12 +08:00
    这个家伙在把GitHub爆库之后把服务器转到了SAE上,结果SAE竟然轻松承受住了,汗啊。
    难点就是https服务器,他说他找了半天采用了Github,后来才用了SAE
    1L说的挺好
    反正任何web应用都是https或http请求,只要细细摸清了请求的路径和参数,编写客户端脚本就可以运行了。
    rqrq
        16
    rqrq  
       2013-01-20 00:29:55 +08:00   ❤️ 1
    @Cofyc
    ”人来辨识 reCAPTCHA,顺便就将这些书籍数字化了“
    那如何辨别验证码有没有输入正确?
    liliang13
        17
    liliang13  
       2013-01-20 00:39:30 +08:00 via iPhone
    @rqrq
    一对单词,其中一个是已经识别的,用来验证是否人类输入
    Cofyc
        18
    Cofyc  
       2013-01-20 01:28:28 +08:00
    @rqrq reCAPTCHA 都是两张图片成对出现,一张是已知,一张是未知的。校验是否人类输入,只判断已知的那张图,同时记录未知图片的一个人类识别结果。收集数据多了,就能准确地帮助书籍数字化。
    JimmyZ
        19
    JimmyZ  
       2013-01-21 11:59:20 +08:00   ❤️ 1
    各位一个个对木鱼冷嘲热讽, 可是写点什么放出来给普通人用的, 只有他
    python
        20
    python  
       2013-01-21 12:41:33 +08:00
    @JimmyZ 这插件我觉得挺方便的,即使流程处理不当,本意也是为了造福大众呀.
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   940 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 21:07 · PVG 05:07 · LAX 13:07 · JFK 16:07
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.