V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
powtop
V2EX  ›  问与答

请专业人士回答下,何谓大数据,为啥我看的那么玄?

  •  
  •   powtop · 2015-03-08 11:58:27 +08:00 · 3123 次点击
    这是一个创建于 3547 天前的主题,其中的信息可能已经有所发展或是发生改变。

    看两会又扯大数据了,估计领导们也会扯扯,但是目前 我等土鳖根本不知道大数据,大数据如何落地,需要哪些技术,有什么开源产品,可有大神普及下,俺也好能和领导哈哈牛逼!

    35 条回复    2015-03-09 10:36:36 +08:00
    pfitsen9
        1
    pfitsen9  
       2015-03-08 12:10:38 +08:00 via iPhone   ❤️ 1
    算命,看相可能算大数据的一种
    longquanwo
        2
    longquanwo  
       2015-03-08 12:19:45 +08:00
    你去看看聚合数据 就知道了
    laoyuan
        3
    laoyuan  
       2015-03-08 12:21:50 +08:00
    大数据就是以前淘宝文胸AB卖得多现在CD卖的多
    chchwy
        4
    chchwy  
       2015-03-08 12:24:22 +08:00   ❤️ 3
    可以看看翟本喬博士的視頻:大數據的理念與應用


    這是逢甲大學的通識課程講座,沒基礎的人也能聽懂的。
    yangqi
        5
    yangqi  
       2015-03-08 12:25:33 +08:00
    @longquanwo 聚合那个根本不叫大数据,就是普通的数据api整合而已,和大数据根本不是一回事
    longquanwo
        6
    longquanwo  
       2015-03-08 12:34:58 +08:00
    @yangqi 我刚才看了上面的视频,意思就说聚合数据只是采集了比较大或者多的数据,大数据还需要包含处理数据和分析数据,调用数据等这些?
    cxshun
        7
    cxshun  
       2015-03-08 12:35:35 +08:00
    现在基本上什么公司都非要扯上大数据,就连我前公司,一个做小图书馆软件的公司,也非要扯上大数据,我横想竖想都想不到它那点数据量关大数据啥事,它能分析出什么东西。如果就用户的借书习惯来分析,就几千万的数据,小数据都算不上。

    其实真正的大数据是涉及到很多分析过滤的。整个天朝,算得上真正大数据的,估计不超过50家,BAT算得上,其他一些做互联网数据分析的勉强算得上。
    longquanwo
        8
    longquanwo  
       2015-03-08 12:39:16 +08:00
    @cxshun 你的这个思路我不认可,大数据就是汇聚千千万万小数据得来的,可以把这些看不上眼的小数据卖给bat,再从所谓的大数据运营商,购买调用每个用户的数据。

    这个话题我比较感兴趣。因为我现在做公共场所免费wifi项目,需要更多收益方式。
    imn1
        9
    imn1  
       2015-03-08 12:42:51 +08:00
    https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%93%9A
    http://baike.baidu.com/subview/6954399/13647476.htm

    大数据其本质是数据分析,数据分析分为定性分析和定量分析两种,无法全部细讲,就简单点
    数据分析主要包含:1.采样;2.分析;3.推导结论,各有难点

    采样,数据来源、采集方法、样本筛选都有学问
    来源必须真实和可获取(有些数据具保密性难以得到),采集的路径(路径指的是采集的顺序如何确定),筛选是要去掉无关数据和无效数据(假的、不合逻辑的等等)

    分析,主要指定量分析,单因素分析和多因素分析,一般指后者,因为单因素分析比较简单
    用#1的例子,星座是单因素分析,星座+血型是多因素分析
    多因素分析需要建立数学模型,用数学方法对数据进行量化,并进行占比、排序等

    推导结论,在前面分析的基础上,进行合理的论证

    定量分析一般需要原始数据,自行统计而获得结论
    ——例如股票的计算公式/K线图,又例如最近某人拍的纪录片
    定性分析一般采用现有资料和统计结果进行论证结论
    ——例如股票的基本面分析,又例如反驳上面这个记录片的某个回答
    imn1
        10
    imn1  
       2015-03-08 13:02:29 +08:00
    大数据现状(仅个人观点)

    目前的“大数据”,只停留在“采样”这个阶段初始,因为目前的计算机和相关人才足矣做这一步
    但采样还需要筛选,这就困难了,如何判断数据真实性、逻辑合理性还需要更多知识
    其次是很多重要数据具有保密性,获取原始数据很可能触犯保密法

    然后分析,分析有两个问题,客观方面是目前的数学模型还不成熟,这个指全世界,不仅国内,优秀的数学人才主要还是分布在生产、国家统计部门和学术领域,进入市场的并不多。主观方面,目前各家都不可能公开原始数据和分析方法,因为这个属于商业秘密,不公开也就导致部分可公开的分析结果只是表面性的,另外就是自然会受到质疑

    结论推导过程,这个问题也很大,很多人想当然以为有数据就能得出结论,但实际上我看到很多推导都不合逻辑,不严谨。我个人觉得国内从小学到大学都没有开设《形式逻辑学》这门课是很致命的~
    Antonidas
        11
    Antonidas  
       2015-03-08 13:10:32 +08:00
    大数据以前看到过一个漫画,是"所有人都在说,很少人在做,但是没人确切的知道它是什么样子"
    askfermi
        12
    askfermi  
       2015-03-08 13:57:38 +08:00
    Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...
    spacewander
        13
    spacewander  
       2015-03-08 14:03:43 +08:00
    @pfitsen9 果壳上有一篇**科幻小说**:

    《当我谈论算命时,我想谈的是大数据》 http://www.guokr.com/post/592618/
    ffffwh
        14
    ffffwh  
       2015-03-08 14:19:13 +08:00
    “Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it...”
    ffffwh
        15
    ffffwh  
       2015-03-08 14:19:41 +08:00
    @askfermi
    刚刚没看着,重复了
    a01113
        16
    a01113  
       2015-03-08 14:52:01 +08:00 via iPhone
    大数据就是数据。你在里面找出对你有用的。天气预报,gdp,这些都是
    rentaro
        17
    rentaro  
       2015-03-08 14:55:47 +08:00
    GFW 就是
    acgeo
        18
    acgeo  
       2015-03-08 15:06:23 +08:00
    核心依然是 数据挖掘

    只不过现在数据量更多更大更杂乱!
    jedicxl
        19
    jedicxl  
       2015-03-08 16:03:10 +08:00
    大数据不是数据量大,而是范围广,甚至包括以前直接丢掉的垃圾东西
    原因嘛,可以用蝴蝶效应来通俗理解:根据洛伦兹教授的说法,对于复杂的数学模型(大自然里处处都是复杂模型,比如洛伦兹搞的气象),一个微小的初始搅动都可能对未来的结果造成非常大的影响。注意,是“可能”。所以为了尽可能消除因为对微小初始搅动的忽略而带来的南辕北辙,就得把数据泥沙俱下无分好赖一锅全端。而由于复杂模型的复杂性,不同的分析思路,都有可能导向不同的结果(甚至戳到了意料之外的其他领域)。

    其实看看《大数据》这书就大致了解为啥要折腾大数据了,讲的挺通俗


    另外,其实大数据的倾向早就有了,而且有些还很娱乐向。比如福尔摩斯为代表的不务正业型断案,常规的刑侦手段偶尔用一下,派得上用场的多数是些不被苏格兰场认同的“偏招”,这其实就是大数据最喜闻乐见最走入百姓家的表现形式
    lonelygo
        20
    lonelygo  
       2015-03-08 16:08:01 +08:00
    大数据的关键不是数据量或者数据范围或者数据处理的技术方法和手段,最关键的是以下三个问题:
    1、模型
    2、模型
    3、模型
    归根到底,大数据玩的是数学和逻辑,IT技术和平台仅仅是工具。
    jedicxl
        21
    jedicxl  
       2015-03-08 16:10:50 +08:00
    @lonelygo 大数据玩的恰恰不是逻辑,也不是模型。模型是先有概念和目标,然后针对性的收集和分析数据。大数据正好反过来
    peartail
        22
    peartail  
       2015-03-08 17:25:41 +08:00
    Big data is just lots of data.
    DT27
        23
    DT27  
       2015-03-08 17:32:48 +08:00
    就是根据各种渠道各种流氓软件搜集到我们的某些数据后再根据这些数据作出统计结论。。。
    fork3rt
        24
    fork3rt  
       2015-03-08 19:02:27 +08:00 via iPhone
    @longquanwo 这不算大数据吧… 纯粹是采集别人的东西然后拿来卖。
    DennyDai
        25
    DennyDai  
       2015-03-08 19:13:46 +08:00 via Android
    一个经常被用烂的词,类似的还有 云计算,互联网思维,创业 etc.
    jjplay
        26
    jjplay  
       2015-03-08 19:17:23 +08:00
    那一年有个词叫做纳米,什么纳米面料,纳米洗涤液,纳米合成各种云云之类产品,傍上纳米恍如会发光一般,那么问题来了,现在还有谁在提纳米? 大数据同理
    lonelygo
        27
    lonelygo  
       2015-03-08 19:56:51 +08:00
    @jedicxl 反过来吧,还是要有模型
    否则google怎么知道流感,超市怎么知道小妞怀孕?
    只不过,模型从传统的的1+1+0=2调整为:有了1和1 和0可能会出现2,也可能出现1。
    长期观测分析发现出现1和1和0的情况,结果是偏重2的概率更高,那么就可以忽略1这个可能性。
    YonionY
        28
    YonionY  
       2015-03-08 21:32:25 +08:00
    想起了当年的纳米技术,什么都给自己贴个“纳米”,现在除了CPU参数还看到纳米,江湖上哪里还有纳米的影子?
    jedicxl
        29
    jedicxl  
       2015-03-08 21:54:29 +08:00   ❤️ 1
    @jjplay 被滥用不等于本身就滥啊。所有概念,只要一进入中国老百姓和媒体的眼界,就很可能被玩坏,但不影响这个概念本身的牛逼。

    @lonelygo 模型当然需要啊,不然没有目标的分析就是在浪费纳税人的钱。但是模型不是先导,而是在积攒了数据之后,有A的需求了就套A对应的模型去分析数据,有B的需求了就套B对应的模型去分析,无论选取哪种模型,数据还是那些数据,收集和整理不依模型的改变而改变。所以才说模型不是关键

    数据是菜市场商贩的菜,模型是家里准备用的菜谱,按需选菜谱去挑菜。但这不等于菜市场的所有菜就是为了自己家里的菜谱而生,因为每家的菜谱都不同。
    killerv
        30
    killerv  
       2015-03-09 00:54:25 +08:00 via Android
    现在看到大数据和云计算就感觉恶心,什么东西都敢说是大数据,云计算。
    acros
        31
    acros  
       2015-03-09 00:57:31 +08:00
    我想知道的是“大数据”这个概念和定义最早是谁给出来的,专业性的,最好是论文性质的····
    SharkIng
        32
    SharkIng  
       2015-03-09 08:14:56 +08:00
    大数据主要是大数据处理的问题,像现在Google,Facebook还有Amazon,国内有百度,淘宝等,他们每天需要处理的数据都非常多,怎么能够更好地处理这些数据,就是大数据研究的范围

    举个我看过的例子,Facebook总共有好几千万注册用户,每天活跃用户有好几百万级,每天接受到的新数据有大概10PB左右 (具体数字记不清了但是肯定是PB级别的)他们需要将这些数据很好的处理,然后用作可用的数据,例如作为好友推荐,广告投放等等,怎么处理这些PB级别的数据就是大数据,需要用各种软件优化,例如Hadoop,Hive,MapReduce等等。通过优化才能够更好地达到想要的效果以及更快的处理能力等等
    lliioogg
        33
    lliioogg  
       2015-03-09 09:09:04 +08:00
    现在一提大数据我就想起透明计算..
    bugeye
        34
    bugeye  
       2015-03-09 10:10:13 +08:00
    楼主对于官僚们的期待太多了。居然指望他们嘴里能吐出什么锐思。说不出新意自然只能重复别人重复过1000遍的东西。
    simo
        35
    simo  
       2015-03-09 10:36:36 +08:00
    平时会听到连基本的数学常识、统计学常识都不知道的人张嘴闭嘴大数据,对此鄙人感官系统自动开启filter模式:)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1050 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 19:12 · PVG 03:12 · LAX 11:12 · JFK 14:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.