• 外包信息请发到 /go/outsourcing 节点。
• 不要把相同的信息发到不同的节点
zhxjdwh
V2EX  ›  酷工作

[广州][数据开发]公司成立了数据部,让我来做技术负责人

  •  
  •   zhxjdwh · Dec 5, 2019 · 5489 views
    This topic created in 2354 days ago, the information mentioned may be changed or developed.

    没有经验,主要是通过网上各种视频,看看书入门,了解了大致的开发流程和架构。

    现阶段,主要是离线计算,需要把数仓以及数据分析平台搭起来,技术选型 hive spark impala kylin oozie,数据可视化是 superset

    架子什么都搭起来了,就是,有很多问题? 1.有没有什么最佳实践?

    2.数仓的表怎么设计? 之前我是这么做的,直接搞 大宽表,一个表 200-300+个字段,几乎包含的所有维度的数据了,现在发现,这个大表看着就头疼,维护起来也很麻烦。

    3.如何把 MySQL/Oracle 的数据同步过来?每天同步一次? 现在用的工具是 oozie + sqoop,感觉 用起来 有点小麻烦

    有没有小伙伴又类似的经验?能不能提供下咨询服务?有偿!!!

    ========================

    另外 : 我们需要招一个 有经验的 数据开发工程师, 广州,简单面试,直接进,如果有兴趣话,可以联系我 wx:emh4amR3aHd4

    小公司,200+人,英国 /新加坡 /全国各地城市都有分公司,业务范围:全球都能找到我们的身影,新 3 板上市,年营收 10+亿

    我们团队成员:1 个数据分析师 + 我(数据开发)+ ?(招聘 /数据开发工程师)

    21 replies    2023-10-29 23:05:58 +08:00
    Smilencer
        1
    Smilencer  
       Dec 5, 2019 via iPhone
    我见过最实在的招聘帖
    zhxjdwh
        2
    zhxjdwh  
    OP
       Dec 5, 2019 via Android
    有偿咨询!!!
    Heebe
        3
    Heebe  
       Dec 6, 2019 via iPhone
    数据仓库的我是没见过什么特别好的实践,因为业务性太强了,一个小小的区别就可以改变整个架构。我之前看过一个 PDF,应该贯穿了整个业务,你可以搜索下 Hadoop 数据仓库(大概这样的名字)。
    分库分表是在所难免的,这个要看业务来。总的来说就是关联性强的尽量在一起,垂直分区水平分区都要做,毕竟数据量摆在那。同步时间,如果数据仓库不要求太高的及时性,尽量减少同步次数,毕竟每一次写入扩展都是一次炼狱。

    另外
    我觉得,一个专业的 DBA 会更能帮到你,至少在维护数据库的事情上可以省事,其他人可以专门做业务模块。
    hanangellove
        4
    hanangellove  
       Dec 6, 2019
    看来楼主是挺技术 boy
    kajweb
        5
    kajweb  
       Dec 6, 2019
    没有经验能混进去实习吗
    zhxjdwh
        7
    zhxjdwh  
    OP
       Dec 6, 2019 via Android
    @kajweb 你也没经验,我也没经验,大家一起来摸鱼
    JunoNin
        8
    JunoNin  
       Dec 6, 2019 via Android
    一起摸鱼
    d5
        9
    d5  
       Dec 6, 2019
    招聘帖典范,hhh
    OctopusGO
        10
    OctopusGO  
       Dec 6, 2019 via Android
    典范,可惜不在广州
    SbloodyS
        11
    SbloodyS  
       Dec 6, 2019
    贵司加班多么?正好想换个加班少些的公司!
    drydiy
        12
    drydiy  
       Dec 6, 2019   ❤️ 1
    不是面试造火箭,工作拧螺丝。这招聘帖看着就舒服。
    LightLolo
        13
    LightLolo  
       Dec 6, 2019
    招聘典范,精简务实。
    392039757
        14
    392039757  
       Dec 6, 2019
    1.没有银弹,很多坑都是埋在业务里面的,别人的最佳实践也不一定适合你
    2.大宽表维护起来会爆炸的,因为业务状态总是在不停的变更,有时候业务表的表结构也是在不停变更,最好是事实表+维度表的方式进行,先要确定主题再确定数据口径,以事实表为主维度表为辅
    3.数据同步还是合适的来,我们就是 oozie + sqoop 每天跑批+logstash 实时同步
    Marst
        15
    Marst  
       Dec 6, 2019
    很直接务实的招聘了,可惜我不做这方面的工作
    9420JackT
        16
    9420JackT  
       Dec 6, 2019
    招聘典范,精简务实。
    user919lx
        17
    user919lx  
       Dec 6, 2019
    我就是做数据开发这块的,主导过数仓项目,数据表设计和 ETL 开发都是我一个人做的, 现在在负责一个数据项目的全套数据开发,对数据仓库这一套很熟。
    我的博客 longfei.leanote.com ,很久不更新了,只是因为写文章很吃力,有很多零碎的东西不好写上去。
    博客里“关于我”的部分有邮箱可以交换联系方式(不在这里写是为了防止垃圾邮件)。
    暂时不打算换工作,不过很乐意交流一下。
    xuecan
        18
    xuecan  
       Dec 6, 2019
    我蛮好奇是哪家公司的
    zhxjdwh
        19
    zhxjdwh  
    OP
       Dec 6, 2019 via Android
    @xuecan 无名小公司,做机场贵宾室,专车业务
    zjxzhqq
        20
    zjxzhqq  
       Dec 7, 2019 via Android
    你们主要是为了服务什么数据业务?
    k1263
        21
    k1263  
       Oct 29, 2023
    关于这方面的讨论挺少,最近也在做:
    1. ETL 全量转换
    2. sqoop|Datax 全量不转换
    3. Debezium+Kafka 增量不转换
    4. Flink 增量转换
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   910 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 58ms · UTC 22:27 · PVG 06:27 · LAX 15:27 · JFK 18:27
    ♥ Do have faith in what you're doing.