V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  levelworm  ›  全部回复第 200 页 / 共 202 页
回复总数  4031
1 ... 192  193  194  195  196  197  198  199  200  201 ... 202  
@SlipStupig 我这做 BA 挤破头想做 BI。。。
@SlipStupig 好羡慕你们这些有机会做 BI 的。。。
技术上我说不了太多,因为作为 BA 我只是消费者,不是生产者,虽然努力争取转 BI。

但是流程上,大体上我们公司是这样:(注意这是在数据仓库已经建好、ETL 已经稳定的情况下)

1. 业务出 Feature 设想,召集各部门的人开会 ( Server/Client 程序员、BI、BA 都有人参加)

2. 前几次会议主要是固定需求,以及和程序员确定技术上都可行,然后划定需要几个 Sprint

3. 接下来业务会和 BI 以及 BA 讨论这个 feature 需要几个 KPI,然后 BI 和 BA 把 KPI 划分成 Dashboard 和 Analysis,一般是 BI 负责 Dashboard,BA 负责 Analysis,不过也有重合的情况。Dashboard 偏重监控,analysis 偏重分析。

4. 接下来 BI、BA 和 Server/Client 讨论需要什么样的 telemetry (在我们这里,就是说 JSON 里头应该包括哪些 field, 什么格式,等等)

因为我自己是 BA,所以技术上我在这段之后就不进行追踪了,但是据我所知,BI 接下来应该就是准备 ETL 和建表或者仓库(小的 feature 建表甚至加列就够了,大的 feature 需要建新的仓库)。ETL 是有专人做好的 Python + Airflow + Kafka,然后进 Vertica 和 Databricks,BI 写好 scheme, 让 server 出数据测试成功之后就可以用了。

基本上小 Feature 3-4 个 JIRA ( 6-8 周),大 Feature 5-6 个 JIRA ( 10-12 周),估计比国内是要慢一些,但是我们同时会有几个 Feature 在进行,所以每个 BI 同时都要追踪 3 个左右的 feature。

等到 feature 出来前后,BI 还需要做 Tableau Dashboard,然后上传到 Tableau Server。但是报表这块可用的工具很多,Server 监控的话 Grafana 也不错。
背景:BA,不过和 BI 经常接触所以知道一些。

第一部分:数据仓库(纯听说加总结)
多数据来源融合的话,我估计你需要的是数据直接进数据仓库。要做的就是写 ETL 进某个数据仓库,100TB 的话我觉得目前市场上常见的都没问题,甚至本地的 PostgreSQL 应该都可以,毕竟你数据仓库里头主要需要的是聚合表。

数据仓库的建立可以看看 Data Modelling 的书,因为你数据来源比较繁杂,所以可能需要分别写 ETL,总之感觉比较麻烦的样子。我们公司数据来源比较单一,主要就是 APP 内部的 telemetry,走 Kafka 到 parser 然后到数据库,最后聚合到数据仓库。你们估计没有这么强的实时性需求。

另外看起来你们应该是需要很多数据仓库的样子,比如说监控和营收肯定是不同的数据仓库。

第二部分:可视化和分析
这块我比较熟悉,Power BI 和 Tableau 都做过,虽然经验都不超过一年。这块其实技术上都没啥难度(除非你准备做数据科学的活),大多数应该都是监控和简单的分析,所以最主要的是数据仓库的架构和需求的分析。这个要看具体了,但是你们必须先和 Business 商量好每件事情的 KPI。

最重要的,其实我觉得还是得从一开始就让业务介入,每次开会都必须要让业务清楚的知道,他想要你们做什么,然后你们是如何把他的需求转化成技术,最后是如何让业务那边的分析(或者你们自己做这块也可以)用你们的技术,出业务需要的报表。重复一下,业务必须深度介入,否则这件事情没法搞。我觉得比较理想的情况是,每一个业务分支都有自己的分析,并且熟悉 SQL, 或者愿意学习 SQL,这样你们就只需要做监控和自动化报表就可以了。能够自动化的全部自动化。数据挖掘什么的留给他们就行,当然除非你也想做,但是估计你精力跟不上。数据仓库这种东西需要经常维护的。

还有一点,这肯定是个很长期的过程,所以需要你们领导知道这点,不是几个礼拜的事情,而是几个月的事情。所以这个事情得有个比较牛逼的人做架构,定好里程碑,不然又是乱七八糟。架构弄不好,整个公司都吃亏。如果需求是在紧张,可以让大领导拍板挑一个最急需的业务线出来,做一个 Data Mart 作为示范。
2019-12-03 23:44:26 +08:00
回复了 dearmymy 创建的主题 Python Python 函数同时返回错误值和数据怎么设计好
抛异常我觉得也蛮好的,至少比返回 tuple 感觉舒服一些。
databricks, impala, vertica
mysql, postgresql
2019-12-03 10:33:47 +08:00
回复了 xiliu 创建的主题 Python 请问下, 大家在公司的业务中使用 Python 都是做什么?
BA,主要用来清洗数据和自动化。
2019-12-03 02:02:09 +08:00
回复了 ingram22mb30 创建的主题 程序员 什么是病毒?恶意程序是怎么区分?怎么平衡?
病毒起码得能传染吧。恶意程序就未必了。
2019-12-03 00:02:36 +08:00
回复了 uti6770werty 创建的主题 Python Win 下面持续跑 Python 程序,用什么 console-line 软件好?
直接用 log 库输出可行么?
2019-12-02 11:59:25 +08:00
回复了 xiaojunjor 创建的主题 职场话题 病假 20 天后重新上班,整理下思绪,整理下心情
@xiaojunjor 不厉害的话是不是要健身起来了。我现在过三十五了觉得身体也不太行了,和十年前真不一样。二十八的时候我记得也觉得和二十出头不一样,一个个门坎跌下来。
看了你的帖子吓得我赶紧测了下血压。。。
2019-12-02 11:40:55 +08:00
回复了 xiaojunjor 创建的主题 职场话题 病假 20 天后重新上班,整理下思绪,整理下心情
哥们还是得注意身体,还没到透析那一步,应该还有办法。我觉得是不是平时生活习惯也不太好?
2019-12-02 09:59:51 +08:00
回复了 zinplus 创建的主题 程序员 请大家推荐一款小巧隐蔽续航时间长的录音笔
@mousef 类似那种纽扣式麦克风?
2019-12-02 03:50:01 +08:00
回复了 yuanxxx 创建的主题 程序员 对人才进行管理的能力才是企业的核心竞争力
其实销售、人事都可以是人才。。。而且就任正非的看法,明显人事这种牧羊犬才符合人才的定义。

不过我要是他那个位置我也赞同他。你说牧羊犬重要还是羊群里头几只羊毛产出又快有多的重要?
1 ... 192  193  194  195  196  197  198  199  200  201 ... 202  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5491 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 90ms · UTC 03:49 · PVG 11:49 · LAX 19:49 · JFK 22:49
Developed with CodeLauncher
♥ Do have faith in what you're doing.