一直挺关注 eBPF 的.
看了你发的公众号, 阿里选择 BCC 并不是特别 hardcore, 监控 daemon 调用一堆 python, 并不是特别优雅. 其实难度不是很大. 你说的不开源的话, 其实不是很能成立.
1. BCC 是开源的, 里面的网络相关的指标其实已经有很多工具, 大部分是 Python + C 改改就好了.
具体代码可以看看
https://github.com/iovisor/bcc/tree/master/tools 下面的 tcplife, tcpstate, tcprtt 等大概明白怎么做的. 另外文章说的 ss 也是开源的, 用心肯定能找到.
2. 内核版本确实是个问题, 这个可以和领导沟通一下, 看看他的想法, 如果业务没有动力升级内核的话, 那么可能要改变技术方案, 采用 kernel module 等.
3. 不要妄自菲薄, 大公司做的东西难度并不是高不可攀, 很多时候是因为业务迫使大公司要去解决 XXX 问题. 如果在小公司的心态是我们的业务很小, XXX 不重要, 那么自己其实挺难提高的.
4. 网络层面的问题, 只能说你遇到的问题少, 排查问题就只会 ping 和 telnent 那是你自己会, 不代表别人不会 wireshark, bcc 等工具.