各位工程师好,我个人在两家基因检测公司做了检测,得到两份“位点-序列”( rsid-genotype )测序结果,理论上这两份序列结果应该是一样的,但我发现有一定比例的不一致,我想知道不一致的准确比例是多少,由于有超过 59 万条对应关系,我无法在个人电脑上处理,且没有数据处理软件使用能力,希望可以得到帮助。恳请有兴趣的工程师与我联系。子弹短信:ggyy https://s1.ax1x.com/2018/08/30/PXfHl8.png
1
TheWalkingDead 2018-08-30 09:51:06 +08:00
流行子弹短信吗 哈哈
|
2
RangerWolf 2018-08-30 10:18:32 +08:00
数据可以传到公司外面?
59W 条数据应该还好, 用 Pandas 感觉普通电脑应该能搞定 |
3
marcong95 2018-08-30 10:52:28 +08:00
理论上这两份序列结果应该是不完全一样的把,DNA 复制的时候有一定概率会产生变异,这个概率放大到全基因组的话,“不完全一样”的概率是很高的。
提供一个不知道可不可行的办法:把注释删掉,然后行排序,然后 diff 之,应该是不需要上什么专业软件,找个编辑器之类的。59w 行可能要跑一段时间,不过应该还好? |
4
yorkyoung OP @marcong95 已经尝试过了,在 Excel 中运行了 vlookup 就跑了 15 个小时还是 17 款 256G MPB
|
5
krixaar 2018-08-30 11:25:08 +08:00
导数据库里两张表,然后(select * from A minus select * from B) union all (select * from B minus select * from A)这样?
|
6
LadyChunsKite 2018-08-30 11:55:18 +08:00
题外话:
其实我有时候就在想,自己的基因可是一个很重要的个人信息呀,比什么手机号,年龄重要多了。 就不怕被公司拿走干坏事? |
7
jccg90 2018-08-30 12:01:26 +08:00
@LadyChunsKite 基因信息虽然很重要,但是完全无法保护。。。比如上个厕所,吐个痰,去饭店吃个饭。。。到处都是完整的基因信息吧
|
8
dacer250 2018-08-30 12:29:54 +08:00
子弹短信无法在 8.0 的 ios 上运行,可以联系我 qq:OTgzMTM5MDk3
|
9
Wolther47 2018-08-30 12:34:04 +08:00 via iPad
碱基对比对? Smith waterman 了解一下?
|
10
HankAviator 2018-08-30 13:13:46 +08:00
@LadyChunsKite 不在居住国家做问题不大,倒是保险送的基因检测万万做不得
|
11
zhouquan03 2018-08-30 13:30:34 +08:00
BWA SOAP 软件了解一下
|
12
wqzjk393 2018-08-30 16:20:50 +08:00
哪有用 vlookup 做大数据匹配的,vlookup 感觉就是完全的挨个遍历,慢的厉害还特别占资源
|
13
wqzjk393 2018-08-30 16:32:38 +08:00
pd.read_csv/excel 把两个数据读进来,df1.merge(df2,how=left)左关联第二份数据,然后比较呗。但是如果你位点数据都一样的话为什么不先排序然后直接用 excel 的'='做对比呢
|