用mapreduce/pig或disco将突变定位到染色体位置

yqkkidmi  于 2021-06-24  发布在  Pig
关注(0)|答案(0)|浏览(218)

目标:将突变位置从文件1Map到文件2中的区域或特征。为此,在比较文件1和文件2区域的染色体位置之前,您需要确保染色体(chr1)和链(+/-)是相同的。
问题:如何使用mapreduce或disco将一个位置Map到一个区域。aka在mapreduce方法中描述位置->染色体区域?
描述:我有两个中等大小的文件(10gb)和两种要处理的文件类型。我已经用basic python解析了这些文件,但是将来可能还要解析许多更大的类似文件,所以我想用mapreduce(hadoop/pig)或disco来学习。
虽然我可以在ec2集群上运行节点,理想情况下是一个单集群hadoop(是的,我知道它不能达到目的),或者在disco或sparc之类的平台上运行。
我喜欢使用pig的想法,因为这样可以将处理过程简化为仅处理.csv文件中的文件,但我不知道如何使用mapreduce将某些内容Map到某个区域,而不只是一个键/值对
以下是我所想的视觉表现:

文件信息:
第一个文件是tcga癌症snp突变。一些重要功能包括
染色体定位
染色体数目
搁浅
样品id
剩下的就不那么重要了
3’utr序列。
开始位置:int
染色体末端位置:int
染色体数目:chrx
钢绞线+/-
基因id
剩下的就不那么重要了
示例文件是here:two sample 文件夹
最后,如果有必要的话,python是我的首选语言。。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题