python—转换和可视化显示跨不同参数的对象分组变化的数据的最佳方法是什么?

qnyhuwrf  于 2021-07-26  发布在  Java
关注(0)|答案(0)|浏览(434)

我在数据科学/生物信息学方面遇到了一些问题,我想从人们那里得到一些想法。这是我的第一篇文章,我希望我问的问题是正确的。
我有多个两列tsv文件,第一列是基因的名称,第二列是相似基因共享的家族编号:

+------+----------+
| Gene | Family # |
+------+----------+
| A    |        1 |
| B    |        1 |
| C    |        1 |
| D    |        2 |
| E    |        2 |
+------+----------+

在这种情况下,a b和c相似,d和e相似。
现在,当我将相似性的参数更改为更严格时,会出现这些新的分组(另一个虚构的示例):

+------+----------+
| gene | family # |
+------+----------+
| A    | 15       |
| B    | 15       |
| C    | 17       |
| D    | 19       |
| E    | 40       |
| ...  | ...      |
+------+----------+

在这种情况下,a和b是相似的,但是cd和e都是不同的。
我拥有的族#没有一致的族号,因此即使它们在同一个族中跨不同参数考虑,族#也是不同的。
我想看看这些不同参数对家庭群体的影响。我有10个不同的参数要测试,这意味着我想看看家庭分组如何在10个tsv文件中变化。
你知道什么是看待群体最有效的方法吗?也许直接用下面这样的基因名替换家族#会奏效,因为家族#并不一致,但基因名是:

+------+-----------------+----------------+----------------+-----+
| gene | similar gene #1 | similar gene 2 | similar gene x | ... |
+------+-----------------+----------------+----------------+-----+
| A    | B               | C              |                | ... |
| B    | A               | C              |                | ... |
| C    | A               | B              |                | ... |
| D    |                 |                |                | ... |
| E    |                 |                |                | ... |
+------+-----------------+----------------+----------------+-----+

所以在一个特定的参数下,ab和c仍然是相似的,但是d和e与其他任何东西都不相似。
我会将所有10个tsv文件转换为不再使用“family#”,而是替换为“similar genes”。这是个好主意吗?
也许将这些tsv解析为rDataframe或将它们导入sql数据集可以奏效?最终目标将是可视化这些网络以及这些网络如何跨参数变化。现在阻止我的最大问题是,不同参数的族数不一致。
任何帮助或讨论将不胜感激!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题