学习大佬的Readcounts转换技术

录入的文件格式

image-20211209155812396

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
rm(list = ls())
Count_rumen <- read.xlsx("XXX.xlsx",sheet = 1)
names(Count_rumen)
rownames(Count_rumen) <- Count_rumen$CircID#这里我犯了一个极为鱼唇的错误 ‘$了Geneid’,关键还没报错,导致最后计算结果没有了命名

metadata <- Count_rumen[,1:2]#提取基因信息count数据前的几列,就像我的文件只需要提取第一和第二列

countdata <- Count_rumen[,3:ncol(Count_rumen)]#提取counts数,counts数据主题部分

cpm <- t(t(countdata)/colSums(countdata) * 1000000)#参考cpm定义

avg_cpm <- data.frame(avg_cpm=rowMeans(cpm))

kb <- metadata$Length / 1000

rpk <- countdata / kb

tpm <- round(t(t(rpk)/colSums(rpk) * 1000000),2)

tpm <- as.data.frame(tpm)
names(tpm)

write.csv(tpm,file = "XXX_ALL_Tpm.csv")