未处理的数据由于read counts数值过低

导致转换为FPKM和TPM的值也过低,我的数据预测的非编码有6万多个,但是大多表达量低,需要进行过滤

1
2
3
4
5
rm(list=ls())
library(openxlsx)
## read in data
dat = read.xlsx("circRNA_ALL_Tpm.xlsx",sheet = 1)
View(head(dat))

image-20211216094707231

1
2
3
4
5
6
7
8
9
10
#过滤平均Tpm<10的表达值
keep <- rowSums(dat>0) >= floor(0.5*ncol(dat)) #floor 向下取整;一行所有值加起来乘以0.5 小于这个的基因全部删除
table(keep)

filter_count <- dat[keep,]
filter_count[1:22,1:22] #选择所有数据
dim(filter_count)

dat = filter_count
View(head(dat))

image-20211216094741314image-20211216094753522