Home / TransRefine / data_test_d3
Name Modified Size InfoDownloads / Week
Parent folder
cuffcmp.temp.tmap 2024-10-04 974.6 kB
time.txt 2024-10-04 748 Bytes
cuffcmp.combined.gtf 2024-10-04 17.9 MB
TransGram-0.0015.gtf 2024-10-04 54.3 MB
cuffcmp.temp.refmap 2024-10-04 241.8 kB
xgboost_predict_pro.txt 2024-10-04 2.5 MB
TransGram-0.7.gtf 2024-10-04 2.7 MB
TransGram-0.1.gtf 2024-10-04 51.6 MB
TransGram-0.005.gtf 2024-10-04 53.0 MB
TransGram-0.gtf 2024-10-04 54.3 MB
TransGram-0.6.gtf 2024-10-04 4.2 MB
A 2024-10-04 27.1 kB
TransGram-0.8.gtf 2024-10-04 1.0 MB
TransGram-0.0012.gtf 2024-10-04 54.3 MB
merge_test.graph 2024-10-04 21.0 MB
gene.gtf 2024-10-04 7.9 MB
TransGram-0.11.gtf 2024-10-04 49.2 MB
TransGram-0.3.gtf 2024-10-04 14.2 MB
TransGram-0.2.gtf 2024-10-04 28.6 MB
gtf2path.info 2024-10-04 22.3 MB
TransGram-0.15.gtf 2024-10-04 39.9 MB
TransGram-0.03.gtf 2024-10-04 41.5 MB
A2 2024-10-04 1.1 kB
merge.gtf 2024-10-04 80.7 MB
TransGram-0.45.gtf 2024-10-04 7.2 MB
A-myGraph 2024-10-04 33.7 MB
TransGram-0.4.gtf 2024-10-04 9.0 MB
log 2024-10-04 142 Bytes
stringtie_hisat.gtf 2024-10-04 56.6 MB
cuffcmp.loci 2024-10-04 1.3 MB
merge.graph 2024-10-04 21.0 MB
TransGram-0.0016.gtf 2024-10-04 54.3 MB
scallop2-hisat.gtf 2024-10-04 56.6 MB
TransGram-0.14.gtf 2024-10-04 42.2 MB
temp 2024-10-04 10.3 MB
cuffcmp.tracking 2024-10-04 1.1 MB
A2_ 2024-10-04 75 Bytes
TransGram-0.5.gtf 2024-10-04 5.9 MB
TransGram-0.0018.gtf 2024-10-04 54.3 MB
TransGram-0.25.gtf 2024-10-04 19.5 MB
TransGram-0.04.gtf 2024-10-04 39.4 MB
TransGram-0.0014.gtf 2024-10-04 54.3 MB
TransGram-0.35.gtf 2024-10-04 10.3 MB
TransGram-0.02.gtf 2024-10-04 44.7 MB
1.sh 2024-10-04 1.3 kB
TransGram-0.05.gtf 2024-10-04 64.3 MB
TransGram-0.13.gtf 2024-10-04 44.5 MB
TransGram-0.01.gtf 2024-10-04 49.7 MB
TransGram-0.12.gtf 2024-10-04 46.9 MB
Filter.sh 2024-10-04 2.4 kB
one_cuffcompare.sh 2024-10-04 589 Bytes
Totals: 51 Items   1.3 GB 0

TransRefine

TransRefine 是一个用于转录组数据过滤的软件,能够整合多种其他软件的重构结果。该软件尚未发表,目前推荐使用 Scallop2 和 Stringtie2 处理二代测序数据,使用 Stringtie2 和 Isoquant 处理三代测序数据。对于其他软件生成的 GTF 文件,可能存在兼容性问题。

测试流程

安装依赖

首先,安装必要的 Python 包:

pip install tqdm concurrent.futures subprocess xgboost

运行步骤

  1. 生成合并图文件

运行以下命令,将多个 GTF 文件合并为一个图文件:

bash python graph.py -i test1.gtf test2.gtf -o merge.graph

  1. 处理 Isoquant 结果

如果需要合并 Isoquant 的结果,首先编辑 iso.py 文件,将以下变量修改为对应的文件路径:

python gtf_file = 'isoquant.gtf' cov_file = 'isoquant_cov.tsv'

然后运行以下命令生成合并的 GTF 文件:

bash ./simply_merge gtf1 gtf2 merge.gtf

  1. 生成路径信息

使用以下命令生成路径信息文件:

bash ./get_RightInfo_for_graph merge.gtf merge.graph gtf2path.info

  1. 开始测试

使用训练集文件(如 23_features_stringtie3.csv)进行预测:

bash python xgboost_model_predict.py -i 23_features_stringtie3.csv -g gtf2path.info

  1. 过滤转录本

最后,使用以下命令进行转录本过滤,生成最终的输出文件 output.gtf

bash ./filter_transcripts_based_on_count xgboost_predict_pro.txt merge.gtf output.gtf a(过滤参数) transgram

通过以上步骤,您可以使用 TransRefine 对转录组数据进行高效过滤和整合,文件夹中的数据对应数据集。二代d3-d8对应SRR1313132、SRR1313084、SRR1313085、SRR1313087、SRR1313088、SRR1313089三代ont r1-r6对应NA12878-cDNA、SRR14181741、RR6053080、ERR6053093、ERR9286480三代pacbio r11-r12对应SRR14638616、SRR1163657。训练数据集的特征文件(23_features_stringtie3.csv)在train_data文件夹中,测试数据集在test_data文件夹中。

Source: README.md, updated 2024-10-05