Name | Modified | Size | Downloads / Week |
---|---|---|---|
ChipModule.py | 2014-01-13 | 14.9 kB | |
ChipSeqAnalyzer.py | 2014-01-13 | 7.2 kB | |
Convert-Jaspar.py | 2014-01-13 | 1.0 kB | |
README | 2014-01-13 | 7.3 kB | |
Totals: 4 Items | 30.3 kB | 0 |
Le programme ChipSeqAnalyzer permet d'extraire, à partir des données brutes sorties de l'experience de ChIP-seq de : 1)Utiliser le module R "bPeaks" avec des paramètres personnalisés dans le cadre de la procédure de "peak calling" 2)Extraire, à partir du génome de candida glabrata, les séquences relatives aux pics détéctés lors de l'étape 1. 3)Utiliser le programme peak-motifs, dans le cadre d'une analyse comparative des motifs des facteurs de transcription. La comparaison est effectuée entre les fichiers passés en paramètres --IPData et --IPData2 (experience contrôle, dans notre cas sans sélénite). 4)Extraire le nom des gènes associés à un motif et l'afficher sur la sortie standard. Pour l'utiliser, il est nécessaire d'installer le module R bPeaks, ainsi que les modules python rpy2 (permet l'utilisation de R dans python) et termcolor (couleurs pour le terminal). Ceux-ci sont fournis dans le répertoire "modules". Il vous faudra également installer Regulatory Sequence Analysis Tools (RSAT) (non inclus, car nécessitant de remplir une licence. Voir : http://rsat.ulb.ac.be/distrib/index.html), ainsi que l'outil vmatch, nécessaire à l'utilisation de peak-motifs (également non fourni car nécessitant la signature d'une licence. http://www.vmatch.de/). Ayant eu des difficultés pour installer peak-motifs (nombreuses dépendances en modules perl, fichiers manquants dans l'archive de téléchargement, variables d'environnement à créer...), je suis disponible pour aider à l'installation ou faire une démonstration de l'outil sur mon ordinateur. Le répertoire data contient les données à utiliser en entrée. Le répertoire Jaspar_raw_matrix contient les matrices fungi provenant de Jaspar core. Elles ont été légerement modifiées pour utiliser le nom alternatif de certains sites quand il s'agissait de sites YAP, ainsi que pour intégrer la reconnaissance des YRE-A, YRE-O, et de possibles YRE. Le répertoire Example contient une analyse déjà effectuée, ainsi que le log de l'analyse. Vous pouvez l'afficher en utilisant la commande 'cat log.txt'. Attention : Il est important que tous les chemins passés en arguments soient RELATIFS. Voici l'aide du programme : usage: ChipSeqAnalyzer.py [-h] --Genome GENOME --Output OUTPUT --Output2 OUTPUT2 [--ResultDir RESULTDIR] [--ResultDir2 RESULTDIR2] --ORF ORF --IPData IPDATA --IPData2 IPDATA2 --ControlData CONTROLDATA [--CDS CDS] [--T1 T1] [--T2 T2] [--T3 T3] [--T4 T4] [--WindowSize WINDOWSIZE] [--WindowOverlap WINDOWOVERLAP] [--SmoothingValue SMOOTHINGVALUE] [--PromSize PROMSIZE] [--WithoutOverlap] [--PeakDrawing] [--ResultName RESULTNAME] --Jaspar JASPAR Processes data with bPeaks and extract peak-called sequences optional arguments: -h, --help show this help message and exit Fasta conversion: --Genome GENOME Genome sequence, with all chromosomes, in FASTA format. required! --Output OUTPUT Name of the output file containing sequences extracted from peak calling for IPData. Format is FASTA. Located in ResultDir required! --Output2 OUTPUT2 Name of the other output file containing sequences extracted from peak calling for IPData2. Format is FASTA. Located in ResultDir2 required ! --ResultDir RESULTDIR Results of bPeaks analysis of IPData will be stored in this directory. Default : ./Results_1/ --ResultDir2 RESULTDIR2 Results of bPeaks analysis of IPData2 will be stored in this directory. Default : ./Results_2/ --ORF ORF Path to the file containing genome features (example : C_glabrata_CBS138_current_orf_coding.fasta). bPeaks : Location of data and CDS positions if available: --IPData IPDATA Path to IP Data. required --IPData2 IPDATA2 Path to other IP Data. required! --ControlData CONTROLDATA Path to Control Data. required --CDS CDS Path to IP Data. Available are : Debaryomyces.hansenii Eremothecium.gossypii Kluyveromyces.lactis Pichia.sorbitophila Saccharomyces.kluyveri Yarrowia.lipolytica Zygosaccharomyces.rouxii Saccharomyces.cerevisiae Candida.albicans Candida.glabrata. Default = Candida.glabrata bPeaks : Thresholds. Optionnal: --T1 T1 IP signal should be GREATER than T1 * (the mean genome-wide read depth). Default = 4 --T2 T2 Control signal should be LOWER than T2 * (the mean genome-wide read depth). Default = 2 --T3 T3 log2(IP/control) should be GREATER than T3. Default = 1 --T4 T4 (log2(IP) + log2(control)) / 2 should be GREATER than T4. Default = 0.7 bPeaks : Miscellaneous Tweaks: --WindowSize WINDOWSIZE Size of the sliding windows to scan chromosomes. Default = 150 --WindowOverlap WINDOWOVERLAP Size of the overlap between two successive windows. Default = 100 --SmoothingValue SMOOTHINGVALUE The number (n/2) of surrounding positions to use for mean calculation. Default = 20 --PromSize PROMSIZE Size of the genomic regions to be considered as 'upstream' to the annotated genomic features. Default = 800 --WithoutOverlap Allows to filter peak that are located in a promoter AND a CDS. Default = FALSE --PeakDrawing PDF files with graphical representations of detected peaks are created. Default = FALSE --ResultName RESULTNAME Name for output files created during bPeaks procedure. Default = results Peak-Motif tweaks: --Jaspar JASPAR Path to the Jaspar fungi matrix file. Example : ./data /Jaspar-fungi.matrix Exemple : python ChipSeqAnalyzer.py --Genome data/C_glabrata_CBS138_current_chromosomes.fasta --Output Sel --Output2 NoSel --IPData data/ChIP_AP1_selenite.txt --IPData2 data/ChIP_AP1_noSelenite.txt --ControlData data/Control_AP1.txt --ORF data/C_glabrata_CBS138_current_orf_coding.fasta --Jaspar data/Jaspar-fungi.matrix N'hésitez pas à me solliciter en cas de problèmes, les retours seront appréciés. Je suis conscient du fait que ce programme n'est pas complet. N'ayant pas eu le temps de l'améliorer, je pourrai le modifier pour répondre à vos demandes. Si vous souhaitez de nouvelles fonctions, je les implémenterai aussi rapidement que possible. J'espère néanmoins que ce programme vous donnera satisfaction. Yannick Boursin