Home
Name Modified Size InfoDownloads / Week
ChipModule.py 2014-01-13 14.9 kB
ChipSeqAnalyzer.py 2014-01-13 7.2 kB
Convert-Jaspar.py 2014-01-13 1.0 kB
README 2014-01-13 7.3 kB
Totals: 4 Items   30.3 kB 0
Le programme ChipSeqAnalyzer permet d'extraire, à partir des données brutes sorties de l'experience de ChIP-seq
de :	1)Utiliser le module R "bPeaks" avec des paramètres personnalisés dans le cadre de la procédure de
	  "peak calling"
	2)Extraire, à partir du génome de candida glabrata, les séquences relatives aux pics détéctés lors de
	  l'étape 1.
	3)Utiliser le programme peak-motifs, dans le cadre d'une analyse comparative des motifs des facteurs
	  de transcription. La comparaison est effectuée entre les fichiers passés en paramètres --IPData et
	  --IPData2 (experience contrôle, dans notre cas sans sélénite).
	4)Extraire le nom des gènes associés à un motif et l'afficher sur la sortie standard.

Pour l'utiliser, il est nécessaire d'installer le module R bPeaks, ainsi que les modules python rpy2 (permet
l'utilisation de R dans python) et termcolor (couleurs pour le terminal). Ceux-ci sont fournis dans le
répertoire "modules".

Il vous faudra également installer Regulatory Sequence Analysis Tools (RSAT) (non inclus, car nécessitant
de remplir une licence. Voir : http://rsat.ulb.ac.be/distrib/index.html), ainsi que l'outil vmatch,
nécessaire à l'utilisation de peak-motifs (également non fourni car nécessitant la signature d'une
licence. http://www.vmatch.de/). Ayant eu des difficultés pour installer peak-motifs (nombreuses dépendances
en modules perl, fichiers manquants dans l'archive de téléchargement, variables d'environnement à créer...),
je suis disponible pour aider à l'installation ou faire une démonstration de l'outil sur mon ordinateur.

Le répertoire data contient les données à utiliser en entrée.
Le répertoire Jaspar_raw_matrix contient les matrices fungi provenant de Jaspar core. Elles ont été
légerement modifiées pour utiliser le nom alternatif de certains sites quand il s'agissait de sites
YAP, ainsi que pour intégrer la reconnaissance des YRE-A, YRE-O, et de possibles YRE.

Le répertoire Example contient une analyse déjà effectuée, ainsi que le log de l'analyse.
Vous pouvez l'afficher en utilisant la commande 'cat log.txt'.

Attention : Il est important que tous les chemins passés en arguments soient RELATIFS.

Voici l'aide du programme : 
usage: ChipSeqAnalyzer.py [-h] --Genome GENOME --Output OUTPUT --Output2
                          OUTPUT2 [--ResultDir RESULTDIR]
                          [--ResultDir2 RESULTDIR2] --ORF ORF --IPData IPDATA
                          --IPData2 IPDATA2 --ControlData CONTROLDATA
                          [--CDS CDS] [--T1 T1] [--T2 T2] [--T3 T3] [--T4 T4]
                          [--WindowSize WINDOWSIZE]
                          [--WindowOverlap WINDOWOVERLAP]
                          [--SmoothingValue SMOOTHINGVALUE]
                          [--PromSize PROMSIZE] [--WithoutOverlap]
                          [--PeakDrawing] [--ResultName RESULTNAME] --Jaspar
                          JASPAR

Processes data with bPeaks and extract peak-called sequences

optional arguments:
  -h, --help            show this help message and exit

Fasta conversion:
  --Genome GENOME       Genome sequence, with all chromosomes, in FASTA
                        format. required!
  --Output OUTPUT       Name of the output file containing sequences extracted
                        from peak calling for IPData. Format is FASTA. Located
                        in ResultDir required!
  --Output2 OUTPUT2     Name of the other output file containing sequences
                        extracted from peak calling for IPData2. Format is
                        FASTA. Located in ResultDir2 required !
  --ResultDir RESULTDIR
                        Results of bPeaks analysis of IPData will be stored in
                        this directory. Default : ./Results_1/
  --ResultDir2 RESULTDIR2
                        Results of bPeaks analysis of IPData2 will be stored
                        in this directory. Default : ./Results_2/
  --ORF ORF             Path to the file containing genome features (example :
                        C_glabrata_CBS138_current_orf_coding.fasta).

bPeaks : Location of data and CDS positions if available:
  --IPData IPDATA       Path to IP Data. required
  --IPData2 IPDATA2     Path to other IP Data. required!
  --ControlData CONTROLDATA
                        Path to Control Data. required
  --CDS CDS             Path to IP Data. Available are : Debaryomyces.hansenii
                        Eremothecium.gossypii Kluyveromyces.lactis
                        Pichia.sorbitophila Saccharomyces.kluyveri
                        Yarrowia.lipolytica Zygosaccharomyces.rouxii
                        Saccharomyces.cerevisiae Candida.albicans
                        Candida.glabrata. Default = Candida.glabrata

bPeaks : Thresholds. Optionnal:
  --T1 T1               IP signal should be GREATER than T1 * (the mean
                        genome-wide read depth). Default = 4
  --T2 T2               Control signal should be LOWER than T2 * (the mean
                        genome-wide read depth). Default = 2
  --T3 T3               log2(IP/control) should be GREATER than T3. Default =
                        1
  --T4 T4               (log2(IP) + log2(control)) / 2 should be GREATER than
                        T4. Default = 0.7

bPeaks : Miscellaneous Tweaks:
  --WindowSize WINDOWSIZE
                        Size of the sliding windows to scan chromosomes.
                        Default = 150
  --WindowOverlap WINDOWOVERLAP
                        Size of the overlap between two successive windows.
                        Default = 100
  --SmoothingValue SMOOTHINGVALUE
                        The number (n/2) of surrounding positions to use for
                        mean calculation. Default = 20
  --PromSize PROMSIZE   Size of the genomic regions to be considered as
                        'upstream' to the annotated genomic features. Default
                        = 800
  --WithoutOverlap      Allows to filter peak that are located in a promoter
                        AND a CDS. Default = FALSE
  --PeakDrawing         PDF files with graphical representations of detected
                        peaks are created. Default = FALSE
  --ResultName RESULTNAME
                        Name for output files created during bPeaks procedure.
                        Default = results

Peak-Motif tweaks:
  --Jaspar JASPAR       Path to the Jaspar fungi matrix file. Example : ./data
                        /Jaspar-fungi.matrix

Exemple : python ChipSeqAnalyzer.py --Genome data/C_glabrata_CBS138_current_chromosomes.fasta --Output Sel --Output2 NoSel --IPData data/ChIP_AP1_selenite.txt --IPData2 data/ChIP_AP1_noSelenite.txt --ControlData data/Control_AP1.txt --ORF data/C_glabrata_CBS138_current_orf_coding.fasta --Jaspar data/Jaspar-fungi.matrix


N'hésitez pas à me solliciter en cas de problèmes, les retours seront appréciés.
Je suis conscient du fait que ce programme n'est pas complet. N'ayant pas eu le temps de l'améliorer,
je pourrai le modifier pour répondre à vos demandes. Si vous souhaitez de nouvelles fonctions,
je les implémenterai aussi rapidement que possible.
J'espère néanmoins que ce programme vous donnera satisfaction.

Yannick Boursin

Source: README, updated 2014-01-13