From: Serge H. <sl...@en...> - 2018-03-14 17:12:05
|
Bonjour Ciarán, Il manque dans votre XSL un template pour recopier toutes les autres balises (étiquettes). Le résultat n'est plus du XML parce qu'il ne contient plus de balises du tout (il en faut au moins une autour de l'ensemble du texte, mais ce n'est pas ce que vous souhaitez de toute façon). Je vous suggère de prendre exemple sur la XSL exemple nommée "filter-out-p.xsl" livrée avec TXM dans votre répertoire $HOME/TXM/xsl pour faire ce genre de traitement, ou bien de la récupérer sur Sourceforge : https://sourceforge.net/projects/txm/files/library/xsl Le fichier README.markdown documente toutes les XSL disponibles. Dans la XSL filter-out-p.xsl, le template (qui ressemble beaucoup au votre) : <xsl:template match="//p[@type='ouverture']"> <!--<xsl:copy-of select="."/>--> </xsl:template> va provoquer la suppression de toutes les balises <p> ayant un attribut "type" à la valeur "ouverture". Le template suivant : <xsl:template match="//p"> <!--<xsl:copy-of select="."/>--> </xsl:template> va provoquer la suppression de toutes les balises <p> et leur contenu. Par contre il faut absolument le template suivant pour recopier les autres balises : <xsl:template match="@*|node()"> <xsl:copy> <xsl:apply-templates select="@*|node()" /> </xsl:copy> </xsl:template> Une autre XSL intéressante pour filtrer certaines balises est "filter-keep-only-select.xsl". Pour tester vos XSL, je vous suggère d'utiliser la macro ExecXSL, documentée ici : https://groupes.renater.fr/wiki/txm-users/public/macros#execxsl Si vous pouvez correspondre en français, je vous suggère de vous adresser plutôt à la liste de diffusion "txm...@gr..." à laquelle plusieurs experts en XSL sont abonnés et pourront vous répondre directement : https://groupes.renater.fr/sympa//info/txm-users. La liste txm-open est beaucoup moins active et plutôt pour les échanges en anglais. à bientôt, Serge Heiden Le 14/03/2018 à 17:36, Ciarán Ó Duibhín via TXM-open a écrit : > Bonjour, > J'essaie de créer un corpus, en important un fichier LU006.xml > (inclus) par XML-XTZ+CSV. J'ai crée un ficher a.xsl dans le > répertoire \xsl\3-posttok , pour enlever du pivot tous les étiquettes > <c>..</c>, et aussi leur contenu. Le voici: il y a certainement des > erreurs: > <?xml version="1.0"?> > <xsl:stylesheet xmlns:edate="http://exslt.org/dates-and-times" > xmlns:xsl="http://www.w3.org/1999/XSL/Transform" > xmlns:tei="http://www.tei-c.org/ns/1.0" > xmlns:txm="http://textometrie.org/1.0" > xmlns:xs="http://www.w3.org/2001/XMLSchema" > exclude-result-prefixes="#all" version="2.0"> > > <xsl:output method="xml" encoding="UTF-8" omit-xml-declaration="no" > indent="no"/> > <xsl:template match="c"/> > </xsl:stylesheet> > TXM me donne un message "Content is not allowed in prolog." Voir > tmx1.jpg (inclus). > J'ai aperçu, dans le répertoire corpora/TOBAR/tokenized , un fichier > LU006.xml (voir tokenizedLU006.xml , inclus), ou les <c>..</c> et leur > contenu ont été enlevé, mais il manque aussi tous les autres > étiquettes (leur contenu reste toujours là). Au lieu des étiquettes > <c>..</c>, il y a un fin de ligne, ce qui n'était pas mon intention. > Que faire? Merci de vos idées. > Ciarán Ó Duibhín. > > > > ------------------------------------------------------------------------------ > Check out the vibrant tech community on one of the world's most > engaging tech sites, Slashdot.org! http://sdm.link/slashdot > > > _______________________________________________ > TXM-open mailing list > TXM...@li... > https://lists.sourceforge.net/lists/listinfo/txm-open -- Dr. Serge Heiden, slh AT ens-lyon.fr, http://textometrie.ens-lyon.fr Équipe de recherche Cactus, laboratoire IHRIM UMR5317, ENS de Lyon 15, parvis René Descartes 69342 Lyon BP7000 Cedex, tél. +33(0)622003883 |