[Iramuteq-users] Réponse à Problème d'ouverture de fichier + procédure pour nommer pls textes
Brought to you by:
pratinaud
From: Antoine P. <phi...@ya...> - 2013-05-15 09:29:38
|
Bonjour Pierre, J'ai demandé à une maître de conférence qui a réglé le problème. En fait, il faut toujours mettre un code étoilé, même si on veut analyser un texte et pas plusieurs, sous la forme **** *x_y Bien cordialement NB : je trouve la procédure de réponse par mail un peu compliquée. je pensais pouvoir répondre à votre message directement sur le forum. ________________________________ De : "ira...@li..." <ira...@li...> À : ira...@li... Envoyé le : Lundi 13 mai 2013 17h42 Objet : Lot Iramuteq-users, Vol 21, Parution 4 Envoyez vos messages pour la liste Iramuteq-users à ira...@li... Pour vous (dés)abonner par le web, consultez https://lists.sourceforge.net/lists/listinfo/iramuteq-users ou, par email, envoyez un message avec 'help' dans le corps ou dans le sujet à ira...@li... Vous pouvez contacter l'administrateur de la liste à l'adresse ira...@li... Si vous répondez, n'oubliez pas de changer l'objet du message afin qu'il soit plus spécifique que "Re: Contenu du digest de Iramuteq-users..." Thèmes du jour : 1. Re: Problème d'ouverture de fichier + procédure pour nommer pls textes (Pierre Ratinaud) 2. Gros corpus (slarinier) 3. Re: Gros corpus (Pierre Ratinaud) 4. greetings (raphael tremeaud) 5. greetings (raphael tremeaud) ---------------------------------------------------------------------- Message: 1 Date: Thu, 09 May 2013 10:41:32 +0200 From: Pierre Ratinaud <rat...@un...> Subject: Re: [Iramuteq-users] Problème d'ouverture de fichier + procédure pour nommer pls textes To: ira...@li... Message-ID: <518...@un...> Content-Type: text/plain; charset="iso-8859-1" Bonjour, 1) je pense que votre corpus est mal formaté. Comme vous l'avez fait avec word, essayez d'ajouter un saut de ligne avant la première ligne étoilée. 2) c'est tout à fait ça. Cordialement Pierre Ratinaud Le 08/05/2013 23:00, Antoine PHILIPPE a écrit : > Bonsoir, > > J'ai vu mon message dans les messages archivés du forum Iramuteq, mais > qui avait un drôle d'aspect. Je retente donc ma chance après m'être > abonné à la liste... > > > 1) Je rencontre un problème d'ouverture de fichier. Iramuteq 0.6 alpha > 3 me dit que le texte est vide et avance un problème de formatage de > corpus. Pourtant la version 5.2 arrivait bien à l'ouvrir, et ne > détectait aucune faute dans le corpus, qui est bien en txt. Cependant > si 5.2 arriviat bien a l'ouvrir, il y avait 6 bug lors de l'analyse de > texte (donc impossible aussi). Tout ça pour dire que la version 5.2 ne > peut être une solution de repli. > > Juste pour info la conversion du corpus en Word 97/2000 en txt a été > réalisée avec Word starter, c'est ça qui pourrait poser problème ? > Mais ça n'en posait à priori pas avec Iramuteq 5.2 > > 2) Si je voulais entrer plusieurs textes, il faudrait que j'identifie > chaque nouveau texte par une ligne isolée (avec saut de ligne avant et > après) avec le code suivant ? **** *interview_pm c'est bien cela ? > > Bien cordialement > > PS : en copie le message d'erreur > > > ------------------------------------------------------------------------------ > Learn Graph Databases - Download FREE O'Reilly Book > "Graph Databases" is the definitive new guide to graph databases and > their applications. This 200-page book is written by three acclaimed > leaders in the field. The early access version is available now. > Download your free book today! http://p.sf.net/sfu/neotech_d2d_may > > > _______________________________________________ > Iramuteq-users mailing list > Ira...@li... > https://lists.sourceforge.net/lists/listinfo/iramuteq-users > > -- > Pierre Ratinaud > Maître de conférences > Département des Sciences de l'Education et de la Formation > Laboratoire LERASS : http://www.lerass.com/ > Université de Toulouse II - Le Mirail : http://www.univ-tlse2.fr/ > tel : 05 61 50 42 28 -------------- section suivante -------------- An HTML attachment was scrubbed... ------------------------------ Message: 2 Date: Fri, 10 May 2013 12:43:39 +0200 From: slarinier <seb...@gm...> Subject: [Iramuteq-users] Gros corpus To: "ira...@li..." <ira...@li...> Message-ID: <1368182619.3221.11.camel@slarinier> Content-Type: text/plain; charset="UTF-8" Bonjour j'essaie d'analyser un corpus de 4 Go (ce sont des mails de députés italiens qui ont fuité). La machine que j'ai pour faire est constitué de 16 coeurs et de 24 Go de ram. J'ai lancé Iramuteq pendant 4 heures, il n'a pas dépassé la partie uce. Quand je regarde les process lancés, python utilise 1 coeur (ce qui est normal en soit) mais aussi compiz qui utilise 4 coeurs. (surement la partie widget). Est ce que si je fais tourner le logiciel plusieurs jours, je vais arriver à quelque chose, ou je suis dans un problème np complet et il faut donc que je fasse des échantillons ? Merci d'avance pour vos réponses. Sébastien Larinier ------------------------------ Message: 3 Date: Fri, 10 May 2013 14:06:04 +0200 From: Pierre Ratinaud <rat...@un...> Subject: Re: [Iramuteq-users] Gros corpus To: ira...@li... Message-ID: <518...@un...> Content-Type: text/plain; charset=ISO-8859-1; format=flowed Bonjour, je n'ai jamais manipulé des corpus d'une telle taille, le plus gros dont je dispose fait 1,7Go. Mais ça devrait marcher à condition de pas être trop pressé et en fonction du nombre d'unités. Je pense que vous devriez pouvoir monter sans problème jusqu'à au moins 2 millions d'unités (=mail ?) (ça dépend en fait des analyses que vous voulez faire). Imaginons que le corpus représente 560 millions d'occurrences réparties en 500 000 mails de 1120 occurrences, je vous conseille de faire des segments de textes de 250 occurrences, ce qui fera environ 2 000 000 de segments de texte. Avec les paramétrage de base, iramuteq construirait 14 000 000 de segments de texte, ce qui est trop. L'indexation va prendre au moins 2 heures, peut être plus. Ensuite vous aurez rapidement accès aux listes de mots, vous pourrez faire relativement rapidement des analyses de similitudes (en faisant attention de ne pas sélectionner trop de mots). Pour la classification, vous pouvez sélectionner jusqu'à 8000 formes je pense (regardez comment ça passe avec votre RAM). N'hésitez pas à demander beaucoup beaucoup de classes, utilisez le mode patate sinon ça va être extrêmement long et attendez vous quand même à ce que cela soit très long (entre 5 et 10 heures minimum). Vous pouvez aussi utiliser le mail comme unité (vous décochez "construire des segments de texte" à l'indexation). Moins vous aurez d'unité et plus la manipulation du corpus sera rapide. Par contre, vous perdez un peu en précision. Ni python, ni R n'utiliseront plusieurs coeurs de votre processeur. Je ne pense pas que le fait que compiz en utilise plusieurs ait un rapport avec iramuteq. Je suis très intéressé par des retours sur ce genre de corpus :) Cordialement Pierre Ratinaud Le 10/05/2013 12:43, slarinier a écrit : > Bonjour > > j'essaie d'analyser un corpus de 4 Go (ce sont des mails de députés > italiens qui ont fuité). La machine que j'ai pour faire est constitué de > 16 coeurs et de 24 Go de ram. J'ai lancé Iramuteq pendant 4 heures, il > n'a pas dépassé la partie uce. Quand je regarde les process lancés, > python utilise 1 coeur (ce qui est normal en soit) mais aussi compiz qui > utilise 4 coeurs. (surement la partie widget). Est ce que si je fais > tourner le logiciel plusieurs jours, je vais arriver à quelque chose, ou > je suis dans un problème np complet et il faut donc que je fasse des > échantillons ? > > > Merci d'avance pour vos réponses. > > Sébastien Larinier > > > > > ------------------------------------------------------------------------------ > Learn Graph Databases - Download FREE O'Reilly Book > "Graph Databases" is the definitive new guide to graph databases and > their applications. This 200-page book is written by three acclaimed > leaders in the field. The early access version is available now. > Download your free book today! http://p.sf.net/sfu/neotech_d2d_may > _______________________________________________ > Iramuteq-users mailing list > Ira...@li... > https://lists.sourceforge.net/lists/listinfo/iramuteq-users > > > -- > Pierre Ratinaud > Maître de conférences > Département des Sciences de l'Education et de la Formation > Laboratoire LERASS : http://www.lerass.com/ > Université de Toulouse II - Le Mirail : http://www.univ-tlse2.fr/ > tel : 05 61 50 42 28 ------------------------------ Message: 4 Date: Mon, 13 May 2013 16:28:28 +0100 (BST) From: raphael tremeaud <rtr...@ya...> Subject: [Iramuteq-users] greetings To: iramuteq users <ira...@li...>, sophie ebermeyer <sop...@ec...>, prime <pr...@we...>, tremeaudcaroline <tre...@ho...>, ca enligne6 <ca....@ca...>, BERN ALK <BERN.ALK@UNIA.CH> Message-ID: <136...@we...> Content-Type: text/plain; charset="utf-8" http://mc-garant.ru/news_xml.php?vxjsy782lpuhc rtremeaud raphael tremeaud -------------------- The only possible interpretation of any research whatever in the `social sciences' is: some do, some don't. -- Ernest Rutherford % -------------- section suivante -------------- An HTML attachment was scrubbed... ------------------------------ Message: 5 Date: Mon, 13 May 2013 16:28:22 +0100 (BST) From: raphael tremeaud <rtr...@ya...> Subject: [Iramuteq-users] greetings To: iramuteq users <ira...@li...>, sophie ebermeyer <sop...@ec...>, prime <pr...@we...>, tremeaudcaroline <tre...@ho...>, ca enligne6 <ca....@ca...>, BERN ALK <BERN.ALK@UNIA.CH> Message-ID: <136...@we...> Content-Type: text/plain; charset="utf-8" http://mc-garant.ru/news_xml.php?vxjsy782lpuhc rtremeaud raphael tremeaud -------------------- The only possible interpretation of any research whatever in the `social sciences' is: some do, some don't. -- Ernest Rutherford % -------------- section suivante -------------- An HTML attachment was scrubbed... ------------------------------ ------------------------------------------------------------------------------ Learn Graph Databases - Download FREE O'Reilly Book "Graph Databases" is the definitive new guide to graph databases and their applications. This 200-page book is written by three acclaimed leaders in the field. The early access version is available now. Download your free book today! http://p.sf.net/sfu/neotech_d2d_may ------------------------------ _______________________________________________ Iramuteq-users mailing list Ira...@li... https://lists.sourceforge.net/lists/listinfo/iramuteq-users Fin de Lot Iramuteq-users, Vol 21, Parution 4 ********************************************* |