|
From: Sverre B. <sve...@nb...> - 2005-11-02 13:07:05
|
The output from nutchwax is partly mangled. See http://war.mzk.cz:8080/nutchwax/opensearch?query=3Dkniha&start=3D0&hitsPerP= age=3D10&hitsPerDup=3D1&dedupField=3Dexacturl where the contents of the des= cription element is garbage while the contents of the title element looks f= ine (!?).=20 As an example the text =C4=8Dasnosti =C5=BD=C4=8F=C3=A1rsk=C3=BDch vrch=C5=AF a Hornosvrateck=C3= =A9 hornatiny (taken from the html source of timeline view) has in nutchwax description element become 69;asnosti Žďárských vrchů a Hornosvratecké hornatiny An observation that may or may not have something to do with this: NutchWax does a more or less educated guess of the encoding used in the page. For the example it guessed windows-1252 which i believe is closer to iso-8859-1 than to the actual encoding specified in the example source, iso-8859-2. I'll keep looking. Sverre On Wed, 2005-11-02 at 12:20 +0100, Luk=C3=A1=C5=A1 Mat=C4=9Bjka wrote: > Hi, >=20 > for example > http://war.mzk.cz/~nwa/wera/wera/index.php?query=3Dkniha&year_from=3D&yea= r_to=3D >=20 > description of each record is not well-displayed >=20 > 1. SKIP, Moje kniha (http://skip.nkp.cz/akcMojekn.htm) > (<b> ... </b>přístupu k internetu v knihovnách propago= vat využití internetu při zjišťován&iacut= e; názorů obyvatel 2. Anketa Pomocí krátké= ankety bude zjišťována nejoblíbenějš&iac= ute; <b>kniha</b> obyvatel České republiky. Pojem nejoblí= ;benější <b>kniha</b> je specifikován dalš&iac= ute;mi výklady, jako "<b>kniha</b>, která mě nejv&i= acute;ce ovlivnila", "<b>kniha</b>, ke které se často= vracím", "<b>kniha</b>, kterou bych doporučil/a dobr= ým přátelům", "<b>kniha</b>, která= změnila můj život", "<b>kniha</b> na kterou nemoh= u zapomenout", "<b>kniha</b>, která mne uvedla do jin&eacu= te;ho světa", "<b>kniha</b>, kterou bych si s sebou vzal/a j= ako jedinou<b> ... </b>) > Versions (matching query/total) 3/3 > Timeline | Overview >=20 > "přístupu" should be "p=C5=99=C3=ADstupu"(without diacritics = "pristupu") >=20 > does anybody have same problem? >=20 > -lm >=20 >=20 >=20 > ------------------------------------------------------- > SF.Net email is sponsored by: > Tame your development challenges with Apache's Geronimo App Server. Downl= oad > it for free - -and be entered to win a 42" plasma tv or your very own > Sony(tm)PSP. Click here to play: http://sourceforge.net/geronimo.php > _______________________________________________ > Archive-access-discuss mailing list > Arc...@li... > https://lists.sourceforge.net/lists/listinfo/archive-access-discuss |