DocFetcher / Bugs / #2377 IllegalArgumentException

#2377 IllegalArgumentException

Milestone: v1.0_(example)

Status: closed

Owner: nobody

Labels: None

Priority: 1

Updated: 2026-01-08

Created: 2024-03-29

Creator: Anonymous

Private: No

program.name=DocFetcher
program.version=1.1.25
program.build=20210525-2212
program.portable=false
java.runtime.name=Java(TM) SE Runtime Environment
java.runtime.version=1.8.0_111-b14
java.version=1.8.0_111
sun.arch.data.model=32
os.arch=x86
os.name=Windows 10
os.version=10.0
user.language=zh
java.lang.IllegalArgumentException: Document contains at least one immense term in field="content" (whose UTF8 encoding is longer than the max length 32766), all of which were skipped. Please correct the analyzer to not produce such terms. The prefix of the first immense term is: '[50, 53, 56, 55, 57, 49, 53, 51, 49, 49, 55, 50, 56, 55, 48, 50, 52, 50, 49, 51, 56, 56, 50, 53, 54, 57, 57, 56, 49, 51]...', original message: bytes can be at most 32766 in length; got 49998
at org.apache.lucene.index.DefaultIndexingChain$PerField.invert(DefaultIndexingChain.java:806)
at org.apache.lucene.index.DefaultIndexingChain.processField(DefaultIndexingChain.java:447)
at org.apache.lucene.index.DefaultIndexingChain.processDocument(DefaultIndexingChain.java:403)
at org.apache.lucene.index.DocumentsWriterPerThread.updateDocument(DocumentsWriterPerThread.java:232)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:478)
at org.apache.lucene.index.IndexWriter.updateDocument(IndexWriter.java:1571)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1316)
at net.sourceforge.docfetcher.model.index.IndexWriterAdapter.add(IndexWriterAdapter.java:53)
at net.sourceforge.docfetcher.model.index.file.SimpleDocWriter.write(SimpleDocWriter.java:44)
at net.sourceforge.docfetcher.model.index.file.LuceneDocWriter.add(LuceneDocWriter.java:36)
at net.sourceforge.docfetcher.model.index.file.FileContext.index(FileContext.java:161)
at net.sourceforge.docfetcher.model.index.file.FileIndex$1.handleFile(FileIndex.java:295)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.runWithHtmlPairing(HtmlFileLister.java:126)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.doRun(HtmlFileLister.java:57)
at net.sourceforge.docfetcher.util.Stoppable.run(Stoppable.java:57)
at net.sourceforge.docfetcher.model.index.file.FileIndex.visitDirOrZip(FileIndex.java:442)
at net.sourceforge.docfetcher.model.index.file.FileIndex.access$200(FileIndex.java:51)
at net.sourceforge.docfetcher.model.index.file.FileIndex$1.handleDir(FileIndex.java:393)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.runWithHtmlPairing(HtmlFileLister.java:147)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.doRun(HtmlFileLister.java:57)
at net.sourceforge.docfetcher.util.Stoppable.run(Stoppable.java:57)
at net.sourceforge.docfetcher.model.index.file.FileIndex.visitDirOrZip(FileIndex.java:442)
at net.sourceforge.docfetcher.model.index.file.FileIndex.access$200(FileIndex.java:51)
at net.sourceforge.docfetcher.model.index.file.FileIndex$1.handleDir(FileIndex.java:393)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.runWithHtmlPairing(HtmlFileLister.java:147)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.doRun(HtmlFileLister.java:57)
at net.sourceforge.docfetcher.util.Stoppable.run(Stoppable.java:57)
at net.sourceforge.docfetcher.model.index.file.FileIndex.visitDirOrZip(FileIndex.java:442)
at net.sourceforge.docfetcher.model.index.file.FileIndex.access$200(FileIndex.java:51)
at net.sourceforge.docfetcher.model.index.file.FileIndex$1.handleDir(FileIndex.java:393)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.runWithHtmlPairing(HtmlFileLister.java:147)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.doRun(HtmlFileLister.java:57)
at net.sourceforge.docfetcher.util.Stoppable.run(Stoppable.java:57)
at net.sourceforge.docfetcher.model.index.file.FileIndex.visitDirOrZip(FileIndex.java:442)
at net.sourceforge.docfetcher.model.index.file.FileIndex.access$200(FileIndex.java:51)
at net.sourceforge.docfetcher.model.index.file.FileIndex$1.handleDir(FileIndex.java:393)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.runWithHtmlPairing(HtmlFileLister.java:147)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.doRun(HtmlFileLister.java:57)
at net.sourceforge.docfetcher.util.Stoppable.run(Stoppable.java:57)
at net.sourceforge.docfetcher.model.index.file.FileIndex.visitDirOrZip(FileIndex.java:442)
at net.sourceforge.docfetcher.model.index.file.FileIndex.access$200(FileIndex.java:51)
at net.sourceforge.docfetcher.model.index.file.FileIndex$1.handleDir(FileIndex.java:393)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.runWithHtmlPairing(HtmlFileLister.java:147)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.doRun(HtmlFileLister.java:57)
at net.sourceforge.docfetcher.util.Stoppable.run(Stoppable.java:57)
at net.sourceforge.docfetcher.model.index.file.FileIndex.visitDirOrZip(FileIndex.java:442)
at net.sourceforge.docfetcher.model.index.file.FileIndex.access$200(FileIndex.java:51)
at net.sourceforge.docfetcher.model.index.file.FileIndex$1.handleDir(FileIndex.java:393)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.runWithHtmlPairing(HtmlFileLister.java:147)
at net.sourceforge.docfetcher.model.index.file.HtmlFileLister.doRun(HtmlFileLister.java:57)
at net.sourceforge.docfetcher.util.Stoppable.run(Stoppable.java:57)
at net.sourceforge.docfetcher.model.index.file.FileIndex.visitDirOrZip(FileIndex.java:442)
at net.sourceforge.docfetcher.model.index.file.FileIndex.doUpdate(FileIndex.java:159)
at net.sourceforge.docfetcher.model.TreeIndex.update(TreeIndex.java:148)
at net.sourceforge.docfetcher.model.index.Task.update(Task.java:98)
at net.sourceforge.docfetcher.model.index.IndexingQueue.threadLoop(IndexingQueue.java:193)
at net.sourceforge.docfetcher.model.index.IndexingQueue.access$100(IndexingQueue.java:46)
at net.sourceforge.docfetcher.model.index.IndexingQueue$2.run(IndexingQueue.java:118)
Caused by: org.apache.lucene.util.BytesRefHash$MaxBytesLengthExceededException: bytes can be at most 32766 in length; got 49998
at org.apache.lucene.util.BytesRefHash.add(BytesRefHash.java:263)
at org.apache.lucene.index.TermsHashPerField.add(TermsHashPerField.java:149)
at org.apache.lucene.index.DefaultIndexingChain$PerField.invert(DefaultIndexingChain.java:796)
... 57 more

Discussion

Anonymous - 2024-04-04

Same question, the following error file
go1.21.5/src/archive/tar/testdata

pax-bad-hdr-file.tar

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
- Anonymous
  
  Add attachments
  Cancel
  You seem to have CSS turned off. Please don't fill out this field.
  
  You seem to have CSS turned off. Please don't fill out this field.

Nam-Quang Tran - 2024-04-05

@Anonymous:
DocFetcher 1.1.25 seems to be able to read the tar file just fine.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
- Anonymous
  
  Add attachments
  Cancel
  You seem to have CSS turned off. Please don't fill out this field.
  
  You seem to have CSS turned off. Please don't fill out this field.

Nam-Quang Tran - 2026-01-08

Will be fixed in DocFetcher 1.1.27.

If you would like to refer to this comment somewhere else in this project, copy and paste the following link:
- Anonymous
  
  Add attachments
  Cancel
  You seem to have CSS turned off. Please don't fill out this field.
  
  You seem to have CSS turned off. Please don't fill out this field.

Anonymous

IllegalArgumentException

Desktop search application

Group

Searches

Help

#2377 IllegalArgumentException

Discussion