[Htmlparser-cvs] htmlparser/docs changes.txt,1.193,1.194 release.txt,1.52,1.53

SourceForge Headquarters 1320 Columbia Street Suite 310 San Diego, CA 92101 +1 (858) 422-6466

Update of /cvsroot/htmlparser/htmlparser/docs
In directory sc8-pr-cvs1:/tmp/cvs-serv27606/docs

Modified Files:
	changes.txt release.txt 
Log Message:
Update version to 1.4-20040104.

Index: changes.txt
===================================================================
RCS file: /cvsroot/htmlparser/htmlparser/docs/changes.txt,v
retrieving revision 1.193
retrieving revision 1.194
diff -C2 -d -r1.193 -r1.194
*** changes.txt	8 Dec 2003 01:31:49 -0000	1.193
--- changes.txt	4 Jan 2004 19:03:35 -0000	1.194
***************
*** 13,16 ****
--- 13,355 ----
  *******************************************************************************

+ Integration Build 1.4 - 20040104
+ --------------------------------
+ 
+ 2004-01-03 22:23  derrickoswald
+ 
+ 	* build.xml, docs/bug.html, docs/contributors.html,
+ 	docs/index.html, docs/joinus.html, docs/mailinglists.html,
+ 	docs/main.html, docs/panel.html, docs/samples.html,
+ 	docs/support.html, docs/articles/index.html,
+ 	docs/articles/quest.html, docs/samples/index.html, bin/beanybaby,
+ 	bin/beanybaby.bat, bin/stringextractor, bin/stringextractor.bat,
+ 	src/org/htmlparser/Parser.java,
+ 	src/org/htmlparser/beans/LinkBean.java,
+ 	src/org/htmlparser/parserapplications/LinkExtractor.java,
+ 	src/org/htmlparser/parserapplications/SiteCapturer.java:
+ 
+ 	Web site revamp, phase 1.
+ 	Main and first level pages are refurbished. The wiki is still to do.
+ 	Fixed bug #865279 Documentation
+ 	The samples directory is now orphaned and no longer shipped.
+ 	
+ 2004-01-02 14:32  derrickoswald
+ 
+ 	* build.xml, src/org/htmlparser/Parser.java,
+ 	src/org/htmlparser/lexer/Cursor.java,
+ 	src/org/htmlparser/scanners/package.html:
+ 
+ 	Gey keyword substitution working.
+ 	In the future, could developers ensure source files are initially check in with keyword substitution (-kkv) turned on.
+ 	
+ 2004-01-02 11:24  derrickoswald
+ 
+ 	* build.xml, docs/docs/FrequentlyAskedQuestions.html,
+ 	docs/docs/ParsingXml.html, docs/docs/ReviewerInformation.html,
+ 	docs/docs/TextExtractingVisitor.html, docs/docs/WebCrawler.html,
+ 	docs/docs/index.html, src/org/htmlparser/AbstractNode.java,
+ 	src/org/htmlparser/Node.java, src/org/htmlparser/Parser.java,
+ 	src/org/htmlparser/RemarkNode.java,
+ 	src/org/htmlparser/StringNode.java,
+ 	src/org/htmlparser/StringNodeFactory.java,
+ 	src/org/htmlparser/package.html,
+ 	src/org/htmlparser/beans/BeanyBaby.java,
+ 	src/org/htmlparser/beans/HTMLLinkBean.java,
+ 	src/org/htmlparser/beans/HTMLTextBean.java,
+ 	src/org/htmlparser/beans/LinkBean.java,
+ 	src/org/htmlparser/beans/StringBean.java,
+ 	src/org/htmlparser/beans/package.html,
+ 	src/org/htmlparser/filters/package.html,
+ 	src/org/htmlparser/lexer/Cursor.java,
+ 	src/org/htmlparser/lexer/Lexer.java,
+ 	src/org/htmlparser/lexer/Page.java,
+ 	src/org/htmlparser/lexer/PageIndex.java,
+ 	src/org/htmlparser/lexer/Source.java,
+ 	src/org/htmlparser/lexer/Stream.java,
+ 	src/org/htmlparser/lexer/package.html,
+ 	src/org/htmlparser/lexer/nodes/Attribute.java,
+ 	src/org/htmlparser/lexer/nodes/PageAttribute.java,
+ 	src/org/htmlparser/lexer/nodes/RemarkNode.java,
+ 	src/org/htmlparser/lexer/nodes/StringNode.java,
+ 	src/org/htmlparser/lexer/nodes/TagNode.java,
+ 	src/org/htmlparser/lexer/nodes/package.html,
+ 	src/org/htmlparser/lexerapplications/tabby/package.html,
+ 	src/org/htmlparser/lexerapplications/thumbelina/package.html,
+ 	src/org/htmlparser/nodeDecorators/AbstractNodeDecorator.java,
+ 	src/org/htmlparser/nodeDecorators/DecodingNode.java,
+ 	src/org/htmlparser/nodeDecorators/EscapeCharacterRemovingNode.java,
+ 	src/org/htmlparser/nodeDecorators/NonBreakingSpaceConvertingNode.java,
+ 	src/org/htmlparser/parserapplications/StringExtractor.java,
+ 	src/org/htmlparser/parserapplications/package.html,
+ 	src/org/htmlparser/scanners/package.html,
+ 	src/org/htmlparser/tags/AppletTag.java,
+ 	src/org/htmlparser/tags/BaseHrefTag.java,
+ 	src/org/htmlparser/tags/BodyTag.java,
+ 	src/org/htmlparser/tags/Bullet.java,
+ 	src/org/htmlparser/tags/BulletList.java,
+ 	src/org/htmlparser/tags/CompositeTag.java,
+ 	src/org/htmlparser/tags/Div.java,
+ 	src/org/htmlparser/tags/DoctypeTag.java,
+ 	src/org/htmlparser/tags/FormTag.java,
+ 	src/org/htmlparser/tags/FrameSetTag.java,
+ 	src/org/htmlparser/tags/FrameTag.java,
+ 	src/org/htmlparser/tags/HeadTag.java,
+ 	src/org/htmlparser/tags/Html.java,
+ 	src/org/htmlparser/tags/ImageTag.java,
+ 	src/org/htmlparser/tags/InputTag.java,
+ 	src/org/htmlparser/tags/JspTag.java,
+ 	src/org/htmlparser/tags/LabelTag.java,
+ 	src/org/htmlparser/tags/LinkTag.java,
+ 	src/org/htmlparser/tags/MetaTag.java,
+ 	src/org/htmlparser/tags/OptionTag.java,
+ 	src/org/htmlparser/tags/ScriptTag.java,
+ 	src/org/htmlparser/tags/SelectTag.java,
+ 	src/org/htmlparser/tags/Span.java,
+ 	src/org/htmlparser/tags/StyleTag.java,
+ 	src/org/htmlparser/tags/TableColumn.java,
+ 	src/org/htmlparser/tags/TableRow.java,
+ 	src/org/htmlparser/tags/TableTag.java,
+ 	src/org/htmlparser/tags/Tag.java,
+ 	src/org/htmlparser/tags/TextareaTag.java,
+ 	src/org/htmlparser/tags/TitleTag.java,
+ 	src/org/htmlparser/tags/package.html,
+ 	src/org/htmlparser/tests/AllTests.java,
+ 	src/org/htmlparser/tests/AssertXmlEqualsTest.java,
+ 	src/org/htmlparser/tests/BadTagIdentifier.java,
+ 	src/org/htmlparser/tests/FunctionalTests.java,
+ 	src/org/htmlparser/tests/InstanceofPerformanceTest.java,
+ 	src/org/htmlparser/tests/LineNumberAssignedByNodeReaderTest.java,
+ 	src/org/htmlparser/tests/ParserTest.java,
+ 	src/org/htmlparser/tests/ParserTestCase.java,
+ 	src/org/htmlparser/tests/PerformanceTest.java,
+ 	src/org/htmlparser/tests/package.html,
+ 	src/org/htmlparser/tests/codeMetrics/LineCounter.java,
+ 	src/org/htmlparser/tests/lexerTests/AllTests.java,
+ 	src/org/htmlparser/tests/lexerTests/AttributeTests.java,
+ 	src/org/htmlparser/tests/lexerTests/LexerTests.java,
+ 	src/org/htmlparser/tests/lexerTests/PageIndexTests.java,
+ 	src/org/htmlparser/tests/lexerTests/PageTests.java,
+ 	src/org/htmlparser/tests/lexerTests/SourceTests.java,
+ 	src/org/htmlparser/tests/lexerTests/StreamTests.java,
+ 	src/org/htmlparser/tests/lexerTests/TagTests.java,
+ 	src/org/htmlparser/tests/nodeDecoratorTests/AllTests.java,
+ 	src/org/htmlparser/tests/nodeDecoratorTests/DecodingNodeTest.java,
+ 	src/org/htmlparser/tests/nodeDecoratorTests/EscapeCharacterRemovingNodeTest.java,
+ 	src/org/htmlparser/tests/nodeDecoratorTests/NonBreakingSpaceConvertingNodeTest.java,
+ 	src/org/htmlparser/tests/parserHelperTests/AllTests.java,
+ 	src/org/htmlparser/tests/parserHelperTests/CompositeTagScannerHelperTest.java,
+ 	src/org/htmlparser/tests/parserHelperTests/RemarkNodeParserTest.java,
+ 	src/org/htmlparser/tests/parserHelperTests/StringParserTest.java,
+ 	src/org/htmlparser/tests/scannersTests/AllTests.java,
+ 	src/org/htmlparser/tests/scannersTests/CompositeTagScannerTest.java,
+ 	src/org/htmlparser/tests/scannersTests/JspScannerTest.java,
+ 	src/org/htmlparser/tests/scannersTests/ScriptScannerTest.java,
+ 	src/org/htmlparser/tests/scannersTests/TagScannerTest.java,
+ 	src/org/htmlparser/tests/scannersTests/XmlEndTagScanningTest.java,
+ 	src/org/htmlparser/tests/scannersTests/package.html,
+ 	src/org/htmlparser/tests/tagTests/AllTests.java,
+ 	src/org/htmlparser/tests/tagTests/AppletTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/BaseHrefTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/BodyTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/CompositeTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/DoctypeTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/EndTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/FormTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/FrameSetTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/FrameTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/ImageTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/InputTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/JspTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/LinkTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/MetaTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/ObjectCollectionTest.java,
+ 	src/org/htmlparser/tests/tagTests/OptionTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/ScriptTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/SelectTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/StyleTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/TagTest.java,
+ 	src/org/htmlparser/tests/tagTests/TextareaTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/TitleTagTest.java,
+ 	src/org/htmlparser/tests/tagTests/package.html,
+ 	src/org/htmlparser/tests/utilTests/AllTests.java,
+ 	src/org/htmlparser/tests/utilTests/BeanTest.java,
+ 	src/org/htmlparser/tests/utilTests/CharacterTranslationTest.java,
+ 	src/org/htmlparser/tests/utilTests/HTMLLinkProcessorTest.java,
+ 	src/org/htmlparser/tests/utilTests/HTMLParserUtilsTest.java,
+ 	src/org/htmlparser/tests/utilTests/NodeListTest.java,
+ 	src/org/htmlparser/tests/utilTests/SortTest.java,
+ 	src/org/htmlparser/tests/utilTests/package.html,
+ 	src/org/htmlparser/tests/visitorsTests/AllTests.java,
+ 	src/org/htmlparser/tests/visitorsTests/CompositeTagFindingVisitorTest.java,
+ 	src/org/htmlparser/tests/visitorsTests/HtmlPageTest.java,
+ 	src/org/htmlparser/tests/visitorsTests/LinkFindingVisitorTest.java,
+ 	src/org/htmlparser/tests/visitorsTests/NodeVisitorTest.java,
+ 	src/org/htmlparser/tests/visitorsTests/StringFindingVisitorTest.java,
+ 	src/org/htmlparser/tests/visitorsTests/TagFindingVisitorTest.java,
+ 	src/org/htmlparser/tests/visitorsTests/TextExtractingVisitorTest.java,
+ 	src/org/htmlparser/tests/visitorsTests/UrlModifyingVisitorTest.java,
+ 	src/org/htmlparser/util/ChainedException.java,
+ 	src/org/htmlparser/util/CommandLine.java,
+ 	src/org/htmlparser/util/DefaultParserFeedback.java,
+ 	src/org/htmlparser/util/FeedbackManager.java,
+ 	src/org/htmlparser/util/Generate.java,
+ 	src/org/htmlparser/util/IteratorImpl.java,
+ 	src/org/htmlparser/util/LinkProcessor.java,
+ 	src/org/htmlparser/util/NodeIterator.java,
+ 	src/org/htmlparser/util/NodeList.java,
+ 	src/org/htmlparser/util/ParserException.java,
+ 	src/org/htmlparser/util/ParserFeedback.java,
+ 	src/org/htmlparser/util/ParserUtils.java,
+ 	src/org/htmlparser/util/PeekingIterator.java,
+ 	src/org/htmlparser/util/SimpleNodeIterator.java,
+ 	src/org/htmlparser/util/SpecialHashtable.java,
+ 	src/org/htmlparser/util/Translate.java,
+ 	src/org/htmlparser/util/package.html,
+ 	src/org/htmlparser/util/sort/Ordered.java,
+ 	src/org/htmlparser/util/sort/Sort.java,
+ 	src/org/htmlparser/util/sort/Sortable.java,
+ 	src/org/htmlparser/util/sort/package.html,
+ 	src/org/htmlparser/visitors/HtmlPage.java,
+ 	src/org/htmlparser/visitors/LinkFindingVisitor.java,
+ 	src/org/htmlparser/visitors/NodeVisitor.java,
+ 	src/org/htmlparser/visitors/ObjectFindingVisitor.java,
+ 	src/org/htmlparser/visitors/StringFindingVisitor.java,
+ 	src/org/htmlparser/visitors/TagFindingVisitor.java,
+ 	src/org/htmlparser/visitors/TextExtractingVisitor.java,
+ 	src/org/htmlparser/visitors/UrlModifyingVisitor.java,
+ 	src/org/htmlparser/visitors/package.html:
+ 
+ 	Update the integration procedure to use a CVS tag,
+ 	rather than changing the version in every file header.
+ 	
+ 2004-01-02 00:01  derrickoswald
+ 
+ 	* src/org/htmlparser/tests/: ParserTest.java,
+ 	lexerTests/AttributeTests.java, lexerTests/LexerTests.java,
+ 	parserHelperTests/RemarkNodeParserTest.java,
+ 	scannersTests/ScriptScannerTest.java, tagTests/DoctypeTagTest.java,
+ 	tagTests/FormTagTest.java, tagTests/ImageTagTest.java,
+ 	tagTests/JspTagTest.java, tagTests/LinkTagTest.java:
+ 
+ 	Added testcases but was unable to reproduce the following bugs in the version 1.4 codebase:
+ 	839264 toHtml() parse error in Javascripts with "form" keyword
+ 	833592 DOCTYPE element is not parsed correctly
+ 	826764 ParserException occurs only when using setInputHTML() instea
+ 	825820 Words conjoined
+ 	825645 <input> not getting parsed inside table
+ 	813838 links not parsed correctly
+ 	and
+ 	#851882 zero length alt tag causes bug in ImageScanner
+ 	#832530 empty attribute causes parser to fail
+ 	#805598 attribute src in tag img sometimes not correctly parsed
+ 	(these 3 are all the same bug, duplicates of the following):
+ 	#753012 IMG SRC not parsed v1.3 & v1.4
+ 	#755929 Empty string attr. value causes attr parsing to be stopped
+ 	#778781 SRC-attribute suppression in IMG-tags
+ 	Also reviewed these test cases, again, with none reproducible in 1.4:
+ 	#788746 parser crashes on comments like <!-- foobar --!>
+ 	#772700 Jsp Tags are not parsed correctly when in quoted attributes.
+ 	
+ 2004-01-01 12:16  derrickoswald
+ 
+ 	* src/org/htmlparser/visitors/UrlModifyingVisitor.java:
+ 
+ 	Fix support request #824989 UrlModifyingVisitor taking out HTML comments.
+ 	Added remark node handling to preserve comments.
+ 	
+ 2004-01-01 11:54  derrickoswald
+ 
+ 	* src/org/htmlparser/tests/tagTests/FormTagTest.java:
+ 
+ 	Added test case for investigation of support request #772998 Cannot extract input tags.
+ 	Not reproducible.
+ 	
+ 2003-12-31 09:40  derrickoswald
+ 
+ 	* src/org/htmlparser/: lexer/Lexer.java,
+ 	tests/lexerTests/LexerTests.java:
+ 
+ 	Fix bug #789439 Japanese page causes OutOfMemory Exception
+ 	Modified the lexer to skip over JIS escape sequences.
+ 	
+ 2003-12-30 23:03  derrickoswald
+ 
+ 	* src/org/htmlparser/tests/lexerTests/SourceTests.java:
+ 
+ 	Fix Source 'SameChars' test.
+ 	
+ 2003-12-30 21:50  derrickoswald
+ 
+ 	* docs/banner.html, docs/bar.gif, docs/docsindex.html,
+ 	docs/panel.html, docs/sample.html, src/doc-files/todo.html,
+ 	bin/crawler.bat, bin/linkextractor, bin/linkextractor.bat,
+ 	bin/ripper.bat, src/org/htmlparser/lexer/Stream.java,
+ 	src/org/htmlparser/parserapplications/LinkExtractor.java,
+ 	src/org/htmlparser/parserapplications/MailRipper.java,
+ 	src/org/htmlparser/parserapplications/Robot.java,
+ 	src/org/htmlparser/tests/lexerTests/StreamTests.java,
+ 	src/org/htmlparser/util/NodeList.java:
+ 
+ 	Add filter support to NodeList.
+ 	Rework LinkExtractor and remove MailRipper and Robot example programs.
+ 	Clean out docs directory.
+ 	
+ 2003-12-29 09:18  derrickoswald
+ 
+ 	* src/org/htmlparser/: lexer/Page.java, tags/BaseHrefTag.java,
+ 	parserapplications/SiteCapturer.java, tags/FrameTag.java,
+ 	tests/tagTests/BaseHrefTagTest.java:
+ 
+ 	Add simplistic web site capture example application.
+ 	Demonstration of using custom tags in the NodeFactory.
+ 	Fixed various issues with URL rewriting.
+ 	
+ 2003-12-20 18:47  derrickoswald
+ 
+ 	* src/: doc-files/todo.html,
+ 	org/htmlparser/scanners/CompositeTagScanner.java,
+ 	org/htmlparser/scanners/JspScanner.java,
+ 	org/htmlparser/scanners/Scanner.java,
+ 	org/htmlparser/scanners/ScriptScanner.java,
+ 	org/htmlparser/scanners/TagScanner.java,
+ 	org/htmlparser/scanners/package.html,
+ 	org/htmlparser/tags/CompositeTag.java,
+ 	org/htmlparser/tests/scannersTests/CompositeTagScannerTest.java,
+ 	org/htmlparser/util/IteratorImpl.java,
+ 	org/htmlparser/util/NodeList.java,
+ 	org/htmlparser/util/PeekingIteratorImpl.java:
+ 
+ 	Reduce recursion on the JVM stack in CompositeTagScanner.
+ 	Pass a stack of open tags to the scanner.
+ 	Add smarter tag closing by walking up the stack on encountering an unopened end tag.
+ 	Avoids a problem with bad HTML such as that found at
+ 	http://scores.nba.com/games/20031029/scoreboard.html by Shaun Roach.
+ 	Added testInvalidNesting to CompositeTagScanner Test based on the above.
+ 	
+ 2003-12-15 21:29  derrickoswald
+ 
+ 	* build.xml, src/org/htmlparser/lexer/Page.java,
+ 	resources/HtmlTaglet.java, resources/stylesheet.css,
+ 	src/doc-files/building.html, src/doc-files/overview.html,
+ 	src/doc-files/todo.html,
+ 	src/org/htmlparser/lexerapplications/thumbelina/Picture.java,
+ 	src/org/htmlparser/lexerapplications/thumbelina/ThumbelinaFrame.java,
+ 	src/org/htmlparser/tags/CompositeTag.java:
+ 
+ 	Javadoc changes and additions. Stylesheet, overview, build instructions and todo list.
+ 	Added HTMLTaglet, an inline Javadoc taglet for embedding HTML into javadocs.
+ 	
+ 2003-12-08 08:13  derrickoswald
+ 
+ 	* src/org/htmlparser/: AbstractNode.java, Node.java, Parser.java,
+ 	PrototypicalNodeFactory.java, StringNodeFactory.java,
+ 	lexer/nodes/PageAttribute.java, scanners/CompositeTagScanner.java,
+ 	scanners/TagScanner.java, tags/DoctypeTag.java, tags/FormTag.java,
+ 	tags/FrameSetTag.java, tags/ImageTag.java,
+ 	tests/scannersTests/CompositeTagScannerTest.java:
+ 
+ 	Eliminate deprecation warnings.
+ 	Clean up javadoc warnings.
+ 
  Integration Build 1.4 - 20031207
  --------------------------------

Index: release.txt
===================================================================
RCS file: /cvsroot/htmlparser/htmlparser/docs/release.txt,v
retrieving revision 1.52
retrieving revision 1.53
diff -C2 -d -r1.52 -r1.53
*** release.txt	8 Dec 2003 01:31:50 -0000	1.52
--- release.txt	4 Jan 2004 19:03:35 -0000	1.53
***************
*** 1,68 ****
! HTMLParser Version 1.4 (Integration Build Dec 07, 2003)
  *********************************************

! Q1. What are the contents of the distribution ? 
! Q2. Which part of the source code should I analyze to be able to use it in my project ? 
! Q3. How do I extend the capability of this library ? 
! 
! *********************************************************
! Q1. What are the contents of the distribution ?
! 
! A1. The distribution contains :
!     (i) binary jar files - htmlparser.jar and lexer.jar (in lib directory)

!     (ii) source code - src.zip (in distribution directory)
!     	 Also contains necessary resources, and build file. Unzip this
!     	 and you should be all set to build the parser from its source.
!     	 You would need Jakarta Ant already installed to run the script.

!     (iii) documentation - doc directory (includes javadoc)

!     (iv) Executing scripts - There are three scripts (in the bin directory):
!          (a) runParser.bat  : Runs the html parser
!          (b) runCrawler.bat : Runs the robot crawler
!          (c) runRipper.bat  : Runs the mail ripper
!          (d) runLexer.bat   : Runs the low lever lexer
!          (e) lexer          : Runs the low lever lexer on linux/unix
!          All four batch files assume that java 1.2 (or upwards) is visible in your path.
! 
! Issue the following command : 
! java -jar htmlparser.jar myURL (or runParser myURL)
! 
! The following are legal examples of usage: 
! java -jar htmlparser.jar http://www.yahoo.com  (or runParser http://www.yahoo.com)
! java -jar htmlparser.jar http://www.google.com -l (or runParser http://www.google.com -l)
! java -jar htmlparser.jar c:\html\test.html (or runParser c:\html\test.html)
! 
! To see a list of options, simply type : 
! java -jar htmlparser.jar 
! 
! and the switches allowed will be shown. 
!   
! ---------- *** ------------
! Q2. Which part of the source code should I analyze to be able to use it in my project ?
! 
! Go through the javadoc of Parser.java - it contains all the examples to get you started.
! 
! Also go through the package org.htmlparser.parserapplications. 
! The two applications here, Robot and MailRipper, have been expressly written for the purpose of demonstrating the usage of htmlparser.
! 
! ---------- *** ------------

! Q3. How do I extend the capability of this library ?

! You need to extend the HTMLTagScanner in order to take advantage of existing 
! code to identify a generic tag. You could add further processing code based 
! on the tag contents. For more information on how to do this, examine the code 
! of the scanners in the com.kizna.html.scanners package. The scanners 
! basically use a Template Method+Factory Method approach. You need to 
! override the evaluate() - optional,scan() and getID() methods - compulsory, and register your 
! scanner to the parser before you begin parsing. 

! This process is simple, check the com.kizna.html.scanners package
! to see how the existing scanners work.
! ---------- *** ------------

! Acknowledgements :
  The following people have contributed important bug reports, feature ideas :
  [1] Kaarle Kaaila
--- 1,96 ----
! HTMLParser Version 1.4 (Integration Build Jan 04, 2004)
  *********************************************

! Contents of the distribution
! ----------------------------
!   (i) binary jar files - htmlparser.jar and lexer.jar (in lib directory)

!  (ii) source code - src.zip
!       Also contains necessary resources, and build file. Unzip this
!       and you should be all set to build the parser from its source.
!       You would need Jakarta Ant installed.

! (iii) documentation - docs directory (includes javadoc)
!       Point your browser at index.html in the docs directory.

!  (iv) executing scripts - bin directory
!       Batch files assume that java 1.2 (or upwards) is visible in your path.

!   (v) this file

! Changes since Version 1.3
! -------------------------
! Decorators
!     The node decorator package has been added to provide support for the
!     delegate model.
! Lexer
!     A new lexer i/o subsystem has been added. This provides accurate line number
!     and character position data, tag and attribute names maintain their original
!     case, and attributes maintain their original order. Line numbers reported by
!     tags are now zero based, not one based. The node count for parsing goes up
!     in most cases because whitespace is strictly maintained, i.e. every
!     whitespace (i.e. newline) now counts as a StringNode too. Storage of
!     attributes is now in a Vector which means the element 0 Attribute is
!     actually the name of the tag, rather than having the $TAGNAME entry in a
!     HashTable. The htmllexer.jar is this new i/o subsystem broken out and made
!     JDK 1.1 compliant, the htmlparser.jar, which includes everything in
!     htmllexer.jar, is not necessarily intended to be used in JDK 1.1
!     environments. Some support for JIS escape sequences has been added.
! Tags
!     Zero arg tag constructors have been added. Attribute maintenance
!     (add/remove/edit) improved. There is no EndTag class any more. Just a
!     generic tag that responds true to isEndTag(). Improvements to form tag
!     handling, getting <input> and <textarea> tags nested within other tags.
!     Improvements to applet tag handling regarding parameters and codebases.
! Scanners
!     The concept of scanners has been completely reworked. Applications register
!     tags not scanners to express interest in parsing only some tags. The default
!     is now to parse all tags, which is equivalent to the old registerDOMTags(),
!     so some extra nesting of tags will need to be handled. CompositeTagScanner
!     logic has been improved to try and match unclosed open tags when an
!     unexpected end tag is encountered. This change also moved recursion off the
!     JDK stack, eliminating most StackOverflow exceptions. Also, a CompositeTag's
!     "startTag()" is "this", and the CompositeTagScanner just adds children.
! Filters
!     A new powerful filtering capability has been added, which makes extracting
!     specific tags very easy.
! Applications
!     New example applications Thumbelina and SiteCapturer.

! Bug Fixes
! ---------
! 865279 Documentation
! 851882 zero length alt tag causes bug in ImageScanner
! 839264 toHtml() parse error in Javascripts with "form" keyword
! 833592 DOCTYPE element is not parsed correctly
! 832530 empty attribute causes parser to fail
! 826764 ParserException occurs only when using setInputHTML() instea
! 825820 Words conjoined
! 825645 <input> not getting parsed inside table
! 813838 links not parsed correctly
! 805598 attribute src in tag img sometimes not correctly parsed
! 801118 two " characters at the end of an attribute value problem
! 798554 Applet Tag does not update codebase data
! 798553 setInputHtml does not set text
! 798552 Sample for node iterator incorrect
! 789439 Japanese page causes OutOfMemory Exception
! 788746 parser crashes on comments like <!-- foobar --!>
! 786869 LinkExtractor Sample not working
! 784767 irc://server/channel urls are HTTPLike?
! 778781 SRC-attribute suppression in IMG-tags
! 772700 Jsp Tags are not parsed correctly when in quoted attributes
! 765413 typo
! 761798 Error reading next element.
! 757337 Standalone attributes should remain standalone
! 755929 Empty string attr. value causes attr parsing to be stopped
! 753012 IMG SRC not parsed v1.3 & v1.4
! 753003 <IMG> within <A> missed when followed by <MAP>
! 750117 StackOverFlow while Node-Iteration
! 749295 Problem Parsing Table
! 745566 StackOverflowError on select with too many unclosed options
! 744610 getLink() Erroneous for Relative Links from Files on Windows

! Acknowledgements
! ----------------
  The following people have contributed important bug reports, feature ideas :
  [1] Kaarle Kaaila
***************
*** 91,94 ****
--- 119,124 ----
  [24] Derrick Oswald
  [25] Joshua Kerievsky
+ [26] Stephen Nightingale
+ [27] Donnla Nic Gearailt

  If you find any bugs, please go to 
***************
*** 97,102 ****

  And please join the HTMLParser-User mailing list
! to get help on getting started. Join HTMLParser-Developer
! to become a developer on this project. Join HTMLParser-Announce to 
  be notified whenever a new release is out.

--- 127,131 ----

  And please join the HTMLParser-User mailing list
! to get help on getting started. Join HTMLParser-Announce to 
  be notified whenever a new release is out.