Дані програми:
Версія: 3.3
Дата завантаження: 20 Feb 15
Ліцензія: Безкоштовно
Популярність: 56
Jerich HTML-парсер з відкритим вихідним кодом, простий, але потужний бібліотека, написана повністю на Java.
Це дозволяє програмістам управляти і аналізувати частин HTML документа.
Jerich HTML Parser також включає в себе на високому рівні функції HTML форма маніпуляції
Що нового У цьому випуску :.
- Виправлені помилки:
- [3581664] CharacterReference.decode () не декодувати об'єкти, що містять цифри - і frac12; І frac14; І frac34; І ПОД1; І Sup2; І sup3; І there4;
- [3311286] SourceCompactor не поважає TEXTAREA
- [3519131] Renderer вихід неправильно, коли будується з об'єктом елемент.
- [3538829] Renderer вихід оформлення шрифту на кордонах блоків неправильно.
- Segment.getAllStartTags (ім'я) і Segment.getFirstElement (ім'я) не працюють, якщо аргумент містить символи верхнього регістру.
- кінець роздільник загального тега сервера всередині втікача тега сервера ложно визнаний як кінцевий роздільник втікача тега.
- Зміни, які можуть вплинути на ПОВЕДЕНИЕ існуючих програм:
- [3427073] Segment.getStyleURISegments () тепер включає в себе зміст елемента стилю, а також значення атрибутів стилю.
- [3427927] Segment.getURIAttributes () тепер включає атрибути Архів об'єктів і аплетів елементів.
- Коментарі більше не визнані в елементах сценарію під час повної послідовної розбору. Раніше вони були визнані на сумісність з основними браузерами, але сучасні і поведінку браузера змінилося.
- Змінено рівень реєстрації всіх розбору помилок з ІНФО-за помилки, і рівень реєстрації Source.fullSequentialParse () консультативного повідомлення від WARN для інформації. Попередні рівні дав консультативного повідомлення вища тяжкості, ніж помилки розбору, запобігаючи системи логування з укриття консультативного повідомлення, показуючи помилки розбору. Кодування символів попередження залишаються незмінними на WARN рівень.
- Змінено поведінку методу Renderer.renderHyperlinkURL (StartTag), так що відносні URL-адреси не відображаються.
- Змінено поведінку Renderer, щоб вміст гіперпосилання пункт не відображається, якщо це так само, як гіперпосилання URL, ігноруючи HTTP :. // Префікс і / або суфікс
- EndTag.tidy () тепер видаляє пробіли до закриває дужки.
- Додана Джерело (File) конструктор.
- метод Додано OutputDocument.getSegment ().
- Додана OutputDocument.remove (INT початку Int кінця) метод.
- метод Додано Renderer.setHRLineLength ().
- Додана RenderToText.jsp веб-додаток зразка.
- метод Додано Segment.getRowColumnVector ().
- Виявлення Кодування тепер ігнорує загальні кодування, зазначені в мета-тегів, які мають розмір код блок несумісного з попереднього кодування.
- оновиться в наступних реєстратора API: воно SLF4J-API-1.7.2, log4j-1.2.17
Що нового у версії 3.1:
- Виправлена помилка:
- [2793556] Нескінченний цикл на Segment.getAllStartTags ()
- Нескінченний цикл на Segment.getAllElements ()
- Segment.getFirst * Методи повернувся сегментів поза обмежує сегмента.
- Segment.getAllElements не повернути всі вкладені елементи в деяких обставинах.
- Виправлені помилки документації в методах Segment.getAllElements.
- клас Додано StreamedSource.
- Зміни, які можуть вплинути на ПОВЕДЕНИЕ існуючих програм:
- Змінено ParseText з класу в інтерфейс.
- Segment.getNodeIterator () тепер повертає символьні посилання як окремі вузли.
- Додана тегів методи пошуку, засновані на значення атрибута регулярних виразів.
- Додана тегів методи пошуку, засновані на атрибут HTML класу.
- Додана статичне властивість Source.LegacyNodeIteratorCompatabilityMode тимчасово відновити Segment.getNodeIterator () функціональність, що і в попередніх версіях.
- Дистанційні CHAR [] методи, засновані пошуку в ParseText.
- Додана CharacterReference.appendCharTo (Appendable) метод.
- Додана OutputDocument (сегмент) конструктор.
- Приклад програми Додано StreamedSourceCopy.
Методи
Що нового у версії 3.0:
- Виправлена помилка:
- Посилання на символи, що представляють юнікода додаткові символи були правильно декодируются в UTF-16 Код блоку пар.
- [2188446] Element.getDepth () і Element.getParentElement () повернула некоректні результати при виклику в розборі на режимі попиту.
- Коментарі в даний час визнається в & Lt; Сценарій і GT; елементи.
- API зміни, які не мають зворотної сумісності:
- Змінено назву пакета для net.htmlparser.jericho
- Значення атрибутів повинні тепер бути рядком, а не CharSequence.
- Вилучені всі застарілі методи / класи від попередніх версій.
- Все знайти * методи застаріли на користь отримати * методів з метою застосування послідовного іменування всіх методів пошуку тегів.
- , в елемент і HTMLElements класи більше не реалізують інтерфейс HTMLElementName. (Використовувати статичний імпорт, а)
- Усі колекції зараз stongly набрані за допомогою дженериків.
- Змінено FormControlOutputStyle клас перерахування.
- Змінено FormControlType клас перерахування.
- Додана CharStreamSource.appendTo (Appendable) метод.
- метод Додано Source.iterator ().
- Джерело в даний час реалізує Iterable.
- використовується всередині StringBuilder для кращої продуктивності.
- Додана Source.getNextStartTag (StartTagType) метод.
- Додана Source.getNextEndTag (EndTagType) метод.
- Додана Source.getPreviousStartTag (StartTagType) метод.
- Додана Source.getPreviousEndTag (EndTagType) метод.
- Додана Segment.getAllStartTags (StartTagType) метод.
- Додані всі Segment.getFirst * методи.
- Додана Renderer.renderHyperlinkURL (StartTag) метод.
- Приклад програми Додано HTMLSanitiser.
- Оновлення до SLF4J-API-1.5.6
Вимоги
- Java 2 Standard Edition Runtime Environment
Коментар не знайдено