Jericho HTML Parser

Скріншот програми:
Jericho HTML Parser
Дані програми:
Версія: 3.3
Дата завантаження: 20 Feb 15
Розробник: Martin Jericho
Ліцензія: Безкоштовно
Популярність: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML-парсер з відкритим вихідним кодом, простий, але потужний бібліотека, написана повністю на Java.
Це дозволяє програмістам управляти і аналізувати частин HTML документа.
Jerich HTML Parser також включає в себе на високому рівні функції HTML форма маніпуляції

Що нового У цьому випуску :.

  • Виправлені помилки:
  • [3581664] CharacterReference.decode () не декодувати об'єкти, що містять цифри - і frac12; І frac14; І frac34; І ПОД1; І Sup2; І sup3; І there4;
  • [3311286] SourceCompactor не поважає TEXTAREA
  • [3519131] Renderer вихід неправильно, коли будується з об'єктом елемент.
  • [3538829] Renderer вихід оформлення шрифту на кордонах блоків неправильно.
  • Segment.getAllStartTags (ім'я) і Segment.getFirstElement (ім'я) не працюють, якщо аргумент містить символи верхнього регістру.
  • кінець роздільник загального тега сервера всередині втікача тега сервера ложно визнаний як кінцевий роздільник втікача тега.
  • Зміни, які можуть вплинути на ПОВЕДЕНИЕ існуючих програм:
  • [3427073] Segment.getStyleURISegments () тепер включає в себе зміст елемента стилю, а також значення атрибутів стилю.
  • [3427927] Segment.getURIAttributes () тепер включає атрибути Архів об'єктів і аплетів елементів.
  • Коментарі більше не визнані в елементах сценарію під час повної послідовної розбору. Раніше вони були визнані на сумісність з основними браузерами, але сучасні і поведінку браузера змінилося.
  • Змінено рівень реєстрації всіх розбору помилок з ІНФО-за помилки, і рівень реєстрації Source.fullSequentialParse () консультативного повідомлення від WARN для інформації. Попередні рівні дав консультативного повідомлення вища тяжкості, ніж помилки розбору, запобігаючи системи логування з укриття консультативного повідомлення, показуючи помилки розбору. Кодування символів попередження залишаються незмінними на WARN рівень.
  • Змінено поведінку методу Renderer.renderHyperlinkURL (StartTag), так що відносні URL-адреси не відображаються.
  • Змінено поведінку Renderer, щоб вміст гіперпосилання пункт не відображається, якщо це так само, як гіперпосилання URL, ігноруючи HTTP :. // Префікс і / або суфікс
  • EndTag.tidy () тепер видаляє пробіли до закриває дужки.
  • Додана Джерело (File) конструктор.
  • метод Додано OutputDocument.getSegment ().
  • Додана OutputDocument.remove (INT початку Int кінця) метод.
  • метод Додано Renderer.setHRLineLength ().
  • Додана RenderToText.jsp веб-додаток зразка.
  • метод Додано Segment.getRowColumnVector ().
  • Виявлення Кодування тепер ігнорує загальні кодування, зазначені в мета-тегів, які мають розмір код блок несумісного з попереднього кодування.
  • оновиться в наступних реєстратора API: воно SLF4J-API-1.7.2, log4j-1.2.17

Що нового у версії 3.1:

  • Виправлена ​​помилка:
  • [2793556] Нескінченний цикл на Segment.getAllStartTags ()
  • Нескінченний цикл на Segment.getAllElements ()
  • Segment.getFirst * Методи повернувся сегментів поза обмежує сегмента.

  • Методи
  • Segment.getAllElements не повернути всі вкладені елементи в деяких обставинах.
  • Виправлені помилки документації в методах Segment.getAllElements.
  • клас Додано StreamedSource.
  • Зміни, які можуть вплинути на ПОВЕДЕНИЕ існуючих програм:
  • Змінено ParseText з класу в інтерфейс.
  • Segment.getNodeIterator () тепер повертає символьні посилання як окремі вузли.
  • Додана тегів методи пошуку, засновані на значення атрибута регулярних виразів.
  • Додана тегів методи пошуку, засновані на атрибут HTML класу.
  • Додана статичне властивість Source.LegacyNodeIteratorCompatabilityMode тимчасово відновити Segment.getNodeIterator () функціональність, що і в попередніх версіях.
  • Дистанційні CHAR [] методи, засновані пошуку в ParseText.
  • Додана CharacterReference.appendCharTo (Appendable) метод.
  • Додана OutputDocument (сегмент) конструктор.
  • Приклад програми Додано StreamedSourceCopy.

Що нового у версії 3.0:

  • Виправлена ​​помилка:
  • Посилання на символи, що представляють юнікода додаткові символи були правильно декодируются в UTF-16 Код блоку пар.
  • [2188446] Element.getDepth () і Element.getParentElement () повернула некоректні результати при виклику в розборі на режимі попиту.
  • Коментарі в даний час визнається в & Lt; Сценарій і GT; елементи.
  • API зміни, які не мають зворотної сумісності:
  • Змінено назву пакета для net.htmlparser.jericho
  • Значення атрибутів повинні тепер бути рядком, а не CharSequence.
  • Вилучені всі застарілі методи / класи від попередніх версій.
  • Все знайти * методи застаріли на користь отримати * методів з метою застосування послідовного іменування всіх методів пошуку тегів.
  • , в елемент і HTMLElements класи більше не реалізують інтерфейс HTMLElementName. (Використовувати статичний імпорт, а)
  • Усі колекції зараз stongly набрані за допомогою дженериків.
  • Змінено FormControlOutputStyle клас перерахування.
  • Змінено FormControlType клас перерахування.
  • Додана CharStreamSource.appendTo (Appendable) метод.
  • метод Додано Source.iterator ().
  • Джерело в даний час реалізує Iterable.
  • використовується всередині StringBuilder для кращої продуктивності.
  • Додана Source.getNextStartTag (StartTagType) метод.
  • Додана Source.getNextEndTag (EndTagType) метод.
  • Додана Source.getPreviousStartTag (StartTagType) метод.
  • Додана Source.getPreviousEndTag (EndTagType) метод.
  • Додана Segment.getAllStartTags (StartTagType) метод.
  • Додані всі Segment.getFirst * методи.
  • Додана Renderer.renderHyperlinkURL (StartTag) метод.
  • Приклад програми Додано HTMLSanitiser.
  • Оновлення до SLF4J-API-1.5.6

Вимоги

  • Java 2 Standard Edition Runtime Environment

Схожі програми

KoMar
KoMar

11 May 15

itools
itools

20 Feb 15

oXygen XML Author
oXygen XML Author

17 Jul 15

Інші програми розробника Martin Jericho

Jericho HTML Parser

Коментар не знайдено
додати коментар
Включіть картинки!