Jericho HTML Parser

Скріншот програми:
Jericho HTML Parser
Дані програми:
Версія: 3.3
Дата завантаження: 20 Feb 15
Розробник: Martin Jericho
Ліцензія: Безкоштовно
Популярність: 3

Rating: nan/5 (Total Votes: 0)

Jerich HTML-парсер з відкритим вихідним кодом, простий, але потужний бібліотека, написана повністю на Java.
Це дозволяє програмістам управляти і аналізувати частин HTML документа.
Jerich HTML Parser також включає в себе на високому рівні функції HTML форма маніпуляції

Що нового У цьому випуску :.

  • Виправлені помилки:
  • [3581664] CharacterReference.decode () не декодувати об'єкти, що містять цифри - і frac12; І frac14; І frac34; І ПОД1; І Sup2; І sup3; І there4;
  • [3311286] SourceCompactor не поважає TEXTAREA
  • [3519131] Renderer вихід неправильно, коли будується з об'єктом елемент.
  • [3538829] Renderer вихід оформлення шрифту на кордонах блоків неправильно.
  • Segment.getAllStartTags (ім'я) і Segment.getFirstElement (ім'я) не працюють, якщо аргумент містить символи верхнього регістру.
  • кінець роздільник загального тега сервера всередині втікача тега сервера ложно визнаний як кінцевий роздільник втікача тега.
  • Зміни, які можуть вплинути на ПОВЕДЕНИЕ існуючих програм:
  • [3427073] Segment.getStyleURISegments () тепер включає в себе зміст елемента стилю, а також значення атрибутів стилю.
  • [3427927] Segment.getURIAttributes () тепер включає атрибути Архів об'єктів і аплетів елементів.
  • Коментарі більше не визнані в елементах сценарію під час повної послідовної розбору. Раніше вони були визнані на сумісність з основними браузерами, але сучасні і поведінку браузера змінилося.
  • Змінено рівень реєстрації всіх розбору помилок з ІНФО-за помилки, і рівень реєстрації Source.fullSequentialParse () консультативного повідомлення від WARN для інформації. Попередні рівні дав консультативного повідомлення вища тяжкості, ніж помилки розбору, запобігаючи системи логування з укриття консультативного повідомлення, показуючи помилки розбору. Кодування символів попередження залишаються незмінними на WARN рівень.
  • Змінено поведінку методу Renderer.renderHyperlinkURL (StartTag), так що відносні URL-адреси не відображаються.
  • Змінено поведінку Renderer, щоб вміст гіперпосилання пункт не відображається, якщо це так само, як гіперпосилання URL, ігноруючи HTTP :. // Префікс і / або суфікс
  • EndTag.tidy () тепер видаляє пробіли до закриває дужки.
  • Додана Джерело (File) конструктор.
  • метод Додано OutputDocument.getSegment ().
  • Додана OutputDocument.remove (INT початку Int кінця) метод.
  • метод Додано Renderer.setHRLineLength ().
  • Додана RenderToText.jsp веб-додаток зразка.
  • метод Додано Segment.getRowColumnVector ().
  • Виявлення Кодування тепер ігнорує загальні кодування, зазначені в мета-тегів, які мають розмір код блок несумісного з попереднього кодування.
  • оновиться в наступних реєстратора API: воно SLF4J-API-1.7.2, log4j-1.2.17

Що нового у версії 3.1:

  • Виправлена ​​помилка:
  • [2793556] Нескінченний цикл на Segment.getAllStartTags ()
  • Нескінченний цикл на Segment.getAllElements ()
  • Segment.getFirst * Методи повернувся сегментів поза обмежує сегмента.

  • Методи
  • Segment.getAllElements не повернути всі вкладені елементи в деяких обставинах.
  • Виправлені помилки документації в методах Segment.getAllElements.
  • клас Додано StreamedSource.
  • Зміни, які можуть вплинути на ПОВЕДЕНИЕ існуючих програм:
  • Змінено ParseText з класу в інтерфейс.
  • Segment.getNodeIterator () тепер повертає символьні посилання як окремі вузли.
  • Додана тегів методи пошуку, засновані на значення атрибута регулярних виразів.
  • Додана тегів методи пошуку, засновані на атрибут HTML класу.
  • Додана статичне властивість Source.LegacyNodeIteratorCompatabilityMode тимчасово відновити Segment.getNodeIterator () функціональність, що і в попередніх версіях.
  • Дистанційні CHAR [] методи, засновані пошуку в ParseText.
  • Додана CharacterReference.appendCharTo (Appendable) метод.
  • Додана OutputDocument (сегмент) конструктор.
  • Приклад програми Додано StreamedSourceCopy.

Що нового у версії 3.0:

  • Виправлена ​​помилка:
  • Посилання на символи, що представляють юнікода додаткові символи були правильно декодируются в UTF-16 Код блоку пар.
  • [2188446] Element.getDepth () і Element.getParentElement () повернула некоректні результати при виклику в розборі на режимі попиту.
  • Коментарі в даний час визнається в & Lt; Сценарій і GT; елементи.
  • API зміни, які не мають зворотної сумісності:
  • Змінено назву пакета для net.htmlparser.jericho
  • Значення атрибутів повинні тепер бути рядком, а не CharSequence.
  • Вилучені всі застарілі методи / класи від попередніх версій.
  • Все знайти * методи застаріли на користь отримати * методів з метою застосування послідовного іменування всіх методів пошуку тегів.
  • , в елемент і HTMLElements класи більше не реалізують інтерфейс HTMLElementName. (Використовувати статичний імпорт, а)
  • Усі колекції зараз stongly набрані за допомогою дженериків.
  • Змінено FormControlOutputStyle клас перерахування.
  • Змінено FormControlType клас перерахування.
  • Додана CharStreamSource.appendTo (Appendable) метод.
  • метод Додано Source.iterator ().
  • Джерело в даний час реалізує Iterable.
  • використовується всередині StringBuilder для кращої продуктивності.
  • Додана Source.getNextStartTag (StartTagType) метод.
  • Додана Source.getNextEndTag (EndTagType) метод.
  • Додана Source.getPreviousStartTag (StartTagType) метод.
  • Додана Source.getPreviousEndTag (EndTagType) метод.
  • Додана Segment.getAllStartTags (StartTagType) метод.
  • Додані всі Segment.getFirst * методи.
  • Додана Renderer.renderHyperlinkURL (StartTag) метод.
  • Приклад програми Додано HTMLSanitiser.
  • Оновлення до SLF4J-API-1.5.6

Вимоги

  • Java 2 Standard Edition Runtime Environment

Схожі програми

Інші програми розробника Martin Jericho

Jericho HTML Parser

Коментар не знайдено
додати коментар
Включіть картинки!