Jericho HTML Parser

Скріншот програми:
Jericho HTML Parser
Дані програми:
Версія: 3.4
Дата завантаження: 10 Dec 15
Розробник: Martin Jericho
Ліцензія: Безкоштовно
Популярність: 12

Rating: nan/5 (Total Votes: 0)

Він може редагувати серверних і на стороні клієнта теги, при відтворенні дослівно будь невизнаний або неприпустимий HTML.

Це також забезпечує на високому рівні функції HTML-форма маніпуляції

Особливості :.

  • Наявність погано відформатований HTML не втручатися в розбору решти документу, яка робить бібліотека підходить для використання з & Quot; реальному світі і Quot; HTML, що дроселі інші аналізатори.
  • ASP, JSP, PSP, PHP і Мейсон теги сервера явно визнається аналізатором. Це означає, що нормальна HTML раніше аналізується належним чином, навіть якщо є сервер теги всередині них, який є спільним, наприклад, при динамічної настройки атрибутів елемента.
  • Новий потік на основі розбору варіант, використовуючи клас StreamedSource, яка дозволяє пам'яті ефективної обробки великих файлів, використовуючи итератор подій. По суті, це альтернатива StAX з можливістю обробки HTML і непроверяем XML, а також кілька інших можливостей, не доступних в інших потокових аналізаторів.
  • У своїй стандартній формі вона не подія, ані дерево, засноване парсер, а використовує комбінацію простого текстового пошуку ефективного визнання і тега кеш становище тега. Текст документа весь вихідний спочатку завантажується в пам'ять, а потім тільки відповідні сегменти шукали відповідних символів кожної операції пошуку.
  • У порівнянні з аналізатором на основі дерева, такі як DOM, вимоги до пам'яті і ресурсів може бути набагато краще, якщо тільки невеликі ділянки документа повинні бути розібрані або модифіковані. Неправильне або погано відформатований HTML можна легко ігнорувати, на відміну від аналізаторів, заснованих дерев, які повинні визначити кожен вузол в документі, зверху до низу.
  • У порівнянні з аналізатором на основі подій, таких як SAX, інтерфейс на набагато вищому рівні, і більш інтуїтивним, і подання дерева ієрархії елемента документа легко створюється, якщо потрібно.
  • початкові і кінцеві позиції у вихідному документі всіх проаналізованих сегментів доступні, що дозволяє модифікацію тільки окремих сегментах документа без реконструювати весь документ з дерева.
  • рядка і стовпця номер кожної позиції у вихідному документі легко доступні.
  • Забезпечує простий, але всеосяжний інтерфейс для аналізу та маніпулювання управління форми HTML, у тому числі з видобутку та населення початкових значень і перетворення тільки для читання або відображення даних режимів. Аналіз управління форм також дозволяє дані, отримані з форми, щоб зберігати і представлені належним чином.
  • Вбудовані функції для витягання весь текст з HTML-розмітки, підходить для годування в текстовий пошукової системи, такі як Apache Lucene.
  • Вбудовані функції для візуалізації HTML розмітку з простим форматуванням тексту.
  • Вбудовані функції для форматування HTML вихідний код, який робить відступ елементи відповідно до їх глибину в ієрархії елемента документа. (Натисніть тут для онлайн-демонстрації)
  • Вбудовані функції в компактному вихідний код, видаливши всі непотрібні пробіли.
  • Користувальницькі типи тегів можуть бути легко визначені і зареєстровані для визнання аналізатором.

Що нового У цьому випуску :.

  • Додана Джерело (Файл) Конструктор
  • Метод Додано OutputDocument.getSegment ().
  • Додана OutputDocument.remove (INT початку Int кінця) метод.
  • Метод Додано Renderer.setHRLineLength ().
  • Додана RenderToText.jsp WebApp зразок.
  • Метод Додано Segment.getRowColumnVector ().
  • Кодування виявлення тепер ігнорує загальні кодування, зазначені в мета-тегів, які мають розмір код блок несумісного з попереднього кодування.

Що нового у версії 3.1:

  • виправлення:
  • Нескінченний цикл на Segment.getAllStartTags ()
  • Нескінченний цикл на Segment.getAllElements ()
  • Segment.getFirst * Методи повернувся сегментів поза обмежує сегмента.

  • Методи
  • Segment.getAllElements не повернути всі вкладені елементи в деяких обставинах.
  • Виправлені помилки в документації методів Segment.getAllElements.
  • клас Додано StreamedSource.
  • Зміни, які можуть вплинути на поведінку існуючих програм:
  • Змінено ParseText з класу в інтерфейс.
  • Segment.getNodeIterator () тепер повертає символьні посилання як окремі вузли.
  • Додана тегів методи пошуку, засновані на значень атрибутів регулярних виразів.
  • Додана тегів методи пошуку, засновані на атрибут HTML класу.
  • Додана статичну властивість Source.LegacyNodeIteratorCompatabilityMode тимчасово відновити Segment.getNodeIterator () функціональність, що і в попередніх версіях.
  • Дистанційні символьні [] методи, засновані пошуку в ParseText.
  • Додана CharacterReference.appendCharTo (Appendable) метод.
  • Додана OutputDocument (сегмент) Конструктор.
  • Приклад програми Додано StreamedSourceCopy.

Схожі програми

h5ile
h5ile

6 Jun 15

Slippy
Slippy

6 Jun 15

rasterizeHTML.js
rasterizeHTML.js

11 Mar 16

Radiant MediaLyzer
Radiant MediaLyzer

10 Feb 16

Інші програми розробника Martin Jericho

Jericho HTML Parser

Коментар не знайдено
додати коментар
Включіть картинки!
Пошук за категоріями