Apache Tika

Скріншот програми:
Apache Tika
Дані програми:
Версія: 1.4
Дата завантаження: 20 Feb 15
Розробник: The Apache Software Foundation
Ліцензія: Безкоштовно
Популярність: 102

Rating: nan/5 (Total Votes: 0)

Apache Тіка є інструментарій з відкритим вихідним кодом призначений для виявлення та вилучення метаданих, а також структурований текстовий контент з декількох документів, не використовуючи нічого, але існуючі парсер бібліотеки.
Apache Тіка підтримує такі формати документів: Hypertext Markup Language (HTTP), формати XML і похідні, Microsoft Office форматів документів OpenDocument Format (ODF), Portable Document Format (PDF), електронний формат публікації (ІПФ), Rich Text Format (RTF ), стиснення і формати упаковки, текст / аудіо / фото / відео формати, формат Mbox і клас файли і архіви Java.
Раніше, Apache Тіка був суб-проект бібліотеки програмного забезпечення Apache Lucene. Тепер він поширюється як самостійний пакет по Apache Software Foundation

Що нового У цьому випуску :.

  • Вилучено Тест HTML файл з погано обраної тексту GPL в ньому (ТІКА-1129).
  • Поліпшення Тіка-сервер, щоб дозволити йому провести текст / HTML і текст / зміст XML (TIKA-1126, ТІКА-1127).
  • Покращення були внесені в компресорній Parser для обробки g'zipped файли, які вимагають опцію decompressConcatenated значення ІСТИНА (ТІКА-1096).
  • звернувся з друкарський помилку, яка сталася, що перешкоджає виявлення AWK файлів (ТІКА-1081).
  • Додана нова кінцева точка на сервер JAX-RS REST Тіка, що тільки виявляє медіа-тип, заснований на невеликій частині документа, представленого (ТІКА-1047).
  • RTF :. Впорядковані і невпорядковані списки тепер витягуються (TIKA-1062)
  • MP3: Аудіо тривалість тепер витягуються (ТІКА-991)
  • Java .class файли :. Підвищено з ASM 3,1 до ASM 4.1 для розбору Java байт-код (ТІКА-1053)
  • Типи MIME-тип: Визначення продовжений до необов'язково включати посилання (URL) і ІМП, поряд з докладною інформацією для декількох поширених форматів (ТІКА-1012 / ТІКА-1083)
  • Винятки при розборі OLE10 вбудовані документи, при аналізі зведеної інформації з документів Office, і при збереженні вбудовані documennts в TikaCLI тепер заносяться замість переривання видобуток (ТІКА-1074)
  • MS Word: рядок табличній характер тепер замінена новою рядки (TIKA-1128)
  • XML: ElementMetadataHandlers тепер можуть за вибором приймати дублікати і порожні значення (TIKA-1133)
  • .

Вимоги

  • Java 2 Standard Edition Runtime Environment

Інші програми розробника The Apache Software Foundation

Apache Hive
Apache Hive

19 Feb 15

Apache Hadoop
Apache Hadoop

2 Apr 18

Apache HBase
Apache HBase

17 Feb 15

Apache OpenOffice
Apache OpenOffice

20 Jan 18

Apache Tika

Коментар не знайдено
додати коментар
Включіть картинки!