Apache Tika

Скріншот програми:
Apache Tika
Дані програми:
Версія: 1.4
Дата завантаження: 20 Feb 15
Розробник: The Apache Software Foundation
Ліцензія: Безкоштовно
Популярність: 6

Rating: nan/5 (Total Votes: 0)

Apache Тіка є інструментарій з відкритим вихідним кодом призначений для виявлення та вилучення метаданих, а також структурований текстовий контент з декількох документів, не використовуючи нічого, але існуючі парсер бібліотеки.
Apache Тіка підтримує такі формати документів: Hypertext Markup Language (HTTP), формати XML і похідні, Microsoft Office форматів документів OpenDocument Format (ODF), Portable Document Format (PDF), електронний формат публікації (ІПФ), Rich Text Format (RTF ), стиснення і формати упаковки, текст / аудіо / фото / відео формати, формат Mbox і клас файли і архіви Java.
Раніше, Apache Тіка був суб-проект бібліотеки програмного забезпечення Apache Lucene. Тепер він поширюється як самостійний пакет по Apache Software Foundation

Що нового У цьому випуску :.

  • Вилучено Тест HTML файл з погано обраної тексту GPL в ньому (ТІКА-1129).
  • Поліпшення Тіка-сервер, щоб дозволити йому провести текст / HTML і текст / зміст XML (TIKA-1126, ТІКА-1127).
  • Покращення були внесені в компресорній Parser для обробки g'zipped файли, які вимагають опцію decompressConcatenated значення ІСТИНА (ТІКА-1096).
  • звернувся з друкарський помилку, яка сталася, що перешкоджає виявлення AWK файлів (ТІКА-1081).
  • Додана нова кінцева точка на сервер JAX-RS REST Тіка, що тільки виявляє медіа-тип, заснований на невеликій частині документа, представленого (ТІКА-1047).
  • RTF :. Впорядковані і невпорядковані списки тепер витягуються (TIKA-1062)
  • MP3: Аудіо тривалість тепер витягуються (ТІКА-991)
  • Java .class файли :. Підвищено з ASM 3,1 до ASM 4.1 для розбору Java байт-код (ТІКА-1053)
  • Типи MIME-тип: Визначення продовжений до необов'язково включати посилання (URL) і ІМП, поряд з докладною інформацією для декількох поширених форматів (ТІКА-1012 / ТІКА-1083)
  • Винятки при розборі OLE10 вбудовані документи, при аналізі зведеної інформації з документів Office, і при збереженні вбудовані documennts в TikaCLI тепер заносяться замість переривання видобуток (ТІКА-1074)
  • MS Word: рядок табличній характер тепер замінена новою рядки (TIKA-1128)
  • XML: ElementMetadataHandlers тепер можуть за вибором приймати дублікати і порожні значення (TIKA-1133)
  • .

Вимоги

  • Java 2 Standard Edition Runtime Environment

Інші програми розробника The Apache Software Foundation

Apache Hive
Apache Hive

19 Feb 15

Apache Ambari
Apache Ambari

18 Jul 15

Apache Tika

Коментар не знайдено
додати коментар
Включіть картинки!