Apache Тіка є інструментарій з відкритим вихідним кодом призначений для виявлення та вилучення метаданих, а також структурований текстовий контент з декількох документів, не використовуючи нічого, але існуючі парсер бібліотеки.
Apache Тіка підтримує такі формати документів: Hypertext Markup Language (HTTP), формати XML і похідні, Microsoft Office форматів документів OpenDocument Format (ODF), Portable Document Format (PDF), електронний формат публікації (ІПФ), Rich Text Format (RTF ), стиснення і формати упаковки, текст / аудіо / фото / відео формати, формат Mbox і клас файли і архіви Java.
Раніше, Apache Тіка був суб-проект бібліотеки програмного забезпечення Apache Lucene. Тепер він поширюється як самостійний пакет по Apache Software Foundation
Що нового У цьому випуску :.
- Вилучено Тест HTML файл з погано обраної тексту GPL в ньому (ТІКА-1129).
- Поліпшення Тіка-сервер, щоб дозволити йому провести текст / HTML і текст / зміст XML (TIKA-1126, ТІКА-1127).
- Покращення були внесені в компресорній Parser для обробки g'zipped файли, які вимагають опцію decompressConcatenated значення ІСТИНА (ТІКА-1096).
- звернувся з друкарський помилку, яка сталася, що перешкоджає виявлення AWK файлів (ТІКА-1081).
- Додана нова кінцева точка на сервер JAX-RS REST Тіка, що тільки виявляє медіа-тип, заснований на невеликій частині документа, представленого (ТІКА-1047).
- RTF :. Впорядковані і невпорядковані списки тепер витягуються (TIKA-1062)
- MP3: Аудіо тривалість тепер витягуються (ТІКА-991)
- Java .class файли :. Підвищено з ASM 3,1 до ASM 4.1 для розбору Java байт-код (ТІКА-1053)
- Типи MIME-тип: Визначення продовжений до необов'язково включати посилання (URL) і ІМП, поряд з докладною інформацією для декількох поширених форматів (ТІКА-1012 / ТІКА-1083)
- Винятки при розборі OLE10 вбудовані документи, при аналізі зведеної інформації з документів Office, і при збереженні вбудовані documennts в TikaCLI тепер заносяться замість переривання видобуток (ТІКА-1074)
- MS Word: рядок табличній характер тепер замінена новою рядки (TIKA-1128)
- XML: ElementMetadataHandlers тепер можуть за вибором приймати дублікати і порожні значення (TIKA-1133) .
Вимоги
- Java 2 Standard Edition Runtime Environment
Коментар не знайдено