Apache Тіка була розроблена в якості низькорівневого інструментарію для пошуку вмісту усередині інших файлів.
Тіка не робити на його власне буття проста бібліотека, але вона може бути інтегрована в більш потужних інструментів, таких як пошукові системи, цифрові системи управління активами або КМП, щоб забезпечити повністю функціональну систему пошуку в файлі.
Бібліотека може відкрити заголовок тільки файл для швидкого загальною інформацією про файл, або він може піти дійсно глибоко і пошук навіть в тілі файлу для різних типів даних, у тексті або двійковий формат.
Широкий діапазон типів файлів підтримуються і Тіка також може бути використаний з іншими мовами програмування, завдяки серії сторонніх кріплень і обгортки.
Що нового У цьому випуску
- Цей реліз включає виправлення помилок і нових особливостей, включаючи новий Тессеракт OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.
Що нового у версії 1.8:
- Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий Tesseract OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.
Що нового у версії 1.7:
- Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий Tesseract OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.
Що нового у версії 1.6:
- Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий переклад API, підтримувані формати більш, і загальне поліпшення стабільності Тіка.
Що нового у версії 1.5 :.
- Виправлена помилка в обробці вбудованих обробки файлів у форматі PDF
- Додана SourceCodeParser підтримувати Java, Groovy, C ++ файли.
- Оновлене Тіка сервера для підтримки корисного навантаження многочастного / форми-даних.
- Оновлене Тіка сервера для CXF 2.7.8.
- Оновлене Тіка сервера приймати запити більш підстановки адреси.
- Додана можливість використовувати альтернативний NonSequentialPDFParser.
- Вміст з PDF AcroForms тепер витягнуті.
- Виправлені невірні зірочки з слайда в PPT.
- Додана тести, щоб підтвердити звернення авто-день в PPT PPTX і.
Що нового у версії 1.4:
- Вилучений тест HTML файл з погано обраної тексту GPL в це.
- Поліпшення Тіка-сервері, щоб дозволити йому призвести текст / HTML і текст / зміст XML.
- Покращення були внесені в компресорній Parser для обробки g'zipped файли, які вимагають опцію decompressConcatenated набір до істини.
- Адресовано типографський помилку, що не дозволяла від виявлення AWK файлів.
Що нового у версії 1.2:
- Apache Тіка 1.2 містить ряд поліпшень і виправлень.
Що нового у версії 1.0:
- Apache Тіка 1.0 містить ряд поліпшень і виправлень.
Що нового у версії 0.9 :.
- Цей реліз включає в себе кілька важливих виправлень і нових можливостей
Що нового у версії 0.8:
- ідентифікація Мова тепер динамічно настроюється, вдалося за допомогою конфігураційного файлу завантажуються з класам.
- Тіка тепер підтримує розбір Стрічки, обернувши лежить в основі Римський бібліотеку.
- Швидкий старт-гід для Тіка розбору був внесений.
- Підхід для водопроводу через атрибутів XHTML.
- Тип носія ієрархія інформація тепер прийняті до уваги при виборі кращого парсер для даного вхідного документа.
- Підтримка для розбору спільних наукових форматів даних, включаючи NetCDF і HDF4 / 5 був доданий.
- Модульні тести для Windows, були зафіксовані, дозволяючи TestParsers, щоб закінчити.
був доданий
Що нового у версії 0.7:
- MP3 файл розбір була покращена, включаючи видобуток Channel і оцифровки і підтримка ID3v2. Крім того, при виявленні звуку розбір MIME також була покращена для формату MIDI.
- Тіка більше не покладається на X11 для його функціональності RTF розбору.
- поточно-помилка в AutoDetectParser був виявлений і звернувся.
- Оновлення до 1.0.0 PDFBox. Нова версія PDFBox покращує продуктивність PDF розбору і виправляє ряд питань витяг тексту.
Вимоги
- Java 6 або вище
Коментар не знайдено