Apache Tika

Скріншот програми:
Apache Tika
Дані програми:
Версія: 1.9 оновлений
Дата завантаження: 20 Jul 15
Розробник: Apache Software Foundation
Ліцензія: Безкоштовно
Популярність: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Тіка була розроблена в якості низькорівневого інструментарію для пошуку вмісту усередині інших файлів.
Тіка не робити на його власне буття проста бібліотека, але вона може бути інтегрована в більш потужних інструментів, таких як пошукові системи, цифрові системи управління активами або КМП, щоб забезпечити повністю функціональну систему пошуку в файлі.
Бібліотека може відкрити заголовок тільки файл для швидкого загальною інформацією про файл, або він може піти дійсно глибоко і пошук навіть в тілі файлу для різних типів даних, у тексті або двійковий формат.
Широкий діапазон типів файлів підтримуються і Тіка також може бути використаний з іншими мовами програмування, завдяки серії сторонніх кріплень і обгортки.

Що нового У цьому випуску

  • Цей реліз включає виправлення помилок і нових особливостей, включаючи новий Тессеракт OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.

Що нового у версії 1.8:

  • Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий Tesseract OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.

Що нового у версії 1.7:

  • Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий Tesseract OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.

Що нового у версії 1.6:

  • Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий переклад API, підтримувані формати більш, і загальне поліпшення стабільності Тіка.

Що нового у версії 1.5 :.

  • Виправлена ​​помилка в обробці вбудованих обробки файлів у форматі PDF
  • Додана SourceCodeParser підтримувати Java, Groovy, C ++ файли.
  • Оновлене Тіка сервера для підтримки корисного навантаження многочастного / форми-даних.
  • Оновлене Тіка сервера для CXF 2.7.8.
  • Оновлене Тіка сервера приймати запити більш підстановки адреси.
  • Додана можливість використовувати альтернативний NonSequentialPDFParser.
  • Вміст з PDF AcroForms тепер витягнуті.
  • Виправлені невірні зірочки з слайда в PPT.
  • Додана тести, щоб підтвердити звернення авто-день в PPT PPTX і.

Що нового у версії 1.4:

  • Вилучений тест HTML файл з погано обраної тексту GPL в це.
  • Поліпшення Тіка-сервері, щоб дозволити йому призвести текст / HTML і текст / зміст XML.
  • Покращення були внесені в компресорній Parser для обробки g'zipped файли, які вимагають опцію decompressConcatenated набір до істини.
  • Адресовано типографський помилку, що не дозволяла від виявлення AWK файлів.

Що нового у версії 1.2:

  • Apache Тіка 1.2 містить ряд поліпшень і виправлень.

Що нового у версії 1.0:

  • Apache Тіка 1.0 містить ряд поліпшень і виправлень.

Що нового у версії 0.9 :.

  • Цей реліз включає в себе кілька важливих виправлень і нових можливостей

Що нового у версії 0.8:

  • ідентифікація Мова тепер динамічно настроюється, вдалося за допомогою конфігураційного файлу завантажуються з класам.
  • Тіка тепер підтримує розбір Стрічки, обернувши лежить в основі Римський бібліотеку.
  • Швидкий старт-гід для Тіка розбору був внесений.

  • був доданий
  • Підхід для водопроводу через атрибутів XHTML.
  • Тип носія ієрархія інформація тепер прийняті до уваги при виборі кращого парсер для даного вхідного документа.
  • Підтримка для розбору спільних наукових форматів даних, включаючи NetCDF і HDF4 / 5 був доданий.
  • Модульні тести для Windows, були зафіксовані, дозволяючи TestParsers, щоб закінчити.

Що нового у версії 0.7:

  • MP3 файл розбір була покращена, включаючи видобуток Channel і оцифровки і підтримка ID3v2. Крім того, при виявленні звуку розбір MIME також була покращена для формату MIDI.
  • Тіка більше не покладається на X11 для його функціональності RTF розбору.
  • поточно-помилка в AutoDetectParser був виявлений і звернувся.
  • Оновлення до 1.0.0 PDFBox. Нова версія PDFBox покращує продуктивність PDF розбору і виправляє ряд питань витяг тексту.

Вимоги

  • Java 6 або вище

Схожі програми

Unirest (PHP)
Unirest (PHP)

6 Jun 15

puid
puid

12 May 15

Polymaps
Polymaps

21 Jul 15

DynCSS
DynCSS

13 Apr 15

Інші програми розробника Apache Software Foundation

Apache Tika

Коментар не знайдено
додати коментар
Включіть картинки!
Пошук за категоріями