Apache Tika

Скріншот програми:
Apache Tika
Дані програми:
Версія: 1.9 оновлений
Дата завантаження: 20 Jul 15
Розробник: Apache Software Foundation
Ліцензія: Безкоштовно
Популярність: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Тіка була розроблена в якості низькорівневого інструментарію для пошуку вмісту усередині інших файлів.
Тіка не робити на його власне буття проста бібліотека, але вона може бути інтегрована в більш потужних інструментів, таких як пошукові системи, цифрові системи управління активами або КМП, щоб забезпечити повністю функціональну систему пошуку в файлі.
Бібліотека може відкрити заголовок тільки файл для швидкого загальною інформацією про файл, або він може піти дійсно глибоко і пошук навіть в тілі файлу для різних типів даних, у тексті або двійковий формат.
Широкий діапазон типів файлів підтримуються і Тіка також може бути використаний з іншими мовами програмування, завдяки серії сторонніх кріплень і обгортки.

Що нового У цьому випуску

  • Цей реліз включає виправлення помилок і нових особливостей, включаючи новий Тессеракт OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.

Що нового у версії 1.8:

  • Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий Tesseract OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.

Що нового у версії 1.7:

  • Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий Tesseract OCR Parser; новий GDAL Parser; більш підтримуваних форматів, і в цілому поліпшення в стабільності Тіка.

Що нового у версії 1.6:

  • Цей реліз включає в себе виправлення помилок і нових особливостей, включаючи новий переклад API, підтримувані формати більш, і загальне поліпшення стабільності Тіка.

Що нового у версії 1.5 :.

  • Виправлена ​​помилка в обробці вбудованих обробки файлів у форматі PDF
  • Додана SourceCodeParser підтримувати Java, Groovy, C ++ файли.
  • Оновлене Тіка сервера для підтримки корисного навантаження многочастного / форми-даних.
  • Оновлене Тіка сервера для CXF 2.7.8.
  • Оновлене Тіка сервера приймати запити більш підстановки адреси.
  • Додана можливість використовувати альтернативний NonSequentialPDFParser.
  • Вміст з PDF AcroForms тепер витягнуті.
  • Виправлені невірні зірочки з слайда в PPT.
  • Додана тести, щоб підтвердити звернення авто-день в PPT PPTX і.

Що нового у версії 1.4:

  • Вилучений тест HTML файл з погано обраної тексту GPL в це.
  • Поліпшення Тіка-сервері, щоб дозволити йому призвести текст / HTML і текст / зміст XML.
  • Покращення були внесені в компресорній Parser для обробки g'zipped файли, які вимагають опцію decompressConcatenated набір до істини.
  • Адресовано типографський помилку, що не дозволяла від виявлення AWK файлів.

Що нового у версії 1.2:

  • Apache Тіка 1.2 містить ряд поліпшень і виправлень.

Що нового у версії 1.0:

  • Apache Тіка 1.0 містить ряд поліпшень і виправлень.

Що нового у версії 0.9 :.

  • Цей реліз включає в себе кілька важливих виправлень і нових можливостей

Що нового у версії 0.8:

  • ідентифікація Мова тепер динамічно настроюється, вдалося за допомогою конфігураційного файлу завантажуються з класам.
  • Тіка тепер підтримує розбір Стрічки, обернувши лежить в основі Римський бібліотеку.
  • Швидкий старт-гід для Тіка розбору був внесений.

  • був доданий
  • Підхід для водопроводу через атрибутів XHTML.
  • Тип носія ієрархія інформація тепер прийняті до уваги при виборі кращого парсер для даного вхідного документа.
  • Підтримка для розбору спільних наукових форматів даних, включаючи NetCDF і HDF4 / 5 був доданий.
  • Модульні тести для Windows, були зафіксовані, дозволяючи TestParsers, щоб закінчити.

Що нового у версії 0.7:

  • MP3 файл розбір була покращена, включаючи видобуток Channel і оцифровки і підтримка ID3v2. Крім того, при виявленні звуку розбір MIME також була покращена для формату MIDI.
  • Тіка більше не покладається на X11 для його функціональності RTF розбору.
  • поточно-помилка в AutoDetectParser був виявлений і звернувся.
  • Оновлення до 1.0.0 PDFBox. Нова версія PDFBox покращує продуктивність PDF розбору і виправляє ряд питань витяг тексту.

Вимоги

  • Java 6 або вище

Схожі програми

Інші програми розробника Apache Software Foundation

Apache cTAKES
Apache cTAKES

20 Jul 15

Apache XML-RPC
Apache XML-RPC

14 Apr 15

Apache ODE
Apache ODE

6 Jun 15

Apache Olingo
Apache Olingo

20 Jul 15

Apache Tika

Коментар не знайдено
додати коментар
Включіть картинки!
Пошук за категоріями