PDFMiner працює спочатку приймає вміст PDF файлу і перетворення його в більш піддатливий форматі, як HTML.
Звідти, текст і дані витягуються і аналізуються, і на основі визначених правил, розділених і представлених користувача або відправлених в інші, більш потужні інструменти аналізу даних.
Якщо аналіз тексту є не те, що ви збираєтеся зробити, ви можете легко налаштувати PDFMiner просто витягти або просто конвертувати дані PDF, а також.
Його функції можуть працювати окремо один від одного і дозволяють ширше спектр використання завдяки йому
Особливості :.
- 100% Python Код, не С або С ++
- розібрати PDF-файлів
- Аналізувати PDF-файлів
- Convert PDF-файлів в інші формати
- ToC витяжка
- Отримати тільки маркованих зміст
- Підтримка великої кількості функцій текст PDF
- Основні шифрування (RC4) підтримка
<Літій> Підтримка великої кількості типів шрифтів всередині PDF -
Що нового У цьому випуску:
- не
- метод PDFDocument.initialize () віддаляється і більше не потрібні , Пароль задається як аргумент конструктора PDFDocument.
Що нового у версії 20110515 :.
- зміни API
- клас LTPolygon був перейменований в LTCurve.
Що нового у версії 20110227 :.
- виправлення і поліпшення аналізу макета
Що нового у версії 20101226 :.
- Кілька виправлень і дрібних поліпшень
Що нового у версії 20101017 :.
- Кілька виправлень і незначні поліпшення
Що нового у версії 20100424 :.
- Виправлення і поліпшення крихітні з видобутку ТОС
Вимоги
- Python 2.4 до 3
Обмеження :.
- PDFMiner може бути в 20 разів повільніше, ніж / C ++ C - програмне забезпечення на основі
Коментар не знайдено