ByteScout PDF Extractor SDK

Скріншот програми:
ByteScout PDF Extractor SDK
Дані програми:
Версія: 9.0.0.3079 оновлений
Дата завантаження: 15 Aug 18
Розробник: ByteScout
Ліцензія: Shareware
Ціна: 10.00 $
Популярність: 193
Розмір: 596 Kb

Rating: 3.3/5 (Total Votes: 4)


        PDF Extractor SDK для розробників програмного забезпечення Windows: PDF в текст, PDF в XML, зображення з PDF, читання PDF-інформації, PDF в CSV для Excel.

Bytescout PDF Extractor SDK дозволяє конвертувати PDF в текст, PDF в XML, PDF в CSV, витягувати зображення з PDF, витягувати інформацію про файли PDF у інтерфейсах .NET та ActiveX без будь-якого додаткового програмного забезпечення.


Переваги:
 перетворює PDF у звичайний текст (і може слідувати стовпцям, якщо ви конвертуєте газету у форматі PDF) - у тому числі невидимий видобуток тексту;
 перетворює таблиці в форматі PDF в Excel (CSV), читаючи комірки з заданого прямокутника;
 перетворює таблиці в PDF у файли XML;
 витягує метадані файлів PDF (заголовок, автор, опис) та отримує іншу інформацію про файл (кількість сторінок, зашифрована чи ні);
 витягує вбудовані зображення з документа PDF (у ASP.NET, VB.NET, C #, VB6 та VBScript);
 DocumentMerger та DocumentSplitter інтерфейси та класи для злиття та розбиття документів PDF;
не вимагає встановлення Adobe Reader або будь-якого іншого програмного забезпечення для читання PDF;
 надає інтерфейси .NET та ActiveX;
 з 100% керованим кодом C #.
    

Що нового у цьому випуску:

Версія 9.0.0.3079: Додана фільтрація вилученого вмісту за назвою шрифту, розміром шрифту та кольором.
Оновлений двигун OCR до останньої версії. Оновіть мовні файли з папки "tessdata".
Покращена вилучення тексту, групування рядків у табличних даних, продуктивність, вилучення форм XFA, TableDetector, фіксовані проблеми розбору PDF.

Що нового в версії 8.7.0.2980:

Додана фільтрація вилученого вмісту за назвою шрифту, розміром шрифту та кольором.
Оновлений двигун OCR до останньої версії. Оновіть мовні файли з папки "tessdata".
Покращено вилучення тексту, згрупування рядків у табличних даних, продуктивність, вилучення форм XFA, TableDetector, фіксовані проблеми синтаксичного аналізу PDF.

Що нового в версії 8.6.0.2911:

Додана фільтрація вилученого вмісту за назвою шрифту, розміром шрифту та кольором.
Оновлений двигун OCR до останньої версії. Оновіть мовні файли з папки "tessdata".
Покращено вилучення тексту, згрупування рядків у табличних даних, продуктивність, вилучення форм XFA, TableDetector, фіксовані проблеми синтаксичного аналізу PDF.

Що нового у версії 8.2.0.2699:

Версія 8.2.0.2699 може містити невизначені оновлення, удосконалення або виправлення помилок.

Що нового в версії 8.0.0.2528:

  • Додана фільтрація витягнутого вмісту за назвою шрифту, розміром шрифту та кольором.
  • Оновлений двигун OCR до останньої версії. Оновити мовні файли з папки "tessdata".
  • Поліпшення вилучення тексту.
  • Покращено групування рядків у табличних даних.
  • Покращена ефективність.
  • Покращено вилучення форм XFA.
  • Покращено TableDetector.
  • Виправлені помилки розбору PDF.
  • Виправлено виправлення JBIG-зображень.
  • ImageExtractor: виправлення зображень на кожну сторінку.
  • MultimediaExtractor: фіксоване витягування з вбудованого аудіо MPEG.
  • TextExtractor: виправлена ​​невиробнима властивість RemoveHyphenation.
  • Інші незначні покращення та виправлення помилок.
  • Що нового в версії 7.0.0.2474:

    Версія 7.0.0.2474:

    • додано новий клас Утиліта DocumentPrinter, що дозволяє друкувати PDF-документи без використання (без будь-яких діалогів користувача).
    • додано новий клас JSONExtractor
    • додано переопределення для методу DocumentSplitter.Split (), що дозволяє вказати вихідну папку для згенерованих файлів
    • виправлено багато помилок в DocumentSplitter
    • tableDetector тепер дотримується області вилучення, заданої методом SetExtractionArea ()
    • нові властивості в класах вилучення: ExtractionColumns - містить координати виявлених стовпців; CustomExtractionColumns - дозволяє переопределити виявлення стовпців
    • Методи GetPageRect * не враховували обертання сторінки.
      Виправлена ​​помилка в програмі установки, через яку деякі файли з попередньої інсталяції перешкоджали оновленню
    • переробив перевірку реєстрації. Тепер бібліотека не викине виняток, але працюватиме в демо-режимі, якщо ви пропустили або неправильно ввести реєстраційне ім'я та реєстраційний ключ
    • Багатофункціональний інструмент PDF: Додано список останніх документів на "Відкрити PDF-документ"
    • Багатофункціональний інструмент PDF: тепер можна змінити розмір вибірки
    • Багатофункціональний інструмент PDF: додано Витягувати функцію JSON
    • Багатофункціональний інструмент PDF: покращений інтерфейс користувача детектора таблиць
    • Багатофункціональний інструмент PDF: значно покращена якість рендеринга шрифтів
    • PDF Multitool: додано параметр налагодження "Показати виявлені стовпці вилучення" у контекстне меню, щоб відобразити виявлені стовпці на поточній сторінці. Стає видимим лише після виконання будь-якої витяжки до поточної відображеної сторінки
    • Багатофункціональний інструмент PDF: Виправлена ​​проблема рендеринга шрифтів на 32-розрядній системі Windows
    • інші незначні покращення та виправлення помилок

    Що нового у версії 6.30.0.2421:

    Версії 6.30.0.2421:

    • Додано клас утиліти TextComparer (доступно лише в збірках .NET 4.0), що дозволяє порівнювати текст у двох документах PDF та створювати звіти.
    • Покращена підтримка кольорових профілів ICC.
    • Імпортова обробка вбудованих шрифтів.
    • Покращений додатокextractor.
    • Виправлено метод XMLExtractor.SaveXMLToStream ().
    • Виправлено вилучене дублювання тексту при використанні опції OCRCacheMode.WholePage.
    • Інші виправлення та покращення помилок.

    Що нового у версії 6.20.2354:

    Версія 6.20.2354:

    • Покращена функція PDF для тексту, PDF у форматі CSV, PDF для функції XML
    • Новий витяг відео, вилучення звукових прикладів
    • Екстрактори CSV та XML вдосконалили підтримку таблиць з порожніми стовпцями всередині
    • новий MultimediaExtractor для вилучення відео та аудіо з PDF
    • нове властивість PageDataCaching
    • новий приклад "MemoryCareProcessingOfHugeFiles"
    • виправлено недійсне виключення при спробі розпоряджатися вже розміщеними сторінками
    • XLSExtractor: покращує підтримку шрифтів
    • SkipInvisibleText тепер пропускає обрізаний текст (який не видно)
    • поліпшення рендеринга текстового виводу
    • XFDF Extractor: додано підтримку прапорців
    • Покращено вивід зображень для підтримки більшості під-форматів
    • Удосконалення обробки текстів у форматі Unicode

    Що нового в версії 6.11.2149:

    Версія 6.11.2149:

    • Зразки пакетної обробки оновлено, щоб показати використання методу Reset ()
    • Зразок вихідного коду C ++ додано для вилучення сторінок
    • DocumentMerger додає Merge2 (файл inputfile1, inputfile2, outputfile) метод для об'єднання 2 файлів
    • Виправлені помилки виправлення XLS Extractor
    • Тепер програма PDF Multitool дозволяє вмикати / вимикати текстові, графічні, векторні шари, додавати розширені параметри для вилучення тексту
    • XML, CSV, Extracting Table покращує підтримку таблиць з комірками emtpry усередині стовпців
    • . Виправлено властивість .ExtractShadowLikeText: краще фільтрувати для тіні

    Що нового в версії 6.10.2136:

    Версія 6.10.2136:

    • PDF-файл у форматі XML, PDF-файл у форматі CSV, функціональність PDF-тексту до тексту покращено
    • додано зразок командного рядка PDF до XLS (на базі vbscript)
    • PDF до HTML SDK додає новий властивість .TextHyperLinks (TRUE за замовчуванням), щоб увімкнути / вимкнути виявлення автоматичних посилань у тексті
    • новий SearchablePDFMaker (доступний для ліцензій PRO) для перетворення PDF у PDF-файли, які можна шукати
    • нові властивості в екстрактор: ConsiderFontNames, ConsiderFontSizes, ConsiderFontColors, ConsiderVerticalBorders у файлах CFG
    • виявлення стовпців заголовків (коли AutoAlighHeaderToColumns = true) покращено
    • .DetectLinesInsteadOfParagraphs замінені новими. LineGroupingMode, щоб контролювати, як лінії об'єднуються в абзаци
    • ВАЖЛИВО! PDF для XML фіксує довготривалу проблему з неправильною координатою Y для текстових об'єктів (мала місце внизу ліворуч, а не ліворуч угорі).
    • Заповнені властивості .TableXMinIntersectionRequiredInPercents та .TableYMinIntersectionRequiredInPercents.
    • додано вихідний код C ++
    • XML Extractor виправляє відсутні порожні колонки в режимі PreserveFormatting = true
    • незначні виправлення кольорів у деяких PDF-файлах
    • підтримка декількох мов OCR додана
    • Багатофункціональний інтерфейс PDF: додавання кнопки Копіювати в буфер обміну у діалогові вікна TXT, CSV, XML та растрові візуалізатори
    • XLSExtractor: додає властивість PageToWorksheet, щоб включити / вимкнути генерацію окремих аркушів на кожній сторінці
    • новий властивість .TextEncodingCodePage
    • PDFViewerControl: додає ValidateContextMenu, що дозволяє користувачеві додавати власні елементи в контекстне меню
    • Контроль PDF-переглядача: додає властивості ShowTextObjects, ShowImageObjects, ShowVectorObjects
    • XMLExtractor тепер додає атрибут "OCRConfidence" для розпізнаного тексту
    • функціональність перевірки PDF / A (в бета-версії)
    • поліпшення елементів керування та перевірка тексту та вирівнювання за оригінальним макетом. Питання було спричинено зміщенням координат Y в контролі під час аналізу: це було неправильно. Правильний спосіб - перемогти ...
    • Оновлений XML Extractor: тепер створює тег CONTROL для прапорців та текстових полів
    • змінено використання поточного каталогу в каталог temp
    • прапорці, радіобік, редагування, комбінації, краще підтримуються
    • тепер дозволяє частково довіряти абонентам

    Що нового в версії 5.80.1781:

    Версія 5.80.1781:

    • оновлено PDF-файл у форматі XML, PDF-файл у форматі CSV, функція PDF-файл у текстовому форматі
    • Тепер у OCRMode передбачено 9 режимів
    • .DetectLineInsteadOfParagraph тепер працює набагато краще. Встановіть його в значення "Невірний" для зйомки багаторядкового тексту в клітинках таблиці!
    • Підтримка керування PDF удосконалена
    • Витяг даних FDF та XFDF

    Що нового в версії 5.10.1747:

    Версія 5.10.1747:

    • Покращено PDF-файли у форматі XML, PDF-файли у форматі CSV, PDF-файлів у текстовому форматі
    • тепер підтримує вилучення тексту з текстових елементів керування
    • XML Extractor тепер додає стиль шрифту, розмір, ім'я, текстові координати в теги
    • Зразок ASP.NET для використання OCR додано
    • Нова властивість OCRLanguageDataFolder для визначення розташування папки "tessdata"
    • покращена підтримка PDF-файлів
    • покращує підтримку повороту тексту
    • оновлені зразки вихідного коду
    • оновлена ​​документація
    • незначні покращення та виправлення

    Що нового у версії 5.00.1626:

    Версія 5.00.1626:

    • Додано функцію розпізнавання тексту (текст з малюнків): тепер ви можете витягувати текст із вбудованих зображень та відремонтувати пошкоджений текст
    • Виправлена ​​помилка вилучення останніх стовпців з деякими налаштуваннями за допомогою CSV та XML extractor
    • покращена підтримка пошкоджених PDF-файлів
    • Тепер підтримується багатолітерний текстовий пошук з використанням режимів зіставлення слів
    • тепер може шукати текст з дефісами і по різних рядках: переглянути новий зразок вихідного коду Знайти текст із дефісами
    • нове властивість .RTLTextAutoDetectionEnabled (за замовчуванням помилково) автоматично виявляти мови RTL
    • Графічний інтерфейс програми PDF Viewer поліпшено
    • незначні покращення та виправлення

      Вимоги :

      .NET Framework 2.0 або пізніші

      Обмеження :

      Над екран, водяний знак на виході

    Операційні системи

    Схожі програми

    Інші програми розробника ByteScout

    ByteScout PDF Extractor SDK

    Коментар не знайдено
    додати коментар
    Включіть картинки!
    Пошук за категоріями