PDF Extractor SDK برای توسعه دهندگان نرم افزار ویندوز: PDF به متن، PDF به XML، تصاویر از PDF، اطلاعات PDF را بخوانید، PDF به CSV برای اکسل.
Bytescout PDF Extractor SDK اجازه می دهد تا تبدیل PDF به متن، PDF به XML، PDF به CSV، استخراج تصاویر از PDF، استخراج اطلاعات در مورد فایل های PDF در دات نت و رابط های ActiveX بدون هیچ نرم افزار اضافی مورد نیاز است.
فواید:
PDF را به متن ساده تبدیل می کند (و اگر شما یک روزنامه را در قالب PDF تبدیل می کنید، می توانید ستون ها را دنبال کنید) از جمله استخراج متن نامرئی؛
تبدیل جداول در PDF به اکسل (CSV) با خواندن سلول از مستطیل داده شده.
تبدیل جداول در PDF به فایل های XML؛
عصاره های متادیتای فایل PDF (عنوان، نویسنده، توضیحات) و سایر اطلاعات مربوط به فایل (تعداد صفحات، رمزگذاری شده یا نه)؛
استخراج تصاویر جاسازی شده از سند PDF (در ASP.NET، VB.NET، C #، VB6 و VBScript)؛
DocumentMerger و DocumentSplitter رابط و کلاس برای ادغام و تقسیم اسناد PDF؛
Adobe Reader یا هر نرم افزار PDF خوان دیگر نیازی به نصب ندارد
فراهم می کند دات نت و رابط های اکتیو ایکس؛
ساخته شده با 100٪ مدیریت کد C #.
چه جدید در این نسخه است:
نسخه 9.0.0.3079: فیلترینگ محتوای استخراج شده توسط نام فونت، اندازه فونت و رنگ اضافه شده است.
به روز شده موتور OCR به آخرین نسخه. فایل های زبان را از پوشه "tessdata" به روز کنید.
استخراج متن پیشرفته، گروه بندی خطوط در داده های جدولی، عملکرد، استخراج اشکال XFA، TableDetector، مسائل تجزیه PDF ثابت.
فیلتر جدید در استخراج استخراج شده در نسخه جدید 8.7.0.2980:
محتوای نام فونت، اندازه قلم و رنگ.
به روز شده موتور OCR به آخرین نسخه. فایل های زبان را از پوشه "tessdata" به روز کنید.
بهبود یافته در متن، خطوط گروه بندی در داده های جدولی، عملکرد، استخراج اشکال XFA، TableDetector، مشکلات ثابت تجزیه PDF.
در نسخه 8.6.0.2911:
فیلتر جدید اضافه شده استخراج شده محتوای نام فونت، اندازه قلم و رنگ.
به روز شده موتور OCR به آخرین نسخه. فایل های زبان را از پوشه "tessdata" به روز کنید.
بهبود یافته در متن، خطوط دسته بندی در داده های جدولی، عملکرد، استخراج اشکال XFA، TableDetector، مشکلات تجزیه PDF ثابت.
چه جدید در نسخه 8.2.0.2699:
نسخه 8.2.0.2699 است ممکن است شامل به روز رسانی نا مشخص، پیشرفت، و یا رفع اشکال باشد.
چه جدید در نسخه 8.0.0.2528 است است:
فیلترینگ محتوای استخراج شده توسط نام فونت، اندازه قلم و رنگ اضافه شده است.
به روز شده موتور OCR به آخرین نسخه. فایل های زبان را از پوشه "tessdata" به روز کنید.
استخراج متن بهبود یافته است.
گروه بندی بهتر خطوط در داده های جدولی.
عملکرد بهبود یافته
بهبود استخراج فرمهای XFA.
TableDetector بهبود یافته است.
مسائل ثابت تجزیه PDF.
رمزگشایی تصاویر ثابت JBIG.
ImageExtractor: استخراج تصاویر ثابت در هر صفحه.
MultimediaExtractor: استخراج ثابت در صدا MPEG جاسازی شده.
TextExtractor: غیرفعال کردن PropertyHyphenation ثابت.
سایر پیشرفت های جزئی و رفع اشکال.
در نسخه 7.0.0.2474 چه جدید در این نسخه قرار دارد:
نسخه 7.0.0.2474:
جدید کلاس ابزار کاربردی DocumentPrinter اضافه شده که اجازه چاپ اسناد PDF را به صورت لحظه ای (بدون هیچگونه گفتگوی کاربر)
کلاس جدید JSONExtractor اضافه شده است
اضافه کردن لغو برای روش DocumentSplitter.Split () اجازه می دهد برای تعیین پوشه خروجی برای فایل های تولید شده
اشکال چند threading ثابت در DocumentSplitter
tableDetector در حال حاضر به محدوده استخراج با روش SetExtractionArea () احترام می گذارد
خواص جدید در کلاس های استخراج: ExtractionColumns - شامل مختصات ستون های شناسایی شده است. CustomExtractionColumns - امکان شناسایی ستون را لغو می کند
روش GetPageRect * چرخش صفحه را به حساب نمی گیرد.
اشکال ثابت در نصب باعث ایجاد برخی از فایل ها از نصب قبلی بود که با به روز رسانی ها مواجه شد
بررسی ثبت نام دوباره انجام شد در حال حاضر کتابخانه یک استثناء را پر نمی کند، اما اگر در اشتباه یا ورودی اشتباه ثبت نام و ثبت نام
PDF Multitool: لیست سند اخیر به "Open PDF Document" اضافه شده است
چند ابزار چندگانه PDF: اکنون می توانید انتخاب کنید
PDF Multitool: اضافه شدن ویژگی JSON Extract
چند ابزار چندگانه: UI جدول آشکارساز بهبود یافته است
چند ابزار چندگانه: به طور قابل توجهی بهبود کیفیت رندر فونت
PDF Multitool: اضافه شدن گزینه اشکال زدایی "Show Columns Detected Extraction" به منوی context برای نمایش ستون های شناسایی شده در صفحه فعلی. تنها پس از اجرای هر گونه عیب در برابر صفحه نمایش داده شده فعلی قابل مشاهده می شود
PDF Multitool: مسئله رندر فونت ثابت در ویندوز 32 بیتی
دیگر پیشرفت های جزئی و رفع اشکال
چه جدید در نسخه 6.30.0.2421:
نسخه 6.30.0.2421 است:
کلاس ابزار کاربردی TextComparer (فقط در مجامع دات نت 4.0) موجود است که امکان مقایسه متن را در دو اسناد PDF و تولید گزارش فراهم می کند.
پشتیبانی از پروفایل های رنگی ICC بهبود یافته است.
دست زدن به واردات از فونت های تعبیه شده.
بهبود AttachmentExtractor.
ثابت XMLExtractor.SaveXMLToStream () روش.
با استفاده از گزینه OCRCacheMode.WholePage ثابت نسخه برداری متن را استخراج می کند.
سایر رفع اشکال و پیشرفت.
چه جدید در نسخه 6.20.2354 است:
نسخه 6.20.2354:
PDF به متن، PDF به CSV، PDF به توابع XML بهبود یافته است
عصاره جدید ویدیو، استخراج نمونه های صوتی
CSV و XML extractors پشتیبانی از جداول با ستون های خالی در داخل
MultimediaExtractor جدید برای استخراج ویدیو و صوتی از PDF
PageDataCaching اموال جدید
مثال "MemoryCareProcessingOfHugeFiles" جدید
استثناء null ثابت در هنگام تلاش برای دور زدن صفحات که قبلا گذاشته شده اند
XLSExtractor: پشتیبانی از فونت را بهبود می بخشد
SkipInvisibleText در حال حاضر متن متوقف می شود (که قابل مشاهده نیست)
رندر خروجی متن بهبود یافته است
XFDF Extractor: پشتیبانی از چک باکس اضافه شده است
خروجی تصاویر بهبود یافته برای پشتیبانی از فرمت های فرعی دیگر
مدیریت متن یونیکد بهبود یافته است
چه جدید در نسخه 6.11.2149 است:
نسخه 6.11.2149:
نمونه پردازش دسته ای به روز شده است تا استفاده از روش Reset () را نشان دهد
نمونه کد منبع C ++ برای صفحات استخراج اضافه شده است
DocumentMerger می افزاید: Merge2 (inputfile1، inputfile2، outputfile) روش برای ادغام 2 فایل
XLS Extractor رفع اشکالات جزئی
PDF Multitool در حال حاضر اجازه می دهد تا فعال / غیر فعال کردن متن، تصویر، لایه برداری، اضافه می کند تنظیمات پیشرفته برای استخراج متن
XML، CSV، Extraction Table پشتیبانی از جداول را با سلولهای emtpry داخل ستونها را بهبود می بخشد
.extractShadowLikeText property بهبود: فیلتر بهتر برای متن سایه مانند
چه جدید در نسخه 6.10.2136 است:
نسخه 6.10.2136:
PDF به XML، PDF به CSV، PDF به عملکرد متن بهبود یافته است
پی دی اف به نمونه خط فرمان XLS اضافه شده (بر اساس vbscript)
PDF به HTML SDK امكان اضافه كردن خصوصيات DetectHyperLinks (به طور پيش فرض TRUE) براي فعال كردن يا غير فعال كردن شناسايي پيوندها در متن
SearchablePDFMaker جدید (در دسترس برای مجوز PRO) برای تبدیل PDF به فایل های PDF قابل جستجو است
خواص جدید در استخراج: ConsiderFontNames، ConsiderFontSizes، ConsiderFontColors، ConsiderVerticalBorders در فایلهای CFG
تشخیص ستون هدر (هنگامی که AutoAlighHeaderToColumns = درست) بهبود یافته است
.DetectLinesInsteadOfParagraphs با جدید New LinelineGroupingMode جایگزین شده است تا کنترل شود که چگونه خطوط به پاراگرافها ادغام شوند
مهم! PDF به XML رفع مشکل زمان طولانی با مختصات Y نادرست برای اشیاء متن (اشاره به پایین سمت چپ به جای سمت چپ بالا)
.TableXMinIntersectionRequiredInPcerents و ویژگی های .TableYMinIntersectionRequiredInPercents اضافه شده
نمونه کد منبع C ++ اضافه شد
XML Extractor رفع ستون های خالی خالی در PreserveFormatting = حالت درست است
اصلاح جزئی در رنگ ها در برخی از فایل های PDF
پشتیبانی از چند زبان OCR اضافه شده است
PDF ابزار چندرسانه ای GUI: دکمه Copy to Clipboard را به فرمت های TXT، CSV، XML و raster renderer اضافه می کند
XLSExtractor: اضافه می کند Property PageToWorksheet برای فعال / غیر فعال ساختن صفحات جداگانه در هر صفحه
جدید .TextEncodingCodePage املاک
PDFViewerControl: اضافه می کند ValidateContextMenu اجازه می دهد تا کاربر برای اضافه کردن موارد سفارشی به منوی زمینه
کنترل PDF Viewer: ویژگی های ShowTextObjects، ShowImageObjects، ShowVectorObjects را اضافه می کند
XMLExtractor اکنون ویژگی "OCRConfidence" را برای متن به رسمیت می شناسد
PDF / یک قابلیت چک (در بتا)
بهبود کنترل و چک کردن متن و تراز کردن با توجه به طرح اولیه. مسئله ناشی از تغییر مختصات Y در کنترل در هنگام تجزیه و تحلیل بود: این اشتباه بود. راه درست این است که ...
Extractor XML به روز شده است: در حال حاضر تگ CONTROL برای جعبه ها و زمینه های متن تولید می کند
تغییر استفاده از دایرکتوری فعلی به دایرکتوری temp
جعبه های جعبه، جعبه های رادیویی، جعبه های ویرایش، جعبه های کمکی بهتر پشتیبانی می شوند
در حال حاضر اجازه می دهد تا اطمینان نسبی
چه جدید در نسخه 5.80.1781 است:
نسخه 5.80.1781:
PDF به XML، PDF به CSV، PDF به قابلیت متن به روز شد
OCRMode در حال حاضر 9 حالت را فراهم می کند
.DetectLineInsteadOfParagraph اکنون خیلی بهتر کار می کند. آن را به False تنظیم کنید تا متن چند خطی را در سلولهای جدول ضبط کنید!
کنترل های پشتیبانی PDF بهبود یافته است
استخراج داده های FDF و XFDF
چه جدید در نسخه 5.10.1747 است:
نسخه 5.10.1747:
PDF به XML، PDF به CSV، PDF به توابع متن بهبود یافته است
در حال حاضر از استخراج متن از کنترل های متن پشتیبانی می کند
XML Extractor حالا سبک فونت، اندازه، نام، مختصات متن را به تگ های اضافه می کند
نمونه ASP.NET برای استفاده OCR اضافه شده است
OCRLanguageDataFolder اموال جدید برای تعیین محل پوشه "tessdata"
پشتیبانی از فایل های PDF بهبود یافته است
پشتیبانی از متن چرخان را بهبود می بخشد
نمونه های کد منبع به روز شده
مستندات به روز شده
پیشرفت های جزئی و رفع
در نسخه 5.00.1626 جدید چه جدید است:
نسخه 5.00.1626:
قابلیت OCR (متن از تصاویر) اضافه شده است: در حال حاضر شما می توانید متن را از تصاویر جاسازی شده و متن صحیح را تعمیر کنید
مسئله ثابت با CSV و XML extractor از آخرین ستون ها با برخی تنظیمات گم شده است
پشتیبانی از فایل های PDF آسیب دیده بهبود یافته است
جستجوی متن جستجوی چند سطحی با حالت تطبیق کلمه در حال حاضر پشتیبانی می شود
در حال حاضر ممکن است متن را با خطوط و خطوط مختلف متن جستجو کنید: کد جدید کد منبع را پیدا کنید متن را با افکت ها پیدا کنید
Property جدید .RTLTextAutoDetectionEnabled (به طور پیش فرض غلط) برای تشخیص اتوماتیک زبان RTL
نسخه ی نمایشی GUI PDF Viewer بهبود یافته است
پیشرفت های جزئی و رفع
.NET Framework 2.0 یا بالاتر
محدودیت ها:
صفحه ناخن، علامت بر روی خروجی
نظر یافت نشد