در PDFMiner آثار برای اولین بار از در نظر گرفتن محتویات یک فایل PDF و تبدیل آن به یک فرمت قابل انعطاف بیشتر شبیه به HTML.
از آنجا، متن و داده های استخراج شده است و مورد تجزیه و تحلیل، و بر اساس قوانین از پیش تعریف جدا شده و ارائه شده به کاربر و یا ارسال به دیگر ابزارهای قدرتمند تر تجزیه و تحلیل داده ها.
اگر تجزیه و تحلیل متن چیزی است که شما قصد انجام ندهید، شما به راحتی می توانید پیکربندی PDFMiner به سادگی به استخراج و یا فقط تبدیل داده های PDF نیز هست.
توابع آن می تواند به طور جداگانه از یکدیگر به کار می کند و اجازه می دهد به لطف استفاده گسترده از طیف
ویژگی ها:.
100٪ کد پایتون، هیچ C یا C ++
فایلهای PDF پارسه
تجزیه و تحلیل فایلهای PDF
تبدیل فایلهای PDF به فرمت های دیگر
استخراج TOC
دریافت مطالب تنها برچسب
پشتیبانی از تعداد زیادی از ویژگی های PDF متن
پشتیبانی از تعداد زیادی از انواع فونت در داخل فایلهای PDF
رمزگذاری عمومی (RC4) پشتیبانی
به چه چیزی جدید در این نسخه است: روش
PDFDocument.initialize () برداشته شده و دیگر نیازی به. رمز عبور را بعنوان آرگومان از یک سازنده PDFDocument داده شده است.
به چه جدید در نسخه 20110515 است:
به تغییرات API.
کلاس LTPolygon به عنوان LTCurve تغییر نام داد.
به چه جدید در نسخه 20110227 است:
رفع اشکال و بهبود تجزیه و تحلیل نمایید.
به چه جدید در نسخه 20101226 است:
یک زن و شوهر از رفع اشکالات و پیشرفت های جزئی.
به چه جدید در نسخه 20101017 است:
یک زن و شوهر از رفع اشکالات و بهبود جزئی.
به چه جدید در نسخه 20100424 است:
در رفع اشکالات و بهبود کوچک در استخراج TOC.
در مورد نیاز:
در پایتون 2.4 تا 3
به محدودیت ها:
PDFMiner می تواند 20 برابر کندتر از C C ++ / - نرم افزار است.
نظر یافت نشد