Apache Tika

نرم افزار تصویر:
Apache Tika
جزئیات نرم افزار:
نسخه: 1.4
ها تاریخ: 20 Feb 15
توسعه دهنده: The Apache Software Foundation
پروانه: رایگان
محبوبیت: 6

Rating: nan/5 (Total Votes: 0)

در آپاچی Tika ابزار منبع باز طراحی شده برای شناسایی و استخراج ابرداده، و همچنین به عنوان محتوای متن ساختار از چند اسناد، با استفاده از چیزی جز موجود کتابخانه های تجزیه کننده است.
آپاچی Tika پشتیبانی از فرمتهای زیر سند: زبان نشانه گذاری ابرمتن (HTTP)، XML و مشتق فرمت، مایکروسافت آفیس فرمت سند، ساختار. (ODF)، فرمت سند قابل حمل (PDF)، فرمت انتشارات الکترونیک (EPF)، قالب متن غنی (RTF )، فرمت های فشرده سازی و بسته بندی، فرمت های متنی / صدا / تصویر / ویدئو، فرمت MBOX، و فایل های کلاس جاوا و آرشیو.
پیش از این، آپاچی Tika زیر پروژه از کتابخانه نرم افزار آپاچی Lucene بود. در حال حاضر آن را به عنوان یک بسته مستقل توسط بنیاد نرمافزار آپاچی توزیع

چه در این نسخه جدید است.

حذف یک فایل آزمون HTML با یک متن ضعیف انتخاب GPL در آن (TIKA -1129).
ارتقاء به tika-سرور اجازه می دهد آن را به تولید متن / HTML و متن / محتوای XML (TIKA-1126، TIKA-1127).
ارتقاء به تجزیه کننده کمپرسور ساخته شد که مسئولیت رسیدگی به فایل های g'zipped که نیاز به گزینه decompressConcatenated را به درست (TIKA-1096).
خطاب خطای چاپی است که از تشخیص فایل های AWK (TIKA-1081) جلوگیری از شد.
اضافه شده جدید نقطه پایان به سرور Tika را JAX-RS REST که تنها رسانه نوع بر اساس یک بخش کوچک از سند ارائه (TIKA-1047) تشخیص می دهد.
RTF: مرتب و لیست نامرتب در حال حاضر استخراج (TIKA-1062).
MP3: مدت زمان صوتی در حال حاضر استخراج (TIKA-991)
جاوا پسوند .class فایل: برای تجزیه بایت کدهای جاوا (TIKA-1053) به ASM 4.1 به روز رسانی از ASM 3.1.
انواع MIME پرونده: تعاریف توسعه یافته به صورت اختیاری شامل لینک (URL) و عفونت ادراری، همراه با جزئیات برای فرمت های رایج چند (TIKA-1012 / TIKA-1083)
استثنا در هنگام تجزیه OLE10 جاسازی شده اسناد، در هنگام تجزیه اطلاعات خلاصه از اسناد آفیس، و هنگامی که صرفه جویی در documennts جاسازی شده در TikaCLI در حال حاضر به جای سقط استخراج به سیستم وارد (TIKA-1074)
MS ورد: خط شخصیت جدولی در حال حاضر با خط جدید جایگزین (TIKA-1128)
XML: ElementMetadataHandlers هم اکنون می توانید به صورت اختیاری ارزش های تکراری و خالی (TIKA-1133) شرایط.

مورد نیاز:

جاوا 2 نسخه استاندارد محیط زمان اجرا

نرم افزار های دیگر از توسعه دهنده The Apache Software Foundation

Apache Ant
Apache Ant

2 Sep 17

Apache HBase
Apache HBase

17 Feb 15

Apache Hive
Apache Hive

19 Feb 15

نظرات به Apache Tika

نظر یافت نشد
اضافه کردن نظر
روشن کردن تصاویر!