Apache Tika

نرم افزار تصویر:
Apache Tika
جزئیات نرم افزار:
نسخه: 1.9 به روز شده
ها تاریخ: 20 Jul 15
توسعه دهنده: Apache Software Foundation
پروانه: رایگان
محبوبیت: 89

Rating: 5.0/5 (Total Votes: 1)

در آپاچی تیکا به عنوان یک ابزار سطح پایین برای جستجو در محتوا در داخل فایل های دیگر توسعه داده شد.
TIKA کار زیادی انجام نمی خود را در آن بودن یک کتابخانه ساده است، اما می توان آن را در ابزار قدرتمند تر مانند موتورهای جستجو، سیستم های مدیریت دارایی های دیجیتال و یا سیستم مدیریت محتوا یکپارچه برای ارائه یک سیستم جستجو کاملا کاربردی در فایل.
کتابخانه می هدر فقط فایل را برای سریع اطلاعات فایل کلی دسترسی داشته باشید یا آن را می توانید واقعا عمیق و جستجو حتی در بدن فایل انواع مختلفی از داده ها، در متن و یا فرمت باینری.
طیف گسترده ای از انواع فایل پشتیبانی می شوند و تیکا همچنین می توانید با دیگر لطف زبان های برنامه نویسی به یک سری از اتصالات شخص ثالث و لفافه استفاده می شود

چه در این نسخه جدید است:

این نسخه شامل رفع اشکال و ویژگی های جدید از جمله تسرکت جدید OCR تجزیه کننده. یک تجزیه کننده GDAL جدید. بیشتر فرمت های، و بهبود کلی در ثبات تیکا پشتیبانی می شود.

جدید در نسخه 1.8 است:

در این نسخه شامل رفع اشکال و ویژگی های جدید از جمله یک تسرکت جدید OCR تجزیه کننده. یک تجزیه کننده GDAL جدید. بیشتر فرمت های، و بهبود کلی در ثبات تیکا پشتیبانی می شود.

جدید در نسخه 1.7 است:

در این نسخه شامل رفع اشکال و ویژگی های جدید از جمله یک تسرکت جدید OCR تجزیه کننده. یک تجزیه کننده GDAL جدید. بیشتر فرمت های، و بهبود کلی در ثبات تیکا پشتیبانی می شود.

این نسخه شامل رفع اشکال و ویژگی های جدید از جمله یک API جدید ترجمه، فرمت های بیشتری پشتیبانی، و بهبود کلی در ثبات تیکا:

جدید در نسخه 1.6 است.

اشکال ثابت در دست زدن به پردازش فایل های جاسازی شده در فایلهای PDF:

جدید در نسخه 1.5 است.
اضافه شده SourceCodeParser به پشتیبانی از جاوا، برروی، C ++ فایل های.
به روز تیکا سرور برای پشتیبانی از محموله های چند / فرم اطلاعات.
به روز تیکا سرور به CXF 2.7.8.
به روز تیکا سرور به قبول درخواست بیش از آدرس کلمات.
اضافه شدن گزینه به استفاده از NonSequentialPDFParser متناوب.
محتوا از AcroForms PDF در حال حاضر استخراج شده است.
ستاره نامعتبر ثابت از استاد اسلاید در PPT.
اضافه موارد آزمون به منظور دست زدن به خودکار تاریخ در PPT و PPTX.

جدید در نسخه 1.4 است:

در حذف یک فایل تست با یک متن HTML انتخاب ضعیف GPL در آن است.
ارتقاء به TIKA-سرور اجازه می دهد آن را به تولید متن / HTML و محتوای متن / XML.
ارتقاء به تجزیه کننده کمپرسور ساخته شده بودند برای مدیریت فایل های g'zipped که نیاز به گزینه decompressConcatenated درست تنظیم کنید.
خطاب به یک خطای چاپی است که از تشخیص فایل های AWK جلوگیری شد.

جدید در نسخه 1.2 است:

در آپاچی تیکا 1.2 شامل تعدادی از بهبود و رفع اشکال.

جدید در نسخه 1.0 است:

در آپاچی تیکا 1.0 شامل تعدادی از بهبود و رفع اشکال.

جدید در نسخه 0.9 است:

در این نسخه شامل چندین رفع اشکال مهم و ویژگی های جدید.

جدید در نسخه 0.8 است:

در شناسایی زبان است در حال حاضر به صورت پویا تنظیم، مدیریت از طریق یک فایل پیکربندی لود شده از ClassPath است.
تیکا در حال حاضر پشتیبانی تجزیه فید های بسته بندی اساسی کتابخانه رم.
راهنمای سریع شروع برای تجزیه تیکا کمک کرده بود.
یک روش برای لوله کشی از طریق صفات XHTML اضافه شد.
نوع رسانه اطلاعات سلسله مراتب در حال حاضر در نظر گرفته شود در هنگام انتخاب بهترین تجزیه کننده برای یک سند ورودی داده شده.
پشتیبانی برای تجزیه فرمت های رایج از جمله داده های علمی netCDF و HDF4 / 5 اضافه شد.
تست واحد برای ویندوز برطرف شده است، اجازه می دهد TestParsers برای تکمیل.

جدید در نسخه 0.7 است:

در فایل MP3 تجزیه، بهبود یافته بود از جمله استخراج کانال و SampleRate و پشتیبانی ID3v2 را. علاوه بر این، تشخیص MIME تجزیه صوتی نیز برای فرمت MIDI بهبود یافته است.
TIKA دیگر در X11 متکی برای قابلیت تجزیه RTF آن است.
اشکال موضوع امن در AutoDetectParser کشف شد و خطاب.
ارتقا به 1.0.0 PDFBox. نسخه PDFBox جدید را بهبود می بخشد PDF عملکرد تجزیه و رفع تعدادی از مسائل استخراج متن.

مورد نیاز:

جاوا 6 و یا بالاتر

نرم افزار های مشابه

React
React

5 Sep 16

Zip Code Lookups
Zip Code Lookups

10 Feb 16

Infect.js
Infect.js

1 Mar 15

DOCX.js
DOCX.js

6 Jun 15

نرم افزار های دیگر از توسعه دهنده Apache Software Foundation

Apache Sirona
Apache Sirona

13 May 15

Apache TomEE
Apache TomEE

10 Feb 16

Apache NiFi
Apache NiFi

18 Apr 16

Apache Deltacloud
Apache Deltacloud

13 Apr 15

نظرات به Apache Tika

نظر یافت نشد
اضافه کردن نظر
روشن کردن تصاویر!
جستجو بر اساس طبقه بندی