Apache Nutch

نرم افزار تصویر:
Apache Nutch
جزئیات نرم افزار:
نسخه: 2.3
ها تاریخ: 1 Mar 15
توسعه دهنده: Apache Software Foundation
پروانه: رایگان
محبوبیت: 36

Rating: 3.0/5 (Total Votes: 1)

در آپاچی Nutch در بالای آپاچی Lucene، یک موتور جستجوی قدرتمند جاوا ساخته شده است.
توسعه دهندگان Nutch اصلاح کدهای Lucene، تبدیل داده اگنوستیک کدهای Lucene به یک پروژه اختصاص داده شده برای جستجوی اطلاعات در وب به طور خاص.
این فن آوری می توان به جستجو در صفحات وب خود را به عنوان یک سرور جستجو ساخته شده است در، و یا خزیدن به دنبال داده های تجزیه و خراش به پایگاه داده خود را وب استفاده می شود.
Nutch می تواند در یک دستگاه واحد اجرا شود، اما بهتر کار می کند در خوشه Hadoop.
پلاگین های مختلف در دسترس برای گسترش طیف استفاده از آن هستند

چه جدید در این نسخه است:.

tag ها تکراری در microformat-reltag مجموعه برچسب وجود ندارد.
سقوط بهتر بازگشت ارزش برای درست تاریخ.
دریافت از مخوف خلاص شوید.
ارتقا به Hadoop 1.2.0.
ارتقا به Tika 1.3.

جدید در نسخه 2.0 است:

به ParseFilter تغییر نام HTMLParseFilter.
حذف باقی مانده ربات / IP کد مسدود کردن در معاونت-HTTP.
بندر ورود به سیستم به slf4j.
تجزیه کننده خارجی ویژگی را پشتیبانی می کند پشتیبانی می کند.
تنظیمات پیچک را گورا را شامل نمی شود.
انژکتور باید ابرداده قبل از تماس injectedScore اضافه کنید.
معیار بندر Nutch به Nutchbase.
اضافه کردن پارسه-HTML بازگشت.
MoreIndexingFilter فرمت تاریخ گم شده است.
اتمام مهلت برای تجزیه کننده.
فاصله سعی مجدد در تاریخ خزیدن به 0 تنظیم کنید.
تولید خروجی ورود برای نمایه ساز solr و dedup.
NutchConfiguration بهبود.
SolrDeleteDuplicates نیاز به کلون کردن اشیاء SolrRecord.
LIBS hadoop بومی از طریق MAVEN در دسترس نیست.
جدا ساخت و در زمان اجرا محیط.

جدید در نسخه 1.5 است:

در این نسخه شامل چندین بهبود از جمله ارتقاء از چندین اجزای اصلی از جمله Tika 1.1 و Hadoop 1.0.0، بهبود LinkRank و عناصر WebGraph و همچنین تعدادی از پلاگین های جدید را پوشش لیست سیاه، فیلتر کردن و تجزیه به نام چند.

چه جدید در نسخه 1.4 است:

او Solr 4X (تنه) به عنوان مثال طرح.
اضافه شده '/ زمان اجرا به SVN را نادیده گرفت.
کاربرد / XHTML + XML باید در plugin.xml از تجزیه-HTML غیر فعال. اجازه می دهد mimetypes متعدد برای plugin.xml.
ثابت پارسه-tika و تجزیه-HTML استفاده قطعنامه آدرس نسبی در RFC-3986.
به روز رسانی به Tika 0.10. توجه: تجزیه RTF جدید Tika ممکن است متن در اسناد ناقص از آنچه قبلا نادیده - دیدن TIKA-748 برای جزئیات بیشتر.
او هر چیزیکه صدا میکند را هدف قرار به build.xml مورچه.
SolrJ به روز رسانی به نسخه 3.4.0.
هدف PMD مورچه شکسته است.
به روز رسانی طرح Solr به نسخه 1.4.

جدید در نسخه 1.3 است:

در این نسخه شامل چندین بهبود (بهبود یافته RSS تجزیه پشتیبانی، ادغام تنگ تر با آپاچی Tika، پشتیبانی تجزیه خارجی، شناسایی زبان بهبود یافته و منظور از قدر کوچکتر بسته آزادی منبع - تنها در مورد 2MB)!.

جدید در نسخه 1.2 است:

را شاخص تر پلاگین در تنظیم.
پروتکل فایل تنظیم خزنده دایرکتوری پدر و مادر.
اتمام مهلت برای تجزیه کننده.
وب سایت هنوز هم Lucene مارک.
فاصله سعی مجدد در تاریخ خزیدن به 0 تنظیم کنید.

جدید در نسخه 1.0 است:

به اجازه تجزیه کننده به بازگشت اشیاء پارسه چند.
کار برکنار حذف عوام-ورود به سیستم شیشه از پلاگین هستی شناسی.
اشکال در SegmentReader باعث حلقه بی نهایت.
گل فیلتر باید نمره در یک بار توزیع به تمام بیرونی.
کاهش تعداد هشدارهای در هسته nutch.

نرم افزار های مشابه

Fuzzysearch
Fuzzysearch

12 Apr 15

Bobo
Bobo

13 May 15

sitemap.js
sitemap.js

10 Feb 16

Searchjoy
Searchjoy

13 Apr 15

نرم افزار های دیگر از توسعه دهنده Apache Software Foundation

Apache Tika
Apache Tika

20 Jul 15

Apache Commons CLI
Apache Commons CLI

20 Jul 15

Apache ActiveMQ
Apache ActiveMQ

13 May 16

نظرات به Apache Nutch

نظر یافت نشد
اضافه کردن نظر
روشن کردن تصاویر!
جستجو بر اساس طبقه بندی