Apache Nutch

نرم افزار تصویر:
Apache Nutch
جزئیات نرم افزار:
نسخه: 2.3 به روز شده
ها تاریخ: 17 Jul 15
توسعه دهنده: Sami Siren
پروانه: رایگان
محبوبیت: 12

Rating: 1.0/5 (Total Votes: 2)

در پروژه Apache Nutch منبع باز، مقیاس پذیر، بسیار توسعه پذیر و نرم افزار رایگان خزنده وب مبتنی بر وب که بر اساس آپاچی Lucene (نسخه Java) کتابخانه است.
این می افزاید: جزئیات وب مانند یک خزنده، یک پایگاه داده لینک گراف، تجزیه کننده برای HTML و دیگر فرمت های سند، و غیره آن را توسعه داده و توزیع شده توسط بنیاد آپاچی، دو شاخه جداگانه.
بودن مدولار و نردبان، آپاچی Nutch تا به منافع خود، با ارائه رابط توسعه مانند پارسه، شاخص و ScoringFilter برای پیاده سازی سفارشی، مانند Apache تیکا برای تجزیه.
علاوه بر این، آپاچی Nutch طراحی شده برای اجرا در یک دستگاه واحد، اما آن را قدرتمند تر زمانی که در حال اجرا در یک خوشه از Hadoop. نمایه سازی نردبان برای الاستیک جستجو، آپاچی Solr، و غیره وجود دارد

چه در این نسخه جدید است:

در NUTCH-1779 درخواست قالب بندی به کد (lewismc)
NUTCH-1907 خروجی نادرست بیرونی به میزبان در HostDbUpdateReducer (lewismc)
NUTCH-1856 webpage.avsc سند و host.avsc (lewismc)
NUTCH-1834 رفتار GeneratorMapper بستگی به سطح ورود به سیستم (گرهارد گوسن از طریق snagel)
NUTCH-1899 معاونت restlet ارتقاء برای جلوگیری از عدم موفقیت در ساخت (طلعت)
NUTCH-1797 حذف oanhtml بسته استفاده نشده (Saurabh Chhajed طریق snagel)
NUTCH-1888 مشخص HTMLMapper برای استفاده در TikaParser (هلیل Simsek طریق jnioche)
NUTCH-1897 اشکال زدایی آسان تر از خطاهای پلاگین XML (مارکوس)
ارتقا NUTCH-1823 تا elasticsearch 1.4.1 (فو Kieu، مارکوس، lewismc)
NUTCH-1829 ژنراتور: قادر به تشخیص خطاهای واقعی (متیو بوچارد، jnioche، snagel)
NUTCH-1778 ژنراتور تعداد آدرس ثبت نشده در دسته ای به درستی (jnioche طریق snagel)
NUTCH-1877 URL پسوند فیلتر به چشم پوشی از رشته پرس و جو به طور پیش فرض (مارکوس از طریق snagel)
NUTCH-1825 پروتکل HTTP ممکن است برای برخی از صفحات وب قطع (فو Kieu طریق snagel)
NUTCH-1483 می تواند فایل سیستم با پلاگین پروتکل فایل خزیدن نیست (روگریو پریرا آرائوجو، Mengying وانگ، snagel)
NUTCH-1885-پروتکل فایل باید لینک های نمادین به عنوان تغییرمسیر درمان (Mengying وانگ، snagel)
NUTCH-1880 URLUtil باید اسلش اضافی برای URL فایل (snagel) اضافه کنید
NUTCH-1879 عبارت منظم URL عادی باید اسلش متعدد پس از حذف فایل: پروتکل (snagel)
NUTCH-1820 میدان حذف و & quot؛ یدلایمخیرات و & quot؛ که موارد تکراری و & quot؛ شناسه & quot؛ (lewismc، snagel)
NUTCH-1843 ارتقا به گورا 0.5 (طلعت، lewismc، به Kiril Menshikov، drazzib)
NUTCH-1883 بن / خزیدن: تابع استفاده کنید برای اجرای بن / nutch و بررسی ارزش خروجی (snagel)
NUTCH سال 1882 هدف تحت الشعاع قرار دادن مورچه به اضافه کردن مسیر خروجی به SRC / آزمون (snagel)
NUTCH-1827 بندر NUTCH-1467 و NUTCH-1561 به نسخه 2.x (snagel)
NUTCH-1876 ارتقا به خزنده عوام 0.5 (jnioche)
NUTCH-1866 هدف تحت الشعاع قرار دادن مورچه باید زمان اجرا را حذف کنید (nimafl طریق lewismc)
NUTCH-1859 را Nutch پورت برنامه کاربردی وب با قابلیت تنظیم (نیما فلکی از طریق lewismc)
اشکال NUTCH-1848 در DashboardPage.html موارد ضد (نیما فلکی از طریق lewismc)
NUTCH-841 درست مبتنی بر جدا برنامه تحت وب برای Nutch (Fjodor Vershinin طریق lewismc)
NUTCH-1832 کار Nutch بدون نمایه ساز (mattmann طریق lewismc)
NUTCH-1840 عملکرد توصیف در SolrIndexWriter درست نیست (minooie کاوه طریق jnioche)
NUTCH-1837 ارتقا به 1.6 تیکا (lewismc)
NUTCH-1829 ژنراتور: قادر به تشخیص خطاهای واقعی (متیو بوچارد طریق jnioche)
NUTCH-1828 بن / خزیدن: دست زدن به نادرست از خطاهای nutch (متیو بوچارد طریق jnioche)
NUTCH-1693 TextMD5Signature محاسبه در محتوای متنی (تین نگوین Manh، مارکوس از طریق snagel)
NUTCH-1409 خواص حذف بد دانسته دسی بل. {به طور پیش فرض، حداکثر} .fetch.interval، generate.max.per.host.by.ip (ماتیاس Agethle طریق snagel)
NUTCH-1819 batchId در GeneratorJob (Fjodor Vershinin طریق lewismc)
NUTCH-1708 استفاده از همان شناسه زمانی که نمایه سازی و تغییر مسیر حذف (snagel)
NUTCH-1817 pom.xml حذف از منبع (jnioche)
NUTCH-1811 بن / از JUnit nutch به استفاده از از JUnit 4 تست دونده (snagel)
NUTCH-1776 ورود plugin.folder نادرست مسیر فایل (ضیاء از طریق snagel)
NUTCH-1566 بن / nutch اجازه می دهد تا فضای خالی در مسیرهای (tejasp، snagel)
NUTCH-1605 آشکارساز نوع MIME پرونده XLSX به عنوان فایل های فشرده (snagel) به رسمیت می شناسد
NUTCH-385 بهبود شرح پیکربندی موضوع مربوط به آورنده (jnioche، lufeng)
NUTCH-1798 اسکریپت خزیدن خواستار فرمان index درست (آرون Bedward طریق jnioche)
NUTCH-1769، فاکتورگیری مجدد REST API (Fjodor Vershinin طریق lewismc)
slf4j NUTCH-1633 است Hadoop را ارائه می شود و باید در فایل کار شامل (minooie کاوه طریق jnioche) نیست
NUTCH-1787 به روز رسانی و توضیحات کامل API صفحه مرور کلی (snagel)
NUTCH-1767 حذف درمان خاص و & quot؛ پارامترهای & quot؛ را در لینک های نسبی (snagel)
NUTCH-1718 دوباره تعریف http.robots.agent به عنوان & quot؛ را نام عامل اضافی و & quot؛ (snagel، Tejas می پاتیل، دانیل کوگل)
NUTCH-1796 اطمینان حاصل سازندگان شی گورا استفاده می شود به عنوان مخالف به سازنده خالی (snagel طریق lewismc)
NUTCH-1590 [امنیت] آسیب پذیری تزریق قاب در Javadoc منتشر شده (jnioche)
NUTCH-1736 نمی تواند صفحه را واکشی نیست اگر هدر HTTP پاسخ شامل انتقال رمزگذاری: chunked (YSC طریق jnioche)
NUTCH-1782 NodeWalker به بازگشت گره فعلی (مارکوس)
NUTCH-1781 به روز رسانی گورا - * - mapping.xml و gora.proeprties به منعکس کننده گورا 0.4 (lewismc)
NUTCH-1768 ارتقا به 1.1.0 ElasticSearch (jnioche)
NUTCH-1634 readdb -آمار دو بار نشان می دهد نتیجه (کاوه طریق jnioche minooie)
ویژگی NUTCH-1780 TTL و gc_grace_seconds از فایل گورا-کاساندرا-mapping.xml از دست رفته (کاوه طریق lewismc minooie)
NUTCH-1676 اضافه کردن پشتیبانی از SSL ابتدایی به پروتکل HTTP (jnioche، مارکوس)
فیلتر NUTCH-1674 استفاده batchId به فعال کردن اسکن (گورا-119) برای واکشی، پارسه، به روز رسانی، صفحه اول (تین نگوین Manh و آلپ آوجی از طریق jnioche)
ارتقا NUTCH-1714 به گورا 0.4 (آلپ ارسلان آوجی از طریق jnioche)
NUTCH-1752 قوانین robots.txt را کش هر پروتکل: میزبان: پورت (snagel)
وقفه NUTCH-1613 در پروتکل از HttpClient هنگام خزش همان میزبان با & gt؛ به 2 موضوعات (brian44 طریق jnioche)
NUTCH-1182 آورنده به سیستم وارد شوید موضوعات آویزان (snagel)
NUTCH-1618 روشن کردن اجرای حدسی برای واکشی (طلعت)
ORIGINAL_CHAR_ENCODING و CHAR_ENCODING_FOR_CONVERSION هرگز در HTMLParser مجموعه NUTCH-1657 (طلعت)
کاهش NUTCH-1725 CleaningJob می کند، اسناد حذف شده مرتکب نشده است. (ilhamikalkan طریق طلعت)
NUTCH-1728 پلاگین نمایه ساز-Solr را از اسناد است Solr را حذف کنید (ilhamikalkan طریق طلعت)
NUTCH-1753 گرفتگی مشکل dependecy برای نسخه 2.x (طلعت)
NUTCH-1720 خطوط تکراری در HttpBase.java (والتر Tietze از طریق jnioche)
NUTCH-797 URL به درستی ساخته نیست که هدف لینک با یک & quot آغاز می شود؛؟ & quot؛ را (داگ کوک، رابرت Hohman، Stondet، AB از طریق snagel)
NUTCH-1759 ارتقا به خزنده عوام 0.4 (jnioche)
NUTCH-1700 کد حذف توصیه شده در SRC / پلاگین / creativecommons / فایل build.xml (lewismc)
NUTCH-1761 اسکریپت خزیدن نتواند برای پیدا کردن فایل کار اگر از داخل دیر بن آغاز شده است (دیوید Hosking، jnioche)
تجزیه کننده پستی NUTCH-1603 شکایت در مورد فایل PDF کوتاه (snagel طریق lewismc)
NUTCH-1743 parsechecker به نشان می دهد بیرونی (snagel)
NUTCH-1732 خط CMD بهتر تجزیه برای NutchServer (Fjodor Vershinin طریق lewismc)
مجریان خالی NUTCH-1751 باید شاخص نیست (Sertac TURKEL طریق lewismc)
NUTCH-1733-تجزیه HTML برای حمایت از تعاریف مجموعه کاراکتر HTML5 (snagel)
NUTCH-1727 طول قابل تنظیم برای TLD ها است (Sertac TURKEL طریق lewismc)
NUTCH-1738 در معرض تعداد آدرس تولید در هر دسته در GeneratorJob (طلعت UYARER طریق ewismc)
NUTCH-1671 indexchecker به اضافه کردن هضم درست (snagel، lufeng)
NUTCH-1645 از JUnit مورد آزمون برای واکشی تطبیقی ​​برنامه کلاس (یاسین Kilinc، lufeng، Sertac URKEL طریق snagel)
NUTCH-1478-پارسه ابر برچسب ها و پلاگین شاخص متاداده Nutch سری 2.x (کیران، نگوین آنه تین، طلعت UYARER، ونجلیس Karvounis طریق lewismc)
NUTCH-1729 ارتقا به 1.5 تیکا (jnioche)
NUTCH-1721 ارتقا به میکرو مشترک 0.3 (tejasp)
NUTCH-1719 DomainStatistics نتواند در نسخه 2.x به دلیل URL است unreversed نیست (گرهارد گوسن از طریق lewismc)
نسخه NUTCH-1253 Incompatable NEKO و از Xerces (snagel، lewismc، طلعت UYARER)
NUTCH-1715 RobotRulesParser می افزاید اضافی "*" به نام ربات (tejasp)
NUTCH-356 پلاگین کش مخزن می تواند به نشت حافظه منجر شود (انریکو Triolo در، Dogacan گونی طریق مارکوس)
NUTCH-1164 تست JUnit برای نوشتن پروتکل HTTP (Sertac TURKEL طریق tejasp)
NUTCH-1710 ورود به سیستم بسته افزودنی گورا به log4j.properties (lewismc)
NUTCH-1655 شاخص پلاگین برای الاستیک جستجو (طلعت UYARER طریق lewismc)
NUTCH-1699 تیکا تجزیه کننده - تصویر پارسه اشکال (محمد زاهد Yuzuguldu، snagel طریق lewismc)
NUTCH-1568 معماری پورت نمایه سازی pluggable به نسخه 2.x (طلعت UYARER طریق lewismc)
پیوندهای درونی NUTCH-1672 دو بار در DbUpdateReducer اضافه (تین نگوین Manh طریق lewismc)
NUTCH-1667 updatedb به همیشه چشم پوشی batchId (تین نگوین Manh طریق lewismc)
NUTCH-1695 NutchDocument.toString () (مارکوس از طریق lewismc)
NUTCH-1696 فعال کردن استفاده از (گورا) وابستگی عکس فوری (lewismc)
NUTCH-1681 در URLUtil.java، روش toUNICODE درستی کار نمی کند (A

نظرات به Apache Nutch

نظر یافت نشد
اضافه کردن نظر
روشن کردن تصاویر!