Apache Lucene

نرم افزار تصویر:
Apache Lucene
جزئیات نرم افزار:
نسخه: 5.3.1 / 4.10.4 / 3.6.2 به روز شده
ها تاریخ: 10 Dec 15
توسعه دهنده: Apache Software Foundation
پروانه: رایگان
محبوبیت: 875

Rating: nan/5 (Total Votes: 0)

از آپاچی Lucene است مناسب برای هر برنامه ای که نیاز به پشتیبانی برای جستجوی متن کامل است، در حالی که همچنین نگه داشتن مصرف منابع سرور و تولید نتایج سریع و با دقت بالا.

در Lucene به طور گسترده ای به عنوان یکی از بهترین موتورهای جستجو اطراف در نظر گرفته، که در هسته اصلی بسیاری از ابزارهای دیگر جستجو، بودن معروف ترین و آپاچی Solr است .

در Lucene به طور کامل در جاوا و از زمانی که توسط بنیاد آپاچی منتشر نوشته شده است، از آن شده است به بسیاری از زبان های دیگر منتقل شده و اتصالات و فراغ های مختلف وجود داشته باشد به عنوان شخص ثالث نرم افزار توسعه یافته است.

چه جدید در این نسخه است:

  • همه فایل دسترسی در حال حاضر استفاده از API های جاوا NIO.2 که به Lucene ایمنی شاخص قوی تر در شرایط دست زدن خطا بهتر و تصدیق امن تر است.
  • در هر بخش Lucene حال حاضر فروشگاه ID منحصر به فرد در هر بخش و در هر متعهد به کمک به تکثیر دقیق از فایل های شاخص.
  • در
  • در طی ادغام، IndexWriter در حال حاضر همیشه چک های دریافتی را برای بخش های فساد قبل از ادغام. این می تواند به معنای، در ارتقاء به 5.0.0، که ادغام ممکن است کشف طولانی مدت فساد نهفته در شاخص های 4.x قدیمی تر است.

چه است جدید در نسخه 5.2.1 / 4.10.4 / 3.6.2:

  • همه فایل دسترسی در حال حاضر استفاده از API های جاوا NIO.2 که به Lucene ایمنی شاخص قوی تر از نظر خطا بهتر و متعهد امن تر است.
  • در هر بخش Lucene حال حاضر فروشگاه ID منحصر به فرد در هر بخش و در هر متعهد به کمک به تکثیر دقیق از فایل های شاخص.
  • در
  • در طی ادغام، IndexWriter در حال حاضر همیشه چک های دریافتی را برای بخش های فساد قبل از ادغام. این می تواند به معنای، در ارتقاء به 5.0.0، که ادغام ممکن است کشف طولانی مدت فساد نهفته در شاخص های 4.x قدیمی تر است.

چه است جدید در نسخه 5.1.0 / 4.10.4 / 3.6.2:

  • همه فایل دسترسی در حال حاضر استفاده از API های جاوا NIO.2 که به Lucene ایمنی شاخص قوی تر از نظر خطا بهتر و متعهد امن تر است.
  • در هر بخش Lucene حال حاضر فروشگاه ID منحصر به فرد در هر بخش و در هر متعهد به کمک به تکثیر دقیق از فایل های شاخص.
  • در
  • در طی ادغام، IndexWriter در حال حاضر همیشه چک های دریافتی را برای بخش های فساد قبل از ادغام. این می تواند به معنای، در ارتقاء به 5.0.0، که ادغام ممکن است کشف طولانی مدت فساد نهفته در شاخص های 4.x قدیمی تر است.

چه است جدید در نسخه 5.0.0 / 4.10.3 / 3.6.2:

  • در شرایط جدید روش .getMin / حداکثر برای بازیابی پایین ترین و بالاترین شرایط در هر زمینه.
  • در
  • جدید IDVersionPostingsFormat، بهینه سازی شده برای متغیر ID که مرتبط نسخه یکنواخت افزایش در هر ID.
  • در
  • از به روز رسانی اتمی از مجموعه ای از توضیحات ارزش زمینه.
  • در
  • در بهینه سازی های متعدد برای عملکرد ارزش DOC جستجو در زمان.
  • در
  • جدید (پیش فرض) Lucene49NormsFormat بهتر فشرده سازی بعضی از موارد از جمله رشته های بسیار کوتاه است.
  • از نوع جدید SORTED_NUMERIC docvalues ​​برای پردازش کارآمد از زمینه های چند ارزش عددی است.
  • از شاخص عبور جریان رمز قبلی برای استفاده مجدد آسان تر است.
  • MoreLikeThis چندین مقدار را می پذیرد در این زمینه است.
  • در تمام کلاس هایی که برآورد استفاده از RAM خود در حال حاضر یک رابط پاسخگو جدید پیاده سازی.
  • در فایل های Lucene در حال حاضر توسط (فایل) OutputStream نوشته شده بر روی تمام سیستم عامل، به طور کامل رد به دنبال با API های IO ساده است.
  • در بهبود پیغام خطا گیج کننده باشد که MMapDirectory می توانید یک نقشه جدید ایجاد کنید.

چه در نسخه 4.8.0 است جدید :

  • در Lucene است یک API جدید Rescorer / QueryRescorer به انجام rescoring دوم پاس یا reranking از نتایج جستجو با استفاده از توابع به ثمر رساند گران تر پس از جمع آوری گذر اول ضربه.
  • AnalyzingInfixSuggester در حال حاضر پشتیبانی نزدیک به زمان واقعی autosuggest.
  • در
  • از ساده ارسال ها طبقه بندی شده اند تاثیر (با استفاده از SortingMergePolicy و EarlyTerminatingCollector) به استفاده از کلاس مرتب سازی بر Lucene برای بیان منظور مرتب کردن بر اساس.
  • در
  • از به ثمر رساند فله و نمره دهی مبتنی بر تکرار عادی، از هم جدا شدند به طوری که برخی نمایش داده شد می توانید به ثمر رساند فله به طور موثر تر انجام دهد.
  • از تغییر به MurmurHash3 به هش شرایط در طول نمایه سازی.
  • IndexWriter در حال حاضر پشتیبانی به روز رسانی از باینری زمینه ارزش DOC.
  • در
  • در حال حاضر با استفاده HunspellStemFilter 10 تا 100X RAM کمتر است. همچنین بارهای تمام لغت نامه شناخته شده آفیس اپن سورس بدون خطا.
  • Lucene در حال حاضر نیز fsyncs ابرداده دایرکتوری در تصدیق، اگر سیستم عامل و فایل سیستم آن (لینوکس، MacOSX برای شناخته شده به کار) اجازه می دهد.
  • در
  • در حال حاضر با استفاده Lucene جاوا 7 توابع فایل سیستم در زیر هود، بنابراین فایل های شاخص را می توان در ویندوز حذف شده، حتی زمانی که خوانندگان هنوز باز است.
  • در اشکال جدی در NativeFSLockFactory، ثابت شد که می تواند اجازه می دهد IndexWriters چند برای به دست آوردن قفل است. فایل قفل دیگر از دایرکتوری شاخص حتی زمانی که قفل برگزار نمی حذف شده است.

چه در نسخه 4.7.0 است جدید :

  • از هنگامی که مرتب سازی بر اساس رشته (SortField.STRING)، شما هم اکنون می توانید مشخص کنید که آیا ارزش از دست رفته باید اول (پیش فرض)، و یا آخرین طبقه بندی شده اند.
  • در
  • پشتیبانی NRT برای فایل سیستم هایی که لازم نیست حذف در آخرین نزدیک یا نه می توانید در حالی که معانی اشاره حذف کنید.
  • از او LongBitSet برای مدیریت بیش از 2.1B بیت (در غیر این صورت استفاده از FixedBitSet).
  • از او تجزیه و تحلیل برای کردی.
  • در
  • اضافه شدن پشتیبانی از بار مفید به FileDictionary (پیشنهاد) و آن را قابل تنظیم است.
  • اضافه شدن یک BlendedInfixSuggester جدید است که مانند AnalyzingInfixSuggester اما توصیه هایی که نشانه با موقعیت پایین همسان افزایش می دهد.
  • از او SimpleQueryParser: تجزیه کننده برای نمایش داده شد انسان وارد کنید
  • از او multitermquery (نویسه عام، پیشوند، و غیره) به PostingsHighlighter.
  • در

چه است جدید در نسخه 4.6.0:

  • اضافه شدن پشتیبانی برای به روز رسانی درست NumericDocValues ​​(بدون تحقیق نمایه سازی سند) از طریق IndexWriter.updateNumericDocValue (مدت، رشته، طولانی).

  • دم بلند و & quot؛
  • جدید FreeTextSuggester می توانید از کلمه بعدی با استفاده از یک مدل زبانی ساده ngram برای & quot مفید پیش بینی؛ پیشنهادات.
  • ماژول عبارت جدید اجازه می دهد تا برای سفارشی رتبه بندی با نحو مانند اسکریپت.
  • A DirectDocValuesFormat جدید می تواند همه مقادیر توضیحات در پشته به عنوان آرایه جاوا غیر فشرده نگه دارید.
  • Term.hasFreqs هم اکنون می توانید تعیین اینکه آیا یک رشته نمایه در-DOC
  • در فرکانس های مدت است.

چه است جدید در نسخه 4.5.0:

  • جدید در حافظه پیاده سازی DocIdSet که به ویژه بهتر از FixedBitSet در مجموعه های کوچک: WAH8DocIdSet، PFORDeltaDocIdSet و EliasFanoDocIdSet
  • CachingWrapperFilter اکنون کاشه (cach) فیلتر با WAH8DocIdSet به طور پیش فرض، که استفاده از حافظه همان FixedBitSet در بدترین حالت اما کوچکتر و سریعتر در مجموعه های کوچک است.
  • در حال حاضر مجموعه TokenStreams افزایش موقعیت در پایان ()، بنابراین ما می تواند اداره کند انتهایی چاله ها.
  • IndexWriter دیگر ازدیاد می گردد IndexWriterConfig داده شده است.
  • در رفع اشکالات مختلف و بهینه سازی از انتشار 4.4.
  • در

چه است جدید در نسخه 4.4.0:

  • ماژول های جدید دو replicator: تکرار تجدید نظر شاخص بین سرور و مشتری.
  • جدید AnalyzingInfixSuggester: پیشنهادات بر اساس مسابقات به هر نشانه در این پیشنهاد را پیدا می کند، نه فقط در تطبیق پیشوند خالص بر اساس
  • جدید PatternCaptureGroupTokenFilter: نشانه های متعدد منتشر می کنند، یکی برای هر گروه ضبط در یک یا چند regex ها جاوا
  • ماژول های جدید Lucene سربدار بولد.
  • در

چه است جدید در نسخه 4.3.0:

  • جدید SearcherTaxonomyManager مدیریت نزدیک به زمان واقعی بازگشایی از هر دو IndexSearcher و TaxonomyReader (برای فکتینگ).
  • اضافه شده به روش جنبه جدید به ماژول جنبه به جنبه محاسبه شمارش با استفاده SortedSetDocValuesField، بدون شاخص طبقه بندی جداگانه.
  • از بهبود قابل توجه عملکرد را برای minShouldMatch BooleanQuery با توجه به پرش و در نتیجه نمایش داده شد تا 4000٪ سریعتر است.
  • در رفع اشکالات مختلف و بهینه سازی از 4.2.1 را آزاد کند.

چه است جدید در نسخه 4.1.0:

  • در Lucene دیگر به دنبال در هنگام نوشتن فایل های (همه زمینه ها در راه فقط الحاق نوشته شده است). این به این معنی آن را به طور پیش فرض با الحاق-تنها جریان، HDFS، و غیره.
  • به کار می کند
  • جدید نشان می دهد پیاده سازی: AnalyzingSuggester، که در آن فرم زیرین (محاسبه از lucene تجزیه و تحلیل) مورد استفاده برای پیشنهادات جدا از متن بازگشت و FuzzySuggester، که علاوه بر اجازه می دهد تا برای تطبیق نادرست در ورودی دارد
  • .
  • پشتیبانی نزدیک بیدرنگ به ماژول جنبه افزوده شد.
  • جدید هایلایت (postingshighlighter) به ماژول هایلایت اضافه شده است.
  • از او FilterStrategy به FilteredQuery برای انعطاف پذیری بیشتر در اجرای پرس و جو فیلتر شده است.
  • از او CommonTermsQuery برای سرعت بخشیدن به نمایش داده شد با شرایط بسیار بسیار مکرر. فرکانس مدت موثر در زمان جستجو، شناسایی - هیچ وقت شاخص آماده سازی مورد نیاز
  • در چند رفع اشکالات و بهینه سازی از نسخه 4.0.
  • در

چه در نسخه 4.0 آلفا است جدید :

  • از فرمت های شاخص برای شرایط، ارسال مطلب لیست ها، ذخیره می شود زمینه ها، مدت
  • در بردار، و غیره نردبان از طریق API کدک می باشد. شما می توانید از پیاده سازی های ارائه شده انتخاب کنید و یا سفارشی کردن فرمت شاخص در ارتباط با کدک های خود را برای رفع نیازهای خود.
  • در
  • از عملکرد قابل ملاحظه ای سریع در هنگام استفاده از یک فیلتر در طول جستجو.

  • دایرکتوری بر اساس
  • در فایل سیستم می توانید IO (MB / ثانیه) از موضوعات ادغام حد رای، به منظور کاهش مشاجره بین IO ادغام و جستجو موضوعات.
  • در
  • FuzzyQuery است 100-200 برابر سریع تر از نسخه های گذشته در.
  • در
  • در یک جستجوگر طلسم جدید، DirectSpellChecker، در می یابد که ممکن است اصلاحات
  • در طور مستقیم در برابر اصلی صفحه اول جستجو بدون نیاز به یک شاخص جداگانه.

چه در نسخه 3.6.0 است جدید :

  • در علاوه بر این به جاوا 5 و جاوا 6، این انتشار تا به پشتیبانی در حال حاضر پر جاوا 7 (حداقل 7u1 JDK مورد نیاز).
  • فیلتر TypeTokenFilter نشانه بر روی TypeAttribute خود را بر اساس.
  • در
  • از اشکالات جبران ثابت در تعدادی از CharFilters، نشانه گذارها و TokenFilters که می تواند به استثنا سرب در برجسته.
  • در
  • اضافه شدن نرم افزارهای تبدیل کننده آوایی: Metaphone، SOUNDEX، Caverphone، Beider-مورس، و غیره
  • را.
  • CJKBigramFilter و CJKWidthFilter جایگزین CJKTokenizer.
  • در
  • Kuromoji تجزیه و تحلیل مورفولوژیک tokenizes متن ژاپنی، تولید هر دو کلمات مرکب و تقسیم بندی می کنند.
  • از هرس شاخص استاتیک (هرس کرمل) حذف ارسال با فرکانس پایین در سند مدت است.
  • QueryParser اکنون تفسیر "*" به عنوان یک پایان باز برای استعلام محدوده.
  • در
  • FieldValueFilter مانع این اسناد و مدارک در زمینه مشخص شده است.
  • CheckIndex و IndexUpgrader به شما اجازه تعیین اجرای FSDirectory خاص برای استفاده با این گزینه -dir-impl خط فرمان جدید است.
  • FSTs هم اکنون می توانید این کار مراجعه معکوس (با خروجی) در موارد خاص است و می تواند بسته بندی شده به منظور کاهش اندازه آنها. در حال حاضر یک روش برای بازیابی TOP N کوتاه ترین مسیر از گره شروع در FST وجود دارد.
  • suggester جدید WFSTCompletionLookup از-ظریف دانه رتبه بندی برای پیشنهادات.
  • suggesters بر اساس FST حال حاضر آنلاین (مبتنی بر دیسک) مرتب سازی بر، به جای در حافظه مرتب کردن، استفاده از زمانی که پیش مرتب پیشنهادات.
  • ToChildBlockJoinQuery می پیوندد در جهت مخالف (پدر و مادر به کودک اسناد).
  • جدید پرس و جو در زمان پیوستن به نسبت به شاخص زمان می پیوندد بیشتر انعطاف پذیر (اما نه به سازگار).
  • از او HTMLStripCharFilter به نوار نشانه گذاری HTML.
  • در

چه در نسخه 3.5.0 است جدید :

  • اضافه شدن یک بسیار قابل توجهی (3-5X) RAM کاهش نیاز به نگه داشتن شاخص شرایط در باز کردن یک IndexReader.
  • در
  • از او IndexSearcher.searchAfter که برمی گرداند نتایج پس از یک ScoreDoc مشخص (برای مثال آخرین سند در صفحه قبل) برای حمایت از عمیق موارد استفاده از صفحه بندی.
  • در
  • از او SearcherManager به مدیریت به اشتراک گذاری و IndexSearchers بازگشایی در سراسر موضوعات جستجو های متعدد. موارد IndexReader زمینه ها با خیال راحت بسته اگر دیگر اشاره نمی کند.
  • از او SearcherLifetimeManager که با خیال راحت شکل هماهنگ از شاخص در سراسر درخواست های متعدد (برای مثال صفحه بندی / drilldown) فراهم می کند.
  • در
  • تغییر نام IndexWriter.optimize به forceMerge برای تضعیف استفاده از این روش از آن است که به طرز وحشیانه ای پر هزینه و به ندرت دیگر توجیه می شود.

چه است جدید در نسخه 3.3.0:

  • ماژول غلط گیر املا در حال حاضر شامل پیشنهاد / خودکار کامل قابلیت، با سه پیاده سازی: Jaspell، سه تایی TRIE، و دولت محدود
  • در پشتیبانی از ادغام نتایج از خرده ریز متعدد، برای هر دو & quot؛ را نرمال و & quot؛ نتایج جستجو (TopDocs.merge) و همچنین نتایج گروه بندی با استفاده از ماژول گروه بندی (SearchGroup.merge، TopGroups.merge).
  • در اجرای بهینه سازی شده از KStem، ریشه یابی کمتر تهاجمی برای زبان انگلیسی است.
  • تک پاس گروه بندی اجرای در نمایه سازی اسناد بلوک بر اساس.
  • در
  • از ارتقاء به MMapDirectory (در حال حاضر نیز پیاده سازی پیش فرض بازگردانده شده توسط FSDirectory.open بر روی 64 بیتی لینوکس).
  • NRTManager ساده دست زدن به نزدیک به زمان واقعی جستجو را با موضوعات جستجو های متعدد، اجازه می دهد برنامه کاربردی برای کنترل که تغییرات نمایه سازی باید قابل مشاهده باشد که درخواست جستجو.
  • در
  • TwoPhaseCommitTool تسهیل انجام چند منبع دو فاز مرتکب، از جمله IndexWriter.
  • در
  • در سیاست های پیش فرض ادغام، TieredMergePolicy است، یک روش جدید (مجموعه / getReclaimDeletesWeight) برای کنترل و چگونگی به شدت هدف قرار بخش با حذف، و در حال حاضر تهاجمی تر از قبل به طور پیش فرض.
  • در
  • ابزار PKIndexSplitter تجزیه شاخص یک ترم اواسط نقطه.
  • در

چه در نسخه 3.2.0 است جدید :

  • در یک ماژول گروه بندی جدید، تحت lucene / contrib را / گروه بندی، قادر می سازد نتایج جستجو به توسط یک میدان نمایه شده تک مقداری گروه بندی می شود.
  • در
  • ابزار جدید IndexUpgrader به طور کامل تبدیل یک شاخص قدیمی به فرمت جاری است.
  • در پیاده سازی دایرکتوری جدید، NRTCachingDirectory، انبارها بخش های کوچک در رم، به منظور کاهش بار I / O برای برنامه های کاربردی با سرعت NRT بازگشایی نرخ.
  • در
  • در پیاده سازی گردآورنده جدید، CachingCollector، قادر به جمع آوری بازدید جستجو (IDS سند و به صورت اختیاری نیز نمرات) و سپس آنها را پخش است. این برای جمع که نیاز به دو یا چند پاس به تولید نتایج مفید است.
  • در صفحه اول یک بلوک سند با استفاده از addDocuments یا updateDocuments جدید روش IndexWriter است. این API های آزمایشی اطمینان حاصل شود که بلوک از اسناد برای همیشه خواهد به هم پیوسته در صفحه اول باقی می ماند، قادر می سازد آینده جالب ویژگی های مانند گروه بندی و می پیوندد.
  • در سیاست به طور پیش فرض ادغام جدید، TieredMergePolicy، است که کارآمد تر است، زیرا قادر به ادغام بخش های غیر هم پیوسته.
  • در
  • NumericField حال حاضر به درستی زمانی که شما یک سند ذخیره شده بارگذاری بازگشت (که قبلا شما دریافت درست عادی برگشت، با مقدار عددی رشته تبدیل).

چه در نسخه 3.1.0 است جدید :

  • در ConstantScoreQuery اکنون اجازه می دهد تا به طور مستقیم پیچیدن یک QUERY
  • IndexWriter در حال حاضر با API جدید سازنده جداگانه، IndexWriterConfig پیکربندی شده است. شما هم اکنون می توانید قبلا حد ثابت موضوع داخلی IndexWriter را با تلفن زدن setMaxThreadStates را کنترل کنید.
  • IndexWriter.getReader است IndexReader.open (IndexWriter) جایگزین شده است. علاوه بر این شما هم اکنون می توانید مشخص کنید که آیا حذف باید حل و فصل هنگام باز کردن یک خواننده NRT.
  • در
  • MultiSearcher منسوخ شده است. ParallelMultiSearcher است به طور مستقیم به IndexSearcher جذب شده است.
  • روی ویندوز 64bit و سولاریس JVMs، MMapDirectory در حال حاضر پیاده سازی پیش فرض (بازگردانده شده توسط FSDirectory.open). MMapDirectory را قادر می سازد unmapping اگر JVM آن را پشتیبانی.
  • جدید TotalHitCountCollector فقط شمارش کل تعداد بازدیدها از.
  • در
  • ReaderFinishedListener API انبارهای خارجی را قادر می سازد به اخراج نوشته یک بار یک بخش به پایان رسید.

چه در نسخه 3.0.1 است جدید :

  • حذف هماهنگ سازی غیر ضروری در FuzzyTermEnum
  • از هنگامی که حل و فصل شرایط حذف شده، این کار را در مرتب کردن مدت برای عملکرد بهتر است.
  • از اشتباه نمی نگه دارید هشدار در مورد مدت بسیار زیاد همان، هنگامی که IndexWriter.infoStream است.
  • رفع حداقل / MaxPayloadFunction گرداند 0 زمانی که تنها یک بار موجود است.
  • از پرس و جو متشکل از تمام شروط صفر افزایش (برای مثال، متن: تولی ^ 0) به اشتباه طبقه بندی شده اند و docids نامعتبر تولید کنیم
  • .
  • حذف محافظت ScoreTerm کلاسهای درونی از FuzzyQuery. تغییر مورد نیاز بود به این دلیل که مقایسه این کلاس باید در راه ناسازگار تغییر کند. طبقه نظر گرفته شده بود هرگز به عموم مردم است.

چه است جدید در نسخه 2.9.2:

  • در BooleanQuery نادیده گرفتن disableCoord در hashCode و برابر روش ، باعث چیزهای بد اتفاق می افتد در هنگام ذخیره BooleanQueries.
  • در
  • از اشتباه نمی نگه دارید هشدار در مورد مدت بسیار زیاد همان، هنگامی که IndexWriter.infoStream است.
  • در نرخ نمایه سازی بالا، NRT خواننده به طور موقت تواند از دست دادن حذف.
  • در

چه در نسخه 3.0.0 است جدید :

  • از حذف املاک سیستم به مجموعه ای از اجرای کلاس SegmentReader.
  • در
  • تغییر نوع بازگشت از SnapshotDeletionPolicy # عکس فوری () از IndexCommitPoint به IndexCommit. کد که با استفاده از این روش نیاز به Lucene برابر 3.0 به منظور کار مجددا کامپایل شود. قبلا بد دانسته IndexCommitPoint نیز حذف خواهند شد.
  • ارائه AttributeFactory راحتی است که ایجاد یک نمونه Token برای تمام ویژگی های اساسی.
  • در
  • حذف بازگشتی در NumericRangeTermEnum.
  • در
  • در محاسبات بهینه سازی لوناشتاین فاصله در FuzzyQuery.
  • در

نرم افزار های مشابه

Apache Blur
Apache Blur

13 Apr 15

mysolr
mysolr

13 Apr 15

Spidr
Spidr

12 May 15

Zoie
Zoie

13 May 15

نرم افزار های دیگر از توسعه دهنده Apache Software Foundation

نظرات به Apache Lucene

نظر یافت نشد
اضافه کردن نظر
روشن کردن تصاویر!
جستجو بر اساس طبقه بندی