Xapian and Omega

نرم افزار تصویر:
Xapian and Omega
جزئیات نرم افزار:
نسخه: 1.2.12 / 1.3.0
ها تاریخ: 20 Feb 15
توسعه دهنده: Xapian Team
پروانه: رایگان
محبوبیت: 3

Rating: nan/5 (Total Votes: 0)

در Xapian کتابخانه متن باز اطلاعات احتمالاتی بازیابی، تحت GPL منتشر شده است. ISS Xapian نوشته شده در C، با اتصالات اجازه می دهد تا استفاده از زبان های دیگر (پرل، جاوا، پایتون، پی اچ پی، و TCL در حال حاضر پشتیبانی، مکر و C # هستند که در کار).
Xapian طراحی شده است که ابزار بسیار سازگار اجازه می دهد تا توسعه دهندگان به راحتی نمایه سازی و جستجوی امکانات پیشرفته به برنامه های کاربردی خود را اضافه کنید.
اگر شما بعد از یک موتور جستجو بسته بندی برای وب سایت خود را، شما باید نگاهی به امگا، که یک برنامه ما عرضه بر Xapian ساخته شده را. اما بر خلاف بسیاری از دیگر راه حل های جستجوی وب سایت، تطبیق پذیری Xapian اجازه می دهد تا شما را به گسترش امگا برای رفع نیازهای خود را به عنوان آنها رشد می کنند

ویژگی ها:

نرم افزار رایگان / متن باز - و تحت لیسانس GPL.
بسیار قابل حمل - قابل اجرا بر روی بسیاری از لینوکس، MacOS اکس، بسیاری از سیستم عامل یونیکس دیگر، و مایکروسافت ویندوز.
نوشته شده در C. اتصالات پرل موجود در ماژول جستجو :: Xapian در CPAN هستند. اتصالات جاوا JNI در ماژول xapian-اتصالات گنجانده شده است. ما همچنین جرعه طولانی نوشیدن که می تواند اتصالات برای 13 زبان حمایت. در حال حاضر کسانی که برای پایتون، PHP4 و TCL در حال کار. مکر و C # هستند که در کار می کرد.
جستجو احتمالات در رتبه - مهم کلمات دریافت وزن بیش از کلمات بی اهمیت، به طوری که اسناد مربوطه را دارند احتمال بیشتری برای نزدیکی بالای لیست نتایج آمده است.
بازخورد ربط - با توجه به یک یا چند سند، Xapian می توانید نظر شاخص مناسب ترین پیشنهاد به گسترش پرس و جو، نشان می دهد اسناد مربوط، دسته بندی اسناد، و غیره
عبارت و نزدیکی جستجو - کاربران می توانند برای کلمات رخ در عبارت دقیق یا در تعداد مشخصی از کلمات جستجو شده، یا در یک جهت مشخص شده، و یا در هر سفارش.
طیف گسترده ای از ساختار اپراتورهای جستجوی بولی (& quot؛ را سهام نه بازار & quot؛ باشد و غیره). نتایج جستجوی بولی توسط وزن احتمالات قرار گرفت. فیلتر بولی همچنین می توانید برای محدود کردن یک جستجو احتمالاتی استفاده شود.
پشتیبانی ناشی از عبارات جستجو (به عنوان مثال جستجو برای & quot؛ را فوتبال & quot؛ را توپ فوتبال & quot؛ را؛ یا & quot؛ فوتبالیست ها & quot؛ می اسنادی که ذکر و & quot مطابقت). این کمک می کند تا برای پیدا کردن اسناد مربوطه که ممکن است در غیر این صورت از دست رفته. Stemmers در حال حاضر برای دانمارکی، هلندی، انگلیسی، فنلاندی، فرانسوی، آلمانی، ایتالیایی، نروژی، پرتغالی، روسی، اسپانیایی، سوئدی و گنجانده شده است.
پشتیبانی از فایل های پایگاه داده ها & gt؛ 2GB - برای پوسته پوسته شدن به مجموعه سند بزرگ ضروری است.
پلت فرم فرمت داده مستقل - شما می توانید یک پایگاه داده در یک دستگاه ساخت و جستجو آن را در دیگری.
اجازه می دهد تا به روز رسانی به طور همزمان و جستجوی. اسناد جدید حق دور جستجو تبدیل شده است.
همانطور که به خوبی به عنوان کتابخانه، ما عرضه تعدادی از برنامه های کوچک به عنوان مثال، و یک برنامه بزرگتر - نمایه سازی و کاربرد به نام امگا مبتنی بر CGI:
نمایه ساز عرضه شاخص می HTML، PHP، PDF، پستاسکریپت، و متن ساده. اضافه کردن پشتیبانی برای نمایه سازی فرمت های دیگر آسان است که در آن فیلتر تبدیل در دسترس هستند (به عنوان مثال مایکروسافت ورد). این نمایه ساز با این نسخهها کار با استفاده از سیستم بایگانی، اما ما نیز یک اسکریپت اجازه می دهد تا htdig خزنده وب به در قلاب، اجازه می دهد سایت های از راه دور با استفاده از امگا جستجو شود فراهم می کند.
شما همچنین می توانید داده های شاخص از هر SQL و یا دیگر RDBMS توسط ماژول پرل DBI پشتیبانی می کند. که شامل خروجی زیر، PostgreSQL، SQLite است، SYBASE، MS SQL، LDAP، و ODBC.
جستجو CGI جلویی عرضه با ظاهر بسیار قابل تنظیم. این نیز می تواند به نتایج خروجی در XML و یا CSV، مفید است که اگر شما در حال صورت پویا تولید صفحات سفارشی (به عنوان مثال با پی اچ پی و mod_perl) و فقط می خواهم نتایج جستجو خام که شما می توانید در خود کد طرح بندی صفحه خود روند.

چه جدید در این نسخه است:

در این نسخه به رفع برخی از اشکالات جزئی و می افزاید: چند ویژگی جدید است.

جدید در نسخه 1.2.4 است:

در این نسخه می افزاید API برای ادغام و فشرده پایگاه داده، باعث می شود بهبود بسیاری از به امگا، شامل مبتنی بر جرعه طولانی نوشیدن مقادیر پرل جدید و رفع برخی از حافظه نشت در اتصالات پایتون.

جدید در نسخه 1.0.22 است:

در این نسخه به رفع چندین باگ های جزئی، و بهبود قابل حمل.

چه در نسخه 1.0.21 جدید است:

در Xapian هسته API:
Xapian :: بنیادی در حال حاضر به رسمیت می شناسد و & quot؛ توجه & quot؛ را و & quot؛ NN ها & quot؛ کدهای عنوان اضافی برای ریشه نروژی.
Xapian :: QueryParser در حال حاضر به درستی مدت wildcarded در بین دو دوره دیگر (بلیط # 484) تجزیه.
تطبیق:
OP_OR می تواند یک سند تطبیق جست و خیز اگر آن را فاسد به OP_AND یا OP_AND_MAYBE در طول مسابقه در برخی موارد. بلیط رفع # 476.
OP_XOR با subquery ها غیر برگ می تواند اسناد مطابق در برخی موارد، جست و خیز و OP_XOR از سه یا بیشتر زیر نمایش داده شد می تواند وزن نادرست باز می گردد. بلیط رفع # 475.
OP_OR در حال حاضر کارآمد تر اگر یک زیر پرس و جو است به طور بالقوه گران قیمت (به عنوان مثال OP_VALUE_RANGE، OP_NEAR، OP_PHRASE، PostingSource). 10 برابر سرعت با OP_VALUE_RANGE مشاهده شده است.
ساخت سیستم:
نصب فایل های به Xapian آسان تر به استفاده از با cmake.
حمل:
در پردازنده های x86، Xapian در حال حاضر به صورت پیش فرض به استفاده از دستورالعمل SSE2 FP. با این روش مسائل با دقت بیش از حد و آن را کمی سریع تر بیش از حد. اگر شما نیاز به حمایت از پردازنده های بدون SSE2 (این بدان معنی است قبل از Pentium4 برای اینتل) و سپس با --disable-SSE پیکربندی کنید. (بلیط # 387)

چه در نسخه 1.0.18 جدید است:

در QueryParser:
بهبود پشتیبانی از زبان های مانند برمه که استفاده از یونیکد گذاشتن علامت و ترکیب فاصله کاراکتر علامت.
سنگ چخماق باطن:
هنگامی که به روز رسانی اسناد، آیا به روز رسانی نمی ارسال مطالب که تغییر کرده است نه (بلیط # 250).
رفع کد قفل به کار اگر STDIN و / یا STDOUT بسته شده اند.

چه در نسخه 1.0.13 جدید است:

به API:
Xapian :: سند دیگر تا کنون ذخیره مقادیر خالی به صراحت. این بود رفتار عمدی نیست، و چگونه این مورد به کار گرفته شد مستند نشده است. رفتار اصلاح سازگار با ابرداده کاربر به کار گرفته شده است. این تغییر است نه قابل مشاهده با استفاده از سند :: get_value ()، اما می تواند زمانی که تکرار با سند :: values_begin (متوجه)، با استفاده از سند :: values_count ()، و یا تلاش ارزش با سند :: remove_value () را حذف کنید.
testsuite:
رفع testcase scaleweight4 به شکست در x86 هنگامی که با -O0 وارد نیست. مشکل در کد testcase بود، و با دقت بیش از حد در ارزش FP متوسط ​​باعث شد.
Testcases که بررسی کنید که عملیات را به انتظار O (...) مدت زمان wallclock رفتار هیچ بررسی زمان CPU به جای بر روی اکثر سیستم عامل، که باید شکست های گاه به گاه به علت بار سنبله از فرآیندهای دیگر از بین بردن.
(بلیط # 308)
رفع خرابی آزمون با توجه به SKIP_TEST_FOR_BACKEND (& quot؛ را inmemory ها & quot؛) پرش نیست که آن را باید به مقایسه رشته کاراکتر با == توجه (در تنه مقدار بازگشتی در حال آزمایش std :: string استفاده به جای ثابت کاراکتر * است).
بهبود پوشش آزمون در چند مورد گوشه.
رفع testcase consistency2 به واقع اجرا می شود (خوشبختانه از آن عبور).
در testcases تولید، get_description () در پیش فرض ساخته شی از هر کلاس می خواهیم تا مطمئن شوید که کار می کند (و به NULL ارجاع امتحان کنید، و یا شکست برخی ادعا، و غیره). همه طبقات در حال حاضر بررسی خوب است - این است که برای جلوگیری از رگرسیون آینده و یا مشکلاتی از این قبیل با کلاس های جدید.
در آزمون ساخت پوشش، از & quot؛ - پوشش ها & quot؛ به جای & quot؛ را -fprofile-کمان -ftest پوشش و quot؛ کلیک کنید
مهار آزمون در حال حاضر باطن inmemory (بیش از کلید های ابرداده جدا از تکرار) پرچم به عنوان حمایت از ابرداده کاربر مشخص.
تطبیق:
اگر یک پرس و جو شامل یک زیر پرس و جو MatchAll، برای آن را بررسی قبل از چک کردن شرایط دیگر به طوری که حلقه که چک که چگونه بسیاری از شرایط مسابقه می تواند اوایل اگر آنها همه بازی خارج شوید.
هنگامی که یک یا یا ANY_MAYBE پوسیده به و، ما با دقت مبادله شد کودکان برای بهره وری حداکثر، اما شرایط عوض شد تا ما در واقع اوضاع بدتر شد. این متوجه شد چرا که آن را در پرس و جو همان نتیجه گرفت در حال اجرا سریع تر زمانی که نتایج بیشتر برای خواسته شد!
به جای تنها ساخت termname به termfreq و نقشه وزن برای subdatabase اول بازسازی آن را برای هر یک. همچنین این نقشه به آن بازگشت کپی نیست. این باید سرعت بخشیدن به جستجو کمی، به ویژه کسانی که بیش از پایگاه داده های متعدد.
اگر submatcher نتواند اما ErrorHandler به ما می گوید به ادامه بدون آن، ما فقط استفاده از یک اشاره گر NULL را به ایستادگی در جای تخصیص ساختگی شی محل دارنده ویژه.
حذف AndPostList، به نفع MultiAndPostList. AndPostList تنها به عنوان یک محصول فروپاشی (توسط AndMaybePostList و OrPostList) مورد استفاده قرار گرفت، و به نظر نمی رسد به هر سریعتر. از بین بردن آن را کاهش می دهد فشار کش CPU، و کد کمتر به حفظ است.
چک تماس () به جای skip_to () بر روی شاخه اختیاری از AND_MAYBE.
سنگ چخماق باطن:
رفع اشکال در TermIterator :: skip_to () بیش از کلید های ابرداده.
باطن از راه دور:
رفع گزینه --interface xapian-tcpsrv به کار بر روی MacOS اکس (بلیط # 373).
رفع تایپی که باعث ما برای بازگشت به docid به جای حداکثر وزن یک سند از یک مسابقه از راه دور می تواند بازگشت! این می تواند به نتایج اشتباه در هنگام جستجو پایگاه داده های متعدد با باطن از راه دور منجر شد، اما احتمالا معمولا مهم نبود به عنوان با BM25 وزن به طور کلی کوچک هستند (اغلب همه & # x3c؛ 1) در حالی که docids هستند به ناچار & # x3e. = 1 .
باطن inmemory:
باطن inmemory پشتیبانی نمی کند شمارش کلید فراداده. تلاش برای انجام این کار استفاده می شود را به تکرار خالی است، اما در حال حاضر ثابت شده است به پرتاب
UnimplementedError (و این محدودیت در حال حاضر مشخص شده است).
سیستم ساخت:
حذف بسیاری از اجزاء هدر استفاده نشده و برخی از کد استفاده نشده است که باید ساخت سریع تر و کمی کوچکتر را.
رفع تحت --disable-باطن-سنگ چخماق، --disable-باطن-از راه دور، و --disable-باطن-inmemory کامپایل.
آیا منابع ساخته شده در & quot را حذف کنید؛ را quot تمیز و. حتی در --make-نگهدارنده حالت که می شکند تعویض یک درخت به دور از نگهدارنده حالت با: را distclean. ./ پیکربندی
پیکربندی: فعال کردن اخطارهای بیشتر شورای همکاری خلیج فارس - & quot؛ را -Woverloaded مجازی & quot؛ را برای تمام نسخه های، & quot؛ را -Wstrict-صفر-نگهبان و & quot؛ برای 4.0+، & quot؛ را -Wlogical-OP -Wmissing-اعلامیه ها & quot؛ برای 4.3+. قابل توجه & quot؛ را -Wmissing-اعلامیه ها & quot؛ گرفتار که consistency2 شد در حال اجرا نیست.
داخل، رفع چند مکان هایی که عبور ما std :: string استفاده توسط ارزش به تصویب توسط مرجع ثابت به جای (به جز که در آن ما نیاز به یک نسخه اصلاح به هر حال) به عنوان معیار نشان می دهد که مرجع ثابت است کمی سریعتر و تولید کد کمتر با مرجع شمارش STD شورای همکاری خلیج فارس: : اجرای رشته - با اجرای غیر مرجع شمارش، مرجع ثابت باید بسیار سریعتر خواهد بود. (بلیط # 140)
اسناد و مدارک:
نصب: ما به طور منظم دیگر آزمایش ساخت با شورای همکاری خلیج فارس 2.95.4 و ما در حال افزایش حداقل نسخه شورای همکاری خلیج فارس برای 1.1.x. Xapian مورد نیاز برای 3.1
سند چه گذشت maxitems = 0 به ENQUIRE :: get_mset () می کند.
اسناد / queryparser.html: اضافه کردن نمونه هایی از استفاده از یک پیشوند در یک عبارت یا subexpression.
نظرات داکسیجن صحیح برای توابع ابرداده کاربر: پایگاه :: get_metadata () پرتاب UnimplementedError اما WritableDatabase :: set_metadata () می تواند.
سندی که پایگاه داده :: metadata_keys_begin () تکرار پایان می گرداند اگر باطن کند ابرداده را پشتیبانی نمی کند.
هک: به روز رسانی لیست بسته های دبیان / اوبونتو مورد نیاز برای یک محیط توسعه.
کد اشکال زدایی:
ثابت ساخت با --enable-اشکال زدایی.
افزود: برخی از اظهارات تر.

جدید در نسخه 1.0.11 است:

در این نسخه رفع چندین باگ و می افزاید: حمایت از امگا برای نمایه سازی MS آفیس 2007 فرمت و فایل های XPS.

جدید در نسخه 1.0.10 است:

در این نسخه رفع یک مورد ممکن است از فساد پایگاه داده اگر دیسک را پر می کند تا در حالی که نوشتن تغییرات.
lockfile برای یک پایگاه داده چخماق در حال حاضر با استفاده از تنظیمات umask ایجاد شده است.
پیش از این، آن را نمی ممکن است برای باز کردن یک پایگاه داده چخماق برای به روز رسانی اگر آن را توسط کاربر دیگری متعلق بود، حتی با مجوز کافی از طریق quot &؛ گروه & quot؛ را یا & quot؛ دیگر و quot؛ کلیک کنید
آهنگسازی پرس و جو OP_NEAR با دو subquery ها غیر مدت در حال حاضر می اندازد UnimplementedError به جای AssertionError.

جدید در نسخه 1.0.9 است:

در تصحیح املا در حال حاضر حتی سریع تر. (15٪ سرعت اندازه گیری شد.)
دو اشکالات ناشی از دقت بیش از حد در معماری x86 در لینوکس اند ثابت شده است.
پرس و جو :: MatchAll در حال حاضر می دهد وزن مساوی به همه اسناد.
تصادف در حالی که فشرده جدول املایی برطرف شده است.
به عنوان مثال copydatabase در حال حاضر نسخه ابرداده کاربر بیش از حد.
باینری CGI امگا در حال حاضر جلب و گزارش STD :: استثناء است.

نظرات به Xapian and Omega

نظر یافت نشد
اضافه کردن نظر
روشن کردن تصاویر!