جزئیات نرم افزار:
در speedparser یک پیاده سازی مجدد جعبه سیاه از تجزیه کننده خوراک جهانی است. آن استفاده می کند lxml برای تجزیه خوراک و برای تمیز کردن HTML اختیاری و nbsp؛ سازگاری speedparser با feedparser بسیار خوبی برای یک زیر مجموعه از رشته، اما فقیر برای زمینه های خارج که زیر مجموعه است. آزمون / speedparsertests.py برای کسب اطلاعات بیشتر در زمینه های است که بیشتر یا کمتر سازگار و که نمی بینم.
در I5 اینتل Core 750، در حال اجرا فقط در یک هسته، feedparser 2.5 خوراک / ثانیه بر روی مجموعه ای خوراک آزمون موفق (تقریبا 4200 "تغذیه" در آزمون / feeds.tar.bz2)، در حالی که speedparser مدیریت حدود 65 فید / ثانیه با HTML تمیز کردن در و 200 فید / ثانیه با تمیز کردن خاموش
مورد نیاز:.
پایتون
lxml
نظر یافت نشد