در تکه تکه 100٪ در پایتون نوشته شده است و می تواند برای داده کاوی ساده استفاده، به نظارت بر صفحه، موتورهای جستجو وب و حتی برای تست کد.
Scrapy یک موتور جستجو در معنای واقعی کلمه نیست، اما آن را مانند یک عمل می کند (بدون بخش نمایه سازی). با این وجود Scrapy می تواند یک ابزار عالی برای ساخت منطق موتور جستجو خود را در.
قدرت واقعی این چارچوب متکی در همه کاره بودن هسته ی اصلی آن است، Scrapy یک سیستم که در آن به ساخت عنکبوت جستجو های عمومی یا اختصاصی (خزنده) در تاریخ.
در حالی که این صدا ممکن است به کاربران غیر فنی بسیار پیچیده، با یک نگاه سریع بر مستندات و آموزش های موجود، آن را بسیار ساده تا ببینید که چگونه Scrapy موفق شده است تا تمام سخت کار از این و کاهش کل فرآیند فقط چند خط از کد (برای ساده تر، خزنده کوچکتر)
چه در این نسخه جدید است:
در تمام کردن مسیر درخواست قبل از گذار به FTPClient، در حال حاضر مسیرهای فرار کنند.
شامل آزمون / به منبع توزیع در MANIFEST.in.
جدید در نسخه 1.0.1 است:
در مسیر درخواست را تمام کردن قبل از گذار به FTPClient، در حال حاضر مسیرهای فرار کنند.
شامل آزمون / به منبع توزیع در MANIFEST.in.
جدید در نسخه 0.24.6 است:
اضافه کردن UTF8 هدر پشتیبانی می کند به قالب
شبکه راه دور کنسول در حال حاضر به طور پیش فرض 127.0.0.1 متصل می شود توسط
به روز رسانی Debian / اوبونتو دستورالعمل نصب
غیر فعال کردن رشته های هوشمند در ارزیابی از XPath lxml
بازیابی کش بر اساس سیستم فایل به عنوان پیش فرض برای میان HTTP کش
افشای خزنده در حال حاضر در پوسته Scrapy
بهبود testsuite مقایسه CSV و صادر کنندگان XML
متشکرم جدید / فیلتر سایت و خارج سایت / آمار دامنه
process_links پشتیبانی به عنوان ژنراتور در CrawlSpider
جدید در نسخه 0.24.5 است:
اضافه کردن UTF8 هدر پشتیبانی می کند به قالب
شبکه راه دور کنسول در حال حاضر به طور پیش فرض 127.0.0.1 متصل می شود توسط
به روز رسانی Debian / اوبونتو دستورالعمل نصب
غیر فعال کردن رشته های هوشمند در ارزیابی از XPath lxml
بازیابی کش بر اساس سیستم فایل به عنوان پیش فرض برای میان HTTP کش
افشای خزنده در حال حاضر در پوسته Scrapy
بهبود testsuite مقایسه CSV و صادر کنندگان XML
متشکرم جدید / فیلتر سایت و خارج سایت / آمار دامنه
process_links پشتیبانی به عنوان ژنراتور در CrawlSpider
جدید در نسخه 0.22.0 است:
تغییر نام scrapy.spider.BaseSpider به scrapy.spider.Spider
ترویج اطلاعات هنگام راه اندازی در تنظیمات و middleware به سطح INFO
جزئی پشتیبانی در get_func_args برنامه زمانی
اجازه اجرای آزمون indiviual طریق TOX
افزودنی به روز نادیده گرفته شده توسط جسرس لینک
انتخابگرهای برای ثبت نام اینجا فضاهای نام EXSLT به طور پیش فرض
متحد کردن لودر موارد مشابه به انتخابگرهای تغییر نام
کلاس را به راحتی RFPDupeFilter subclassable
بهبود پوشش آزمون و پشتیبانی آینده پایتون 3
جدید در نسخه 0.20.1 است:
در include_package_data لازم است برای ساخت چرخ از منابع منتشر شده است.
جدید در نسخه 0.18.4 است:
ثابت AlreadyCalledError جایگزین یک درخواست در پوسته فرمان.
ثابت lazyness start_requests و آویزان می شود.
جدید در نسخه 0.18.1 است:
حذف واردات اضافی اضافه شده توسط گیلاس تغییرات را برداشت.
ثابت خزنده آزمون تحت تابیده پیش 11.0.0.
py26 می توانید زمینه های با طول صفر را فرمت کنید {}.
خطاهای آزمون PotentiaDataLoss بر پاسخ بی بند و بار.
پاسخ های بدون محتوا طول و یا انتقال رمزگذاری به عنوان پاسخ خوب را درمان کنند.
آیا هیچ عبارتند از ResponseFailed اگر http11 کنترل فعال نیست.
مورد نیاز:
پایتون 2.7 یا بالاتر
پیچ خورده 2.5.0 و یا بالاتر
libxml2 برای 2.6.28 یا بالاتر
pyOpenSSL
نظر یافت نشد