پروژه زیبا سوپ تجزیه کننده پایتون HTML / XML طراحی شده برای پروژه چرخش سریع مانند صفحه نمایش خراش دادن است. سه ویژگی آن را قدرتمند:
زیبا سوپ خفه نمی خواهد اگر شما آن را نشانه گذاری بد را. نتیجه آن درخت تجزیه که حس می کند در حدود همان اندازه به عنوان سند اصلی خود را. این معمولا به اندازه کافی خوب برای جمع آوری داده ها نیاز دارید و فرار است.
زیبا سوپ فراهم می کند چند روش ساده و اصطلاحات افعی وار برای پیمایش، جستجو، و اصلاح درخت تجزیه: ابزار برای کالبدشکافی یک سند و استخراج آنچه شما نیاز دارید. شما لازم نیست برای ایجاد یک تجزیه کننده سفارشی برای هر برنامه.
زیبا سوپ به طور خودکار اسناد وارده به یونیکد و اسناد خروجی به UTF-8 تبدیل می کند. شما لازم نیست که در مورد کدگذاری فکر می کنم، مگر اینکه سند را پشتیبانی می کند مشخص نیست و زیبا سوپ نمی تواند یک خودکار. سپس شما باید به تعیین رمزگذاری اصلی است.
زیبا سوپ تجزیه هر چیزی که شما آن را، می کند و چیزهای پیمایش درخت را برای شما. شما می توانید بگویید آن را "یافتن تمام لینک"، و یا "یافتن تمام لینک های externalLink کلاس"، و یا "یافتن تمام لینک که آدرس ها مطابقت" foo.com "، و یا" یافتن میز عنوان که متن bold کردم، پس از آن من که متن. "
اطلاعات با ارزش است که یک بار در وب سایت های ضعیف طراحی شده قفل شده بود در حال حاضر در دسترس شما. پروژه های که ساعت گرفته اند را فقط چند دقیقه با سوپ زیبا
مورد نیاز:.
پایتون
نظر یافت نشد