در lxml ترکیبی از سرعت آن کتابخانه با سادگی از زبان پایتون.
سازگار با تمام نسخه CPython 2.4-3.2
به چه چیزی جدید در این نسخه است:
در حال حاضر لینک های lxml.html.iterlinks در داخل تگ های متا تازه گرداند.
جدید collect_ids گزینه XMLParser = غلط برای غیر فعال کردن ایجاد جدول هش ID. این قابل ملاحظه ای می تواند سرعت تجزیه اسناد با بسیاری از شناسه های مختلف استفاده می شود که نمی شود.
پارسر استفاده از هر سند جداول هش برای شناسه XML. این مسئله موجب کاهش بار از DICT تجزیه کننده جهانی و سرعت تجزیه برای اسناد با بسیاری از شناسه های مختلف.
ElementTree.getelementpath (عنصر) بیان ElementPath ساختاری را برای این عنصر داده می شود، که می تواند برای متغیر بعدا مورد استفاده قرار می گرداند.
xmlfile () را می پذیرد یک بحث جدید نزدیک = واقعی برای بستن فایل (سان) اشیاء پس از نوشتن به آنها. قبل از اینکه، xmlfile () تنها بسته فایل، اگر آن داخلی باز کرده بود.
اجازه ها & quot؛ bytearray ها & quot؛ نوع برای ورودی متن ASCII.
به چه جدید در نسخه 3.4.2 است:
در حال حاضر لینک های lxml.html.iterlinks در داخل تگ های متا تازه گرداند.
جدید collect_ids گزینه XMLParser = غلط برای غیر فعال کردن ایجاد جدول هش ID. این قابل ملاحظه ای می تواند سرعت تجزیه اسناد با بسیاری از شناسه های مختلف استفاده می شود که نمی شود.
پارسر استفاده از هر سند جداول هش برای شناسه XML. این مسئله موجب کاهش بار از DICT تجزیه کننده جهانی و سرعت تجزیه برای اسناد با بسیاری از شناسه های مختلف.
ElementTree.getelementpath (عنصر) بیان ElementPath ساختاری را برای این عنصر داده می شود، که می تواند برای متغیر بعدا مورد استفاده قرار می گرداند.
xmlfile () را می پذیرد یک بحث جدید نزدیک = واقعی برای بستن فایل (سان) اشیاء پس از نوشتن به آنها. قبل از اینکه، xmlfile () تنها بسته فایل، اگر آن داخلی باز کرده بود.
اجازه ها & quot؛ bytearray ها & quot؛ نوع برای ورودی متن ASCII.
به چه جدید در نسخه 3.3.2 است:
خواص resolvers و نسخه، و همچنین روش های set_element_class_lookup () و makeelement ()، از اشیاء iterparse از دست داده بودند.
نمونه هایی از XMLSchema، Schematron و RelaxNG بود error_log محلی خود را قبل از اجرای یک اعتبار سنجی روشن نیست.
lxml.doctestcompare مخلوط & quot؛ را انتظار می رود به & quot؛ و & quot؛ واقعی و & quot؛ در مقادیر ویژگی.
در نسخه 3.3.1 چه جدید است:
اشکالات ثابت:
اسناد HTML تجزیه با parser.feed () موفق به پیدا کردن عناصر در طول تگ تکرار.
ساختمان در PyPy به علت از دست رفته برای حمایت از PyUnicode_Compare () و PyByteArray _ * () در C-API PyPy را شکست خورده است.
نقشه کشی در MSVC به علت از دست رفته و & quot شکست خورد، stdint.h ها & quot؛ فایل هدر استاندارد.
iterparse () موفق به تجزیه BOM فایل های شروع شده است.
در نسخه 3.3.0 چه جدید است:
اشکالات ثابت:
اکتشافی که مسیر فایل از آدرس ها متمایز برای تولید منفی کاذب کمتر تنگ تر شد.
پشتیبانی ثابت برای پایتون 2.4 که در 3.2.2 از دست داده بود:
به چه جدید در نسخه 3.2.3 است.
در نسخه 3.2.1 چه جدید است:
به روش apply_templates () و process_children () از عناصر پسوند XSLT به دست آورده اند دو گزینه جدید بولی elements_only و remove_blank_text که دور انداختن یا تمام رشته ها و یا فضای خالی فقط رشته از لیست نتیجه.
به چه جدید در نسخه 3.2.0 است:
پیشرو فضای خالی می تواند رفتار از توابع تجزیه رشته در lxml.html را تغییر دهید.
توابع رشته ای در تجزیه lxml.html در برابر محتوای HTML غیر معمول مانند framesets و یا گم برچسب ها بدن قوی تر می باشد.
I / O خطاها در حالی که تلاش برای دسترسی به فایل های با راه هایی که حاوی کاراکترهای غیر ASCII-می تواند UnicodeDecodeError افزایش به جای درستی گزارش IOError.
تجزیه از در حافظه دسترسی رشته غیر فعال شبکه در تجزیه به طور پیش فرض و ساخته شده تلاشهای بعدی برای تجزیه از یک URL شکست.
به چه جدید در نسخه 3.1.2 است: ویژگی
در عبور از API فضای نامی غافل از پل ساکس (به عنوان مثال از روش handler.startElement ()) با TypeError شکست خورده است.
ثابت خطای ترتیب در خروجی XSLT در هنگام تبدیل درخت نتیجه را به یک رشته یونیکد.
به چه جدید در نسخه 3.0.2 است:
ثابت تصادف در طول خاموش مترجم با تعویض به Cython 0.17.3 برای ساخت و ساز.
به چه چیزی جدید در نسخه 3.0 است:
C14N اجازه می دهد تا تعیین پیشوند فراگیر به سطح بالا در طول ترتیب منحصر به فرد توسعه داده شود.
حمایت اولیه برای ساخت و ساز در PyPy (از طریق cpyext).
اشیاء DTD API که اجازه می دهد تا دسترسی خواندن به اظهارات خود به دست آورد.
xpathgrep.py حمایت از تجزیه خط به خط (به عنوان مثال از خروجی های grep) و برای اطراف خروجی با یک برچسب ریشه های جدید کسب کردم.
E-کارخانه در lxml.builder را قبول انواع از انواع داده شناخته شده (مانند انواع رشته) در هنگام ساختن عناصر اطراف آنها را.
تکرار درخت و iterparse () با استدلال برچسب های انتخابی پشتیبانی عبور مجموعه ای از برچسب ها. گره های درخت خواهد شد توسط تکرارکننده بازگشت اگر آنها مطابقت هر یک از برچسب ها.
به چه جدید در نسخه 2.3.5 است:
به تصادف در هنگام ادغام گره متن در element.remove ().
تصادف در ساکس تجزیه گر / هدف در هنگام گزارش DOCTYPE خالی می باشد.
به چه جدید در نسخه 2.3.4 است:
به تصادف در هنگام ساخت یک nsmap (اموال عنصر) با URI ها فضای نام خالی می باشد.
سقوط از نظر نژاد شرایط زمانی که اشتباهات (و یا پیام های کاربر) در طول پردازش XSLT موضوعی رخ می دهد.
XSLT تدوین شیوه می تواند خطاهای ترجمه را نادیده گرفت.
ویژگی های اضافه شده:
به چه جدید در نسخه 2.3.3 است:
lxml.html.tostring () به دست آورد جدید with_tail گزینه ترتیب و DOCTYPE.
اشکالات ثابت:
ثابت تصادف در هنگام استفاده از iterparse () برای تجزیه HTML و درخواست حوادث شروع می شود.
تجزیه ثابت انتخاب بیشتر در cssselect. فضای خالی قبل از شبه عناصر و شبه کلاس قابل توجه است آن را به عنوان ترکیب نسل است. و & quot؛ E: شبه و & quot؛ شبه & quot؛ باشد نه & quot؛ را E:: E *؛ باید به عنوان و & quot همان تجزیه شبه & quot؛ کلیک
lxml.html.diff دیگر را افزایش می دهد یک استثنا وقتی ضربه برچسب 'IMG بدون' SRC 'ویژگی.
ویژگی های اضافه شده:
به چه جدید در نسخه 2.3.2 است:
lxml.objectify.deannotate () دارای یک گزینه جدید cleanup_namespaces بولی به حذف اعلانهای فضای نامی ابژهی (و به طور کلی پاک کردن اعلانهای فضای نامی) پس از حذف حاشیه نویسی نوع.
lxml.objectify SubElement تابع () خود را به عنوان یک کپی از etree.SubElement کسب کردم برای جلوگیری از واردات در غیر این صورت کار برکنار شده از lxml.etree در سمت کاربر.
اشکالات ثابت:
ثابت گروه & quot؛ نسل ها & quot؛ اشکال در cssselect بار دوم (بعد از حل برای اولین بار در lxml 2.3.1). تغییر قبلی منجر به یک رگرسیون عملکرد جدی برای ارزیابی از XPath مبتنی بر بیان ترجمه شده است. توجه داشته باشید که این را می شکند استفاده از برخی از عبارات XPath تولید به عنوان مسیرهای محل XSLT که قبلا در 2.3.1 کار می کرد.
تجزیه ثابت برخی از انتخاب کنندگان در cssselect. فضای خالی پس از combinators و & quot؛ & # x3e. و & quot ؛، & quot؛ را + و & quot؛ و & quot؛ ~ و & quot؛ در حال حاضر به درستی استفاده کنه. پیش به عنوان یک ترکیب نسل تجزیه شد. به عنوان مثال، به & quot؛ & # DIV x3e. .foo ها & quot؛ DIV & # x3e؛ * * * * .foo و & quot همان ها & quot تجزیه شد. به جای & quot؛ را & # DIV x3e. .foo & quot؛ کلیک
ویژگی های اضافه شده:
به چه جدید در نسخه 2.3.1 است:
در lxml.html.clean kill_tags گزینه جدید برای حذف برچسب مخصوص و درصد آنها (یعنی کل زیر درخت خود را).
pi.get () و pi.attrib در دستورالعمل های پردازش تجزیه شبه صفات از محتوای متن دستورالعمل های پردازش.
lxml.get_include () یک لیست از شامل مسیرهای که می تواند مورد استفاده به کامپایل کد C خارجی در برابر lxml.etree گرداند. این است به طور خاص مورد نیاز برای lxml آماری مرتبط می سازد هنگامی که کد نیاز به کامپایل در برابر دقیق همان نسخه فایل هدر به عنوان lxml خود را.
Resolver.resolve_file () طول می کشد close_file گزینه های اضافی که پیکربندی اگر فایل (سان) شی خواهد بعد از خواندن یا نه بسته شود. به طور پیش فرض، فایل بسته خواهد شد، به عنوان کاربر انتظار نمی رود برای حفظ یک مرجع به آن.
اشکالات ثابت:
لینک ها: تمیز کردن HTML به 'داده را حذف کنید.
ادغام تجزیه html5lib در حال حاضر با استفاده از اجرای رسمی در html5lib خود را، که باعث می شود آن را با انتشار جدیدتر از کتابخانه کار می کنند.
در lxml.sax، endElementNS () نادرست می تواند یک نام تگ ساده رد زمانی که رویداد شروع مربوطه استنباط به همین نام تگ ساده در فضای نامی پیش فرض باشد.
هنگامی که یک فایل مانند جسم باز به تجزیه گذشت () و یا iterparse () که پارسر دیگر آن را نزدیک پس از استفاده خواهد شد. این برگشت تغییر در lxml 2.3 که در آن تمام فایل های تعطیل خواهد شد. این کاربران مسئولیت را به درستی در موارد خطا بستن پرونده (سان) شی، نیز می باشد.
خطا ادعا در lxml.html.cleaner زمانی که دور عناصر سطح بالا.
در lxml.cssselect، استفاده از XPath و 'A // B' (مخفف 'A / نسل یا خود :: گره () / B') به جای 'A / نسل :: B' برای انتخاب نسل CSS ( 'A B'). این باعث می شود چند مورد لبه سازگار باشد با رفتار انتخاب در WebKit و موزیلا فایرفاکس، و باعث می شود عبارات CSS تر مسیرهای محل معتبر (برای استفاده در XSL: قالب مسابقه).
در lxml.html، غیر انتخاب & # x3c؛ گزینه & # x3e. برچسب ها دیگر نشان می دهد تا در مقادیر فرم جمع آوری شده.
اضافه کردن / حذف & # x3c؛ گزینه & # x3e. ارزش به / از یک میدان فرم های چندگانه را انتخاب آنها را به درستی انتخاب و unselects آنها.
تغییرات دیگر:
استاتیک ایجاد می توانید دایرکتوری دانلود با گزینه --download-دیر را مشخص کنید.
ویژگی های اضافه شده:
به چه چیزی جدید در نسخه 2.3 است:
هنگامی که به دنبال برای کودکان، lxml.objectify '{} برچسب' را به عنوان به معنی یک فضای نامی خالی، به عنوان فضای نام پدر و مادر مخالف است.
اشکالات ثابت:
هنگام خواندن از یک شی مانند فایل به پایان رسید، تجزیه فورا روش آن .close () می نامد.
در هنگام تجزیه به پایان رسید، iterparse () بلافاصله بسته فایل ورودی.
کار در اطراف برای اشکال libxml2 برای تجزیه کننده است که می تواند HTML در حالت غیر تابعی پس از تجزیه یک سند خراب شدت (در libxml2 برای 2.7.8 ثابت) را ترک کنند.
برچسب ضبط اموال بیگانگان در کد HTML پاکسازی به درستی به نام خیمه.
تغییرات دیگر:
بعضی از توابع عمومی در سطح Cython C-API انواع بازگشت صریح تر.
به چه جدید در نسخه 2.3beta1 است:
اشکالات ثابت:
تصادف در نسخه های جدیدتر libxml2 برای زمانی که در حال حرکت عناصر بین اسنادی که صفات در گره XInclude جایگزین شده بود.
XMLID تابع () از دست رفته پارامترهای تجزیه و BASE_URL اختیاری است.
جستجو برای برچسب کلمات در iterparse () در Py3 شکسته شد.
lxml.html.open_in_browser () را در پایتون 3 با توجه به استفاده از os.tempnam کار نمی کند. در حال حاضر 'را پشتیبانی می کند' پارامتر اختیاری طول می کشد.
نظر یافت نشد