به شرح زیر اصلی مشخصات رسمی WHATWG HTML5.
پارسر طراحی شده است برای رسیدگی به تمام طعم HTML و تجزیه اسناد نامعتبر با استفاده از قوانین رفع خطا به خوبی تعریف شده سازگار با رفتار مرورگرهای اصلی وب دسکتاپ.
خروجی در داخل یک ساختار درختی palced.
این پشتیبانی از خروجی به ElementTree، DOM و فرمت های درخت lxml و همچنین یک قالب سفارشی ساده است.
HTML5Lib با distutils بسته بندی شده.
HTML5Lib نیز موجود است در:
روبی - دانلود HTML5Lib برای روبی در اینجا.
پایتون - دانلود HTML5Lib برای پایتون اینجا.
PHP - دانلود HTML5Lib برای PHP در اینجا
در چه در این نسخه جدید است:
در تجزیه معتبر و نامعتبر اسناد HTML را به یک درخت.
پشتیبانی از minidom، ElementTree (از جمله cElementTree و lxml.etree)، BeautifulSoup (قدیمی) و فرمت های خروجی سفارشی simpletree
DOM به مبدل SAX
گزارش تجزیه اشتباهات
تشخیص رمزگذاری کاراکتر
فیلتر کردن و serialize کردن درختان
HTML CSS + پاککننده برتری
بسیاری از تست واحد
نظر یافت نشد