این می تواند در سمت سرور و سمت کلاینت برچسب ها را ویرایش کنید، در حالی که تولید مثل را کلمه به کلمه هر HTML ناشناخته یا نامعتبر است.
به هم سطح بالا توابع دستکاری فرم HTML را فراهم می کند
ویژگی ها:.
حضور HTML قالببندی با تجزیه بقیه دخالت نمی این سند، که باعث می شود ایده آل کتابخانه برای استفاده با & quot؛ را در دنیای واقعی و & quot؛ HTML که چوک سایر تجزیه کننده.
ASP، JSP، PSP، پی اچ پی و میسون برچسب ها سرور به صراحت با تجزیه شناسایی. این به این معنی است که HTML عادی هنوز هم به درستی حتی اگر برچسب ها سرور در داخل آنها، است که مشترک برای مثال زمانی که به صورت پویا تنظیم ویژگی عنصر وجود دارد تجزیه شده است.
جریان بر اساس گزینه تجزیه جدید با استفاده از کلاس StreamedSource، که اجازه می دهد حافظه پردازش مؤثر فایل های بزرگ با استفاده از یک تکرارکننده رویداد. این است که اساسا یک جایگزین STAX با توانایی پردازش HTML و XML غیر اعتباری، و همچنین چندین ویژگی دیگر در دیگر جریان تجزیه کننده در دسترس نیست.
در فرم استاندارد آن را از آن نه یک رویداد و نه درخت تجزیه کننده است، بلکه استفاده از ترکیبی از جستجوی ساده متنی، به رسمیت شناختن برچسب کارآمد و یک انبار موقعیت تگ. متن کل سند منبع است برای اولین بار در حافظه بارگذاری و پس از آن تنها بخش مربوط به شخصیت مربوط به هر عملیات جستجو جستجو.
در مقایسه با یک تجزیه کننده درختی مانند DOM، حافظه و منابع مورد نیاز می تواند به مراتب بهتر اگر فقط بخش کوچکی از سند نیاز به تجزیه شود یا تغییر یافتهاست. نادرست یا بد فرمت HTML به راحتی می توانید نادیده گرفته می شود، بر خلاف تجزیه کننده مبتنی بر درخت است که باید هر گره در سند از بالا به پایین را تشخیص دهد.
در مقایسه با یک تجزیه کننده رویداد مانند SAX، رابط است در سطح بسیار بالاتر است و بیشتر بصری، و یک نمایش درختی از سلسله مراتب عنصر سند است که به راحتی ایجاد در صورت نیاز.
شروع و پایان موقعیت خود را در سند منبع تمام بخش تجزیه می باشد در دسترس، اجازه می دهد اصلاح بخش تنها انتخاب از سند بدون نیاز به بازسازی کل سند را از یک درخت.
تعداد سطر و ستون از هر موقعیت در سند منبع می توان به راحتی در دسترس است.
فراهم می کند یک رابط کاربری ساده اما جامع برای تجزیه و تحلیل و دستکاری کنترل های فرم HTML، از جمله استخراج و جمعیت مقادیر اولیه، و تبدیل به فقط خواندنی و یا حالت های نمایش داده شده است. تجزیه و تحلیل کنترل های فرم نیز اجازه می دهد تا اطلاعات دریافت شده از فرم را به ذخیره می شود و ارائه در یک روش مناسب.
ساخته شده در قابلیت استخراج تمام متن از نشانه گذاری HTML، مناسب برای تغذیه به یک موتور جستجو متن مانند آپاچی Lucene.
ساخته شده در قابلیت به ارائه نشانه گذاری HTML با قالب بندی متن ساده است.
ساخته شده در قابلیت به فرمت HTML کد منبع که عناصر را تو با توجه به عمق آنها در سلسله مراتب عنصر سند. (اینجا را کلیک کنید برای تظاهرات آنلاین)
از بین بردن تمام فضای غیر ضروری سفید ساخته شده در قابلیت به کد منبع HTML جمع و جور.
انواع تگ سفارشی را می توان به راحتی تعریف و ثبت نام برای به رسمیت شناختن توسط تجزیه گر.
چه جدید در این نسخه است:
در او منبع (فایل) سازنده.
روش او OutputDocument.getSegment ().
او OutputDocument.remove روش (INT پایان INT شروع،).
روش اضافه شده Renderer.setHRLineLength ().
اضافه شدن نمونه برنامه کاربردی وب RenderToText.jsp.
روش او Segment.getRowColumnVector ().
تشخیص را پشتیبانی می کند در حال حاضر سیستم های کد گذاری مشترک مشخص شده در تگ های متا است که دارای یک کد واحد اندازه با رمزگذاری اولیه ناسازگار نادیده می گیرد.
رفع اشکال:
جدید در نسخه 3.1 است:
حلقه بی نهایت در Segment.getAllStartTags ()
حلقه بی نهایت در Segment.getAllElements ()
Segment.getFirst * روش بخش خارج محدوده بخش بازگشت.
روش Segment.getAllElements تمام عناصر محصور در برخی شرایط بازگشت نیست.
خطاهای اسناد و مدارک ثابت در روش Segment.getAllElements.
اضافه شده کلاس StreamedSource.
تغییراتی که می تواند رفتار از برنامه های موجود تاثیر می گذارد:
ParseText تغییر از یک کلاس به رابط.
Segment.getNodeIterator () در حال حاضر منابع شخصیت به عنوان گره جداگانه باز می گرداند.
روش های جستجو تگ اضافه شده بر اساس مقدار ویژگی عبارات منظم.
اضافه شده روش جستجو تگ بر اساس ویژگی کلاس HTML.
اضافه اموال Source.LegacyNodeIteratorCompatabilityMode شخص به طور موقت برای بازگرداندن Segment.getNodeIterator () قابلیت به نسخه های قبلی است.
کاراکتر حذف شده [] روش های جستجو در ParseText.
روش اضافه CharacterReference.appendCharTo (پیوست)
او OutputDocument قطعه (Segment) سازنده.
اضافه شده برنامه نمونه StreamedSourceCopy.
نظر یافت نشد