در Jerich HTML تجزیه کننده منبع باز، ساده و در عین حال کتابخانه قدرتمند به طور کامل در زبان جاوا نوشته شده است.
این اجازه می دهد تا برنامه نویسان برای دستکاری و تجزیه و تحلیل بخش های یک سند HTML.
Jerich HTML تجزیه کننده نیز شامل سطح بالا توابع دستکاری فرم HTML
چه در این نسخه جدید است.
رفع اشکال:
[3581664] CharacterReference.decode () کند اشخاص شامل رقم رمزگشایی نیست - و frac12. و frac14. و frac34. و sup1. و sup2. و sup3. و there4.
[3311286] SourceCompactor کند TEXTAREA احترام نمی گذارند
[3519131] نمایش اجراکننده نادرست زمانی که با یک شی عنصر ساخته شده است.
[3538829] نمایش اجراکننده دکوراسیون فونت در مرزهای بلوک نادرست.
Segment.getAllStartTags (نام) و Segment.getFirstElement (نام) کار کنید اگر استدلال شامل حروف بزرگ.
پایان حائل از یک برچسب سرور مشترک در داخل یک تگ سرور فرار است به دروغ به عنوان حائل پایان تگ فرار شناخته شده است.
تغییرات است که می تواند تحت تاثیر قرار رفتار از برنامه های موجود:
[3427073] Segment.getStyleURISegments () در حال حاضر شامل سبک محتوای عنصر و همچنین مقادیر ویژگی سبک.
[3427927] Segment.getURIAttributes () در حال حاضر شامل ویژگی بایگانی عناصر شی و اپلت.
نظرات دیگر در داخل عناصر اسکریپت در طول تجزیه کامل متوالی شناخته شده است. قبلا آنها برای سازگاری با مرورگرهای اصلی اما رفتار مرورگر مدرن تغییر کرده است به رسمیت شناخته شد.
سطح ورود از تمام اشتباهات تجزیه از INFO به خطا، و سطح ورود از Source.fullSequentialParse () پیام مشاوره از هشدار دهند که INFO تغییر کرده است. سطح قبلی از اشتباهات تجزیه شدت بیشتری رو به این پیام مشاوره، س سیستم ورود به سیستم از پنهان کردن پیام مشاوره در حالی که نشان دادن خطاهای تجزیه. هشدار رمزگذاری کاراکتر بدون تغییر باقی می ماند در اخطار سطح.
تغییر رفتار از روش Renderer.renderHyperlinkURL (نشان شروع) به طوری که URL های نسبی ارائه نشده است.
تغییر رفتار موتور رندر به طوری که محتوای عناصر لینک است ارائه کنید اگر آن همان URL لینک است، نادیده گرفتن هر HTTP: // پیشوند یا / پسوند.
EndTag.tidy () در حال حاضر قبل از براکت بسته شدن حذف فضای خالی.
او منبع (فایل) سازنده.
روش او OutputDocument.getSegment ().
او OutputDocument.remove روش (INT پایان اعضای هیات آغاز،).
روش اضافه شده Renderer.setHRLineLength ().
اضافه شده نمونه برنامه کاربردی وب RenderToText.jsp.
روش او Segment.getRowColumnVector ().
تشخیص را پشتیبانی می کند در حال حاضر کدگذاری مشترک مشخص شده در تگ های متا است که دارای یک کد اندازه واحد با رمزگذاری اولیه ناسازگار را نادیده می گیرد.
به روز رسانی به API چوب زیر است: slf4j-API-1.7.2، log4j-1.2.17
رفع اشکال:
جدید در نسخه 3.1 است:
[2793556] حلقه بی نهایت در Segment.getAllStartTags ()
حلقه بی نهایت در Segment.getAllElements ()
Segment.getFirst * روش بخش خارج بخش محدوده بازگشته است.
روش Segment.getAllElements بود تمام عناصر محصور در برخی شرایط بازگشت نیست.
خطاهای اسناد ثابت در روش Segment.getAllElements.
اضافه شده کلاس StreamedSource.
تغییرات است که می تواند تحت تاثیر قرار رفتار از برنامه های موجود:
ParseText تغییر از کلاس به رابط.
Segment.getNodeIterator () در حال حاضر مراجع شخصیت به عنوان گره جداگانه باز می گرداند.
روش جستجو تگ اضافه شده بر اساس مقدار ویژگی عبارات منظم.
اضافه شده روش جستجو برچسب بر اساس ویژگی کلاس HTML.
اضافه شده اموال Source.LegacyNodeIteratorCompatabilityMode شخص به طور موقت برای بازگرداندن Segment.getNodeIterator () قابلیت که از نسخه های قبلی.
کاراکتر حذف شده [] روش جستجو بر اساس در ParseText.
روش اضافه CharacterReference.appendCharTo (پیوست)
او OutputDocument (بخش) سازنده.
اضافه شده برنامه نمونه StreamedSourceCopy.
رفع اشکال:
چه جدید در نسخه 3.0 است:
مراجع شخصیت به نمایندگی از شخصیت های مکمل یونیکد شد به درستی به UTF-16 جفت واحد کد رمزگشایی نشده است.
[2188446] Element.getDepth () و Element.getParentElement () اگر در تجزیه در حالت تقاضا به نام بازگشت نتایج نادرست.
نظرات در حال حاضر در داخل و LT به رسمیت شناخته شده. اسکریپت ها & gt؛ عناصر.
تغییرات API هستند که نه به عقب سازگار:
نام بسته تغییر net.htmlparser.jericho
مقادیر ویژگی در حال حاضر باید رشته به جای CharSequence باشد.
حذف روش تمام بد دانسته / کلاس از نسخه های قبلی.
همه پیدا روش * به نفع دریافت * روش به منظور اعمال یک قرارداد نامگذاری سازگار در تمام روش جستجو تگ توصیه نمی شوند.
برچسب، کلاس عنصر و HTMLElements دیگر پیاده سازی رابط HTMLElementName. (استفاده از واردات شخص به جای)
در تمام مجموعه ها در حال حاضر stongly با استفاده از جنریک تایپ.
کلاس FormControlOutputStyle تغییر شمارشی.
کلاس FormControlType تغییر شمارشی.
روش اضافه CharStreamSource.appendTo (پیوست)
روش او Source.iterator ().
منبع در حال حاضر پیاده سازی Iterable.
داخلی استفاده می کند آلاس StringBuilder برای عملکرد بهتر است.
روش اضافه Source.getNextStartTag (StartTagType)
او Source.getNextEndTag روش (EndTagType).
روش اضافه Source.getPreviousStartTag (StartTagType)
او Source.getPreviousEndTag روش (EndTagType).
روش اضافه شده Segment.getAllStartTags (StartTagType).
اضافه شده تمام روش * Segment.getFirst.
روش اضافه Renderer.renderHyperlinkURL (نشان شروع)
اضافه شده برنامه نمونه HTMLSanitiser.
به روز رسانی به slf4j-API-1.5.6
مورد نیاز:
جاوا 2 نسخه استاندارد محیط زمان اجرا
نظر یافت نشد