در MDP (ابزار مدولار برای پردازش داده ها) یک کتابخانه از به طور گسترده استفاده از الگوریتم های پردازش داده ها است که می تواند با توجه به قیاس خط لوله برای ساخت پیچیده تر نرم افزار پردازش داده ها ترکیب شده است.
از دیدگاه کاربر، MDP شامل مجموعه ای از الگوریتم های تحت نظارت و بدون نظارت یادگیری، و سایر داده های پردازش واحد (گره) که می تواند به توالی پردازش داده ها (جریان) و معماری شبکه خوراک به جلو پیچیده تر ترکیب شده است. با توجه به مجموعه ای از داده های ورودی، MDP مراقبت از پی آموزش و یا اجرای تمام گره ها در شبکه طول می کشد. این اجازه می دهد تا کاربر را مشخص الگوریتم های پیچیده به عنوان یک سری از مراحل پردازش داده ها را ساده تر در یک راه طبیعی است.
پایه از الگوریتم های موجود در حال افزایش است و شامل، به نام اما رایج ترین، تحلیل مؤلفه (PCA و NIPALS)، چندین الگوریتم های تجزیه و تحلیل مستقل کامپوننت (CuBICA، FastICA، TDSEP، جید، و XSFA)، آهسته تحلیل ویژگی، گاوسی طبقه، محدود بولتزمن ماشین، و به صورت محلی خطی کدهای جاسازی.
مراقبت خاص گرفته شده است به محاسبات کارآمد از نظر سرعت و حافظه است. برای کاهش حافظه مورد نیاز، ممکن است به انجام آموزش با استفاده از دسته از داده ها، و تعیین پارامترهای داخلی از گره به دقت یگانه، که باعث می شود استفاده از داده های بسیار بزرگ مجموعه امکان پذیر است. علاوه بر این، "موازی" subpackage ارائه می دهد یک پیاده سازی موازی از گره های عمومی و جریان.
از منظر توسعه دهندگان، MDP یک چارچوب است که باعث اجرای الگوریتم های یادگیری نظارت شده و نظارت نشده جدید آسان و سر راست است. کلاس عمومی، 'گره'، طول می کشد مراقبت از کارهای خسته کننده مانند نوع عددی و بررسی ابعاد کرد و تونست توسعه آزاد به تمرکز بر روی اجرای مراحل یادگیری و اجرای. از آنجا که از رابط مشترک، گره سپس به طور اتوماتیک با بقیه کتابخانه ادغام و می تواند در یک شبکه همراه با گره های دیگر استفاده می شود. گره می تواند مراحل آموزش های مختلف و حتی تعداد نامشخصی از فاز داشته باشند. این اجازه می دهد تا از اجرای الگوریتم های که نیاز به جمع آوری برخی از آمار در کل ورودی قبل از اقدام به آموزش واقعی، و دیگران که نیاز به تکرار بیش از یک مرحله آموزش تا زمانی که معیار همگرایی راضی است. توانایی برای آموزش هر مرحله با استفاده از تکه های داده های ورودی است حفظ اگر تکه با تکرارکننده تولید می شود. علاوه بر این، بازیابی سقوط است اختیاری در دسترس: در صورت شکست، وضعیت فعلی جریان است برای بازرسی بعد را نجات داد.
MDP شده است در زمینه تحقیقات نظری در علوم اعصاب نوشته شده است، اما آن را طراحی شده است که در هر زمینه که در آن داده ها تربیت شدنی الگوریتم های پردازش استفاده می شود مفید است. سادگی آن را در سمت کاربر همراه با قابلیت استفاده مجدد از گره اجرا آن را نیز یک ابزار آموزشی معتبر را
به چه چیزی جدید در این نسخه است: پشتیبانی
در پایتون 3.
پسوندهای جدید: ذخیره و گرادیان.
آموزش بهبود و گسترش یافته است.
چند بهبود و رفع اشکالات.
این نسخه تحت مجوز BSD.
به چه جدید در نسخه 2.5 است:
در 2009/06/30: اضافه شده تشخیص آنلاین از باطن عددی، پشتیبانی پایتون موازی، باطن باطن symeig و عددی برای خروجی تست واحد. باید در اشکال زدایی کمک کند.
2009-06-12: ادغام قطع و هیستوگرام گره.
2009-06-12: اشکال ثابت در جریان موازی (پردازش استثنا).
2009-06-09: اشکال ثابت در LLENode زمانی که output_dim شناور است. با تشکر از کنراد Hinsen.
2009-06-05: اشکالات ثابت در جریان موازی برای schedulers متعدد.
2009-06-05: رفع اشکال در لایه معکوس، به لطف آلبرتو Escalante.
2009/04/29: اضافه شدن یک LinearRegressionNode.
2009-03-31: PCANode گله نکند دیگر هنگامی که مقادیر ویژه ماتریس کواریانس است منفی IFF SVD == درست یا کاهش == واقعی. اگر output_dim مشخص شده است واریانس مورد نظر، مقادیر ویژه منفی نادیده گرفته می شوند. بهبود پیغام خطا برای SFANode در مورد مقادیر ویژه منفی، ما در حال حاضر نشان می دهد به prepend گره با PCANode (SVD = واقعی) و یا PCANode (کاهش = واقعی).
2009/03/26: مهاجرت از بسته موضوع قدیمی به نخ جدید. اضافه پرچم برای غیر فعال کردن ذخیره در فرایند زمانبندی. برخی از تغییرات شکست برای schedulers سفارشی (آموزش جریان موازی و یا اعدام است تحت تاثیر قرار نمی) وجود دارد.
2009/03/25: اضافه شده نسخه SVN ردیابی پشتیبانی می کند.
2009/03/25: حذف پرچم copy_callable برای زمانبندی، این است که در حال حاضر به طور کامل توسط درمورد انشعاب TaskCallable جایگزین شده است. این اثر ندارد برای رابط ParallelFlow راحت است، اما schedulers سفارشی کنید شکسته.
2009/03/22: ذخیره به اجرا در ProcessScheduler.
2009/02/22: make_parallel در حال حاضر کار می کند به طور کامل در محل به ذخیره حافظه است.
2009/02/12: اضافه شده روش ظرف به ظرف FlowNode.
2009/03/03: او CrossCovarianceMatrix با استفاده از آزمون.
2009/02/03: او IdentityNode.
2009-01-30: اضافه شده یک تابع کمکی در hinet به طور مستقیم نمایش داده نمایندگی جریان HTML.
2009-01-22: اجازه output_dim در لایه به lazily تنظیم شود.
2008/12/23: اضافه شده total_variance به گره nipals.
2008/12/23: همیشه explained_variance و total_variance بعد از آموزش در PCANode تنظیم شده است.
2008/12/12: symrand اصلاح واقعا ماتریس متقارن بازگشت (و نه تنها مثبت قطعی). GaussianClassifierNode اقتباس برای آن تشکیل می دهند. symrand اقتباس به بازگشت نیز ماتریس تفکیکپذیر پیچیده است.
2008/12/11: ثابت یک مشکل در PCANode (زمانی که output_dim به input_dim واریانس کل را به عنوان ناشناخته تحت درمان قرار گرفت راه اندازی شد). پارامتر var_part ثابت در ParallelPCANode.
2008/12/11: اضافه شده ویژگی var_part به PCANode (فیلتر بر اساس واریانس نسبت به absoute واریانس).
2008/12/04: ثابت از دست رفته در محور تماس amax در آموزش ARG. با تشکر از ساموئل جان!
2008/12/04: ثابت تکرارکننده داده خالی دست زدن به در ParallelFlow. همچنین اضافه چک تکرارکننده خالی در جریان طبیعی (افزایش یک استثنا اگر تکرارکننده خالی است).
2008/11/19: PCA اصلاح و گره SFA برای مقادیر ویژه ماتریس negaive در cov به را بررسی کنید
2008/11/19: symeig یکپارچه در scipy، MDP می توانید آن را از وجود دارد در حال حاضر استفاده کنید.
2008/11/18: او ParallelFDANode.
2008/11/18: به روز شده در قطار قابل بازخرید برای ParallelFlow برای حمایت از استدلال های اضافی.
2008/11/05: بازنویسی از کد موازی، در حال حاضر ساختار hinet پشتیبانی می کند.
2008/11/03: بازنویسی از hinet خالق repesentation HTML. متاسفانه این هم می شکند رابط عمومی، اما این تغییرات خیلی ساده است.
2008-10-29: خاموش هشدار که از فرآیندهای از راه دور در ProcessScheduler
2008/10/27: حل مشکل با جای نوشتن kwargs در روش init انجام از ParallelFlow.
2008/10/24: ثابت pretrained اشکال گره در hinet.FlowNode.
2008/10/20: اشکال ثابت واردات حیاتی در بسته بندی موازی زمانی که ص (کتابخانه پایتون موازی) نصب شده است.
در مورد نیاز:
پایتون
NumPy
SciPy
نظر یافت نشد