mrjob

نرم افزار تصویر:
mrjob
جزئیات نرم افزار:
نسخه: 0.4
ها تاریخ: 20 Feb 15
توسعه دهنده: David Marin
پروانه: رایگان
محبوبیت: 16

Rating: 3.0/5 (Total Votes: 1)

در mrjob یک ماژول پایتون که به شما کمک می ارسال و اجرا شغل Hadoop جریان است.
mrjob به طور کامل الاستیک نگاشتکاهش (EMR) خدمات آمازون، که اجازه می دهد تا به شما برای خرید زمان در یک خوشه Hadoop بر اساس ساعات روز پشتیبانی می کند. همچنین با خوشه Hadoop خود کار می کند.
نصب و راه اندازی:
پایتون setup.py نصب
راه اندازی EMR در آمازون
و nbsp؛ * ایجاد خدمات وب آمازون حساب: http://aws.amazon.com/
و nbsp؛ * ثبت نام برای الاستیک نگاشتکاهش: http://aws.amazon.com/elasticmapreduce/
و nbsp؛ * دسترسی شما و کلید مخفی (به http://aws.amazon.com/account/ و کلیک بر روی "اطلاعات کاربری") و مجموعه متغیرهای محیط $ AWS_ACCESS_KEY_ID و $ AWS_SECRET_ACCESS_KEY بر این اساس
سعی کنید آن را!
# محلی
mrjob پایتون / نمونه / mr_word_freq_count.py README.md> شمارش
# در EMR
mrjob پایتون / نمونه / mr_word_freq_count.py README.md -r EMR> شمارش
# در خوشه Hadoop شما
mrjob پایتون / نمونه / mr_word_freq_count.py README.md -r hadoop> شمارش
پیکربندی پیشرفته
برای اجرای در دیگر مناطق AWS، آپلود درخت منبع خود، بهترین استفاده را اجرا، و استفاده از دیگر ویژگی های mrjob پیشرفته، شما نیاز به راه اندازی mrjob.conf. mrjob به نظر می رسد برای فایل کنفرانس خود را در:
و nbsp؛ * ~ / .mrjob
و nbsp؛ * mrjob.conf در هر نقطه $ PYTHONPATH شما
و nbsp؛ * /etc/mrjob.conf
mrjob.conf.example برای اطلاعات بیشتر نگاه کنید به

ویژگی ها:.

شغل اجرا بر روی EMR، خوشه خود را Hadoop، و یا به صورت محلی (برای تست).
ارسال مشاغل چند مرحله (یک نقشه-کاهش مرحله تغذیه به بعد)
تکراری محیط تولید خود را در داخل Hadoop
آپلود درخت منبع خود را و آن را در $ PYTHONPATH کار شما
را اجرا و دیگر اسکریپت راه اندازی
تنظیم متغیر های محیط زیست (به عنوان مثال $ TZ)
به راحتی بسته های python از بسته نصب (EMR تنها)
راه اندازی شفاف توسط فایل پیکربندی mrjob.conf به کار گرفته
به صورت خودکار تفسیر سیاهههای مربوط به خطا از EMR
تونل SSH به ردیاب کار hadoop در EMR
راه اندازی حداقل
به اجرا در EMR، تنظیم $ AWS_ACCESS_KEY_ID و $ AWS_SECRET_ACCESS_KEY
به اجرا در خوشه Hadoop خود، مجموعه ای $ HADOOP_HOME

مورد نیاز:

پایتون

نرم افزار های مشابه

paexec
paexec

20 Feb 15

GNU Parallel
GNU Parallel

17 Feb 15

TrueCL
TrueCL

20 Feb 15

Pyro
Pyro

14 Apr 15

نرم افزار های دیگر از توسعه دهنده David Marin

doloop
doloop

11 May 15

نظرات به mrjob

نظر یافت نشد
اضافه کردن نظر
روشن کردن تصاویر!