در mrjob یک ماژول پایتون که به شما کمک می ارسال و اجرا شغل Hadoop جریان است.
mrjob به طور کامل الاستیک نگاشتکاهش (EMR) خدمات آمازون، که اجازه می دهد تا به شما برای خرید زمان در یک خوشه Hadoop بر اساس ساعات روز پشتیبانی می کند. همچنین با خوشه Hadoop خود کار می کند.
نصب و راه اندازی:
پایتون setup.py نصب
راه اندازی EMR در آمازون
و nbsp؛ * ایجاد خدمات وب آمازون حساب: http://aws.amazon.com/
و nbsp؛ * ثبت نام برای الاستیک نگاشتکاهش: http://aws.amazon.com/elasticmapreduce/
و nbsp؛ * دسترسی شما و کلید مخفی (به http://aws.amazon.com/account/ و کلیک بر روی "اطلاعات کاربری") و مجموعه متغیرهای محیط $ AWS_ACCESS_KEY_ID و $ AWS_SECRET_ACCESS_KEY بر این اساس
سعی کنید آن را!
# محلی
mrjob پایتون / نمونه / mr_word_freq_count.py README.md> شمارش
# در EMR
mrjob پایتون / نمونه / mr_word_freq_count.py README.md -r EMR> شمارش
# در خوشه Hadoop شما
mrjob پایتون / نمونه / mr_word_freq_count.py README.md -r hadoop> شمارش
پیکربندی پیشرفته
برای اجرای در دیگر مناطق AWS، آپلود درخت منبع خود، بهترین استفاده را اجرا، و استفاده از دیگر ویژگی های mrjob پیشرفته، شما نیاز به راه اندازی mrjob.conf. mrjob به نظر می رسد برای فایل کنفرانس خود را در:
و nbsp؛ * ~ / .mrjob
و nbsp؛ * mrjob.conf در هر نقطه $ PYTHONPATH شما
و nbsp؛ * /etc/mrjob.conf
mrjob.conf.example برای اطلاعات بیشتر نگاه کنید به
ویژگی ها:.
شغل اجرا بر روی EMR، خوشه خود را Hadoop، و یا به صورت محلی (برای تست).
ارسال مشاغل چند مرحله (یک نقشه-کاهش مرحله تغذیه به بعد)
تکراری محیط تولید خود را در داخل Hadoop
آپلود درخت منبع خود را و آن را در $ PYTHONPATH کار شما
را اجرا و دیگر اسکریپت راه اندازی
تنظیم متغیر های محیط زیست (به عنوان مثال $ TZ)
به راحتی بسته های python از بسته نصب (EMR تنها)
راه اندازی شفاف توسط فایل پیکربندی mrjob.conf به کار گرفته
به صورت خودکار تفسیر سیاهههای مربوط به خطا از EMR
تونل SSH به ردیاب کار hadoop در EMR
راه اندازی حداقل
به اجرا در EMR، تنظیم $ AWS_ACCESS_KEY_ID و $ AWS_SECRET_ACCESS_KEY
به اجرا در خوشه Hadoop خود، مجموعه ای $ HADOOP_HOME
مورد نیاز:
پایتون
نظر یافت نشد