mrjob є модуль Python, що дозволяє писати і запускати Hadoop Streaming робочих місць.
mrjob повністю підтримує Elastic MapReduce (EMR) служби Amazon, яка дозволяє виграти час на кластері Hadoop на погодинній основі. Вона також працює з вашим власним Hadoop кластеру.
установки:
Python setup.py встановити
Налаштування ЕМІ на Амазонці
І NBSP; * створити Web Services аккаунт Amazon: http://aws.amazon.com/
І NBSP; * реєстрація для пружних MapReduce: http://aws.amazon.com/elasticmapreduce/
І NBSP; * Отримайте ваш доступ і секретні ключі (перейти до http://aws.amazon.com/account/ і натисніть на кнопку "облікові дані безпеки") і встановити змінні оточення $ AWS_ACCESS_KEY_ID і $ AWS_SECRET_ACCESS_KEY відповідно
Спробуйте!
# Локально
Python mrjob / приклади / mr_word_freq_count.py README.md> розраховує
# На ЕМІ
Python mrjob / приклади / mr_word_freq_count.py README.md -r EMR> розраховує
# На Hadoop кластера
Python mrjob / приклади / mr_word_freq_count.py README.md -r Hadoop> розраховує
Advanced Configuration
Для запуску в інших регіонах AWS, завантажувати дерево вихідних текстів, запустити зробити, і використовувати інші додаткові можливості mrjob, ви повинні налаштувати mrjob.conf. mrjob шукає його конф файл в:
І NBSP; * ~ / .mrjob
І NBSP; * mrjob.conf в будь-якому місці $ PYTHONPATH
І NBSP; * /etc/mrjob.conf
См mrjob.conf.example для отримання додаткової інформації
Особливості :.
- Виконати роботи по ЕМІ, ваші власні Hadoop кластера, або локально (для тестування).
- Написати багатоступінчасті завдання (одна карта-згортка крок канали в наступному)
- Дублювати виробничого середовища всередині Hadoop
- Завантажити дерево вихідних текстів і покласти його в вашу роботу за $ PYTHONPATH
- запустити зробити і інші настройки сценаріїв
- набір змінних оточення (наприклад, $ TZ)
- Легко встановити пітона пакети з тарболлов (EMR тільки)
- Налаштування здійснюється прозоро mrjob.conf файлі конфігурації
- Автоматично інтерпретувати журнали помилок від ЕМІ
- SSH тунель Hadoop Job Tracker на ЕМІ
- Мінімальна установка
- Для запуску на ЕМІ, встановіть $ AWS_ACCESS_KEY_ID і $ AWS_SECRET_ACCESS_KEY
- Щоб працювати на вашому Hadoop кластера, встановіть $ HADOOP_HOME
Вимоги
- Python
Коментар не знайдено