mrjob

Скріншот програми:
mrjob
Дані програми:
Версія: 0.4
Дата завантаження: 20 Feb 15
Розробник: David Marin
Ліцензія: Безкоштовно
Популярність: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob є модуль Python, що дозволяє писати і запускати Hadoop Streaming робочих місць.
mrjob повністю підтримує Elastic MapReduce (EMR) служби Amazon, яка дозволяє виграти час на кластері Hadoop на погодинній основі. Вона також працює з вашим власним Hadoop кластеру.
установки:
Python setup.py встановити
Налаштування ЕМІ на Амазонці
І NBSP; * створити Web Services аккаунт Amazon: http://aws.amazon.com/
І NBSP; * реєстрація для пружних MapReduce: http://aws.amazon.com/elasticmapreduce/
І NBSP; * Отримайте ваш доступ і секретні ключі (перейти до http://aws.amazon.com/account/ і натисніть на кнопку "облікові дані безпеки") і встановити змінні оточення $ AWS_ACCESS_KEY_ID і $ AWS_SECRET_ACCESS_KEY відповідно

Спробуйте!

# Локально
Python mrjob / приклади / mr_word_freq_count.py README.md> розраховує
# На ЕМІ
Python mrjob / приклади / mr_word_freq_count.py README.md -r EMR> розраховує
# На Hadoop кластера
Python mrjob / приклади / mr_word_freq_count.py README.md -r Hadoop> розраховує
Advanced Configuration
Для запуску в інших регіонах AWS, завантажувати дерево вихідних текстів, запустити зробити, і використовувати інші додаткові можливості mrjob, ви повинні налаштувати mrjob.conf. mrjob шукає його конф файл в:
І NBSP; * ~ / .mrjob
І NBSP; * mrjob.conf в будь-якому місці $ PYTHONPATH
І NBSP; * /etc/mrjob.conf
См mrjob.conf.example для отримання додаткової інформації

Особливості :.

  • Виконати роботи по ЕМІ, ваші власні Hadoop кластера, або локально (для тестування).
  • Написати багатоступінчасті завдання (одна карта-згортка крок канали в наступному)
  • Дублювати виробничого середовища всередині Hadoop
  • Завантажити дерево вихідних текстів і покласти його в вашу роботу за $ PYTHONPATH
  • запустити зробити і інші настройки сценаріїв
  • набір змінних оточення (наприклад, $ TZ)
  • Легко встановити пітона пакети з тарболлов (EMR тільки)
  • Налаштування здійснюється прозоро mrjob.conf файлі конфігурації
  • Автоматично інтерпретувати журнали помилок від ЕМІ
  • SSH тунель Hadoop Job Tracker на ЕМІ
  • Мінімальна установка
  • Для запуску на ЕМІ, встановіть $ AWS_ACCESS_KEY_ID і $ AWS_SECRET_ACCESS_KEY
  • Щоб працювати на вашому Hadoop кластера, встановіть $ HADOOP_HOME

Вимоги

  • Python

Схожі програми

Інші програми розробника David Marin

doloop
doloop

11 May 15

mrjob

Коментар не знайдено
додати коментар
Включіть картинки!