mrjob

Скріншот програми:
mrjob
Дані програми:
Версія: 0.4
Дата завантаження: 20 Feb 15
Розробник: David Marin
Ліцензія: Безкоштовно
Популярність: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob є модуль Python, що дозволяє писати і запускати Hadoop Streaming робочих місць.
mrjob повністю підтримує Elastic MapReduce (EMR) служби Amazon, яка дозволяє виграти час на кластері Hadoop на погодинній основі. Вона також працює з вашим власним Hadoop кластеру.
установки:
Python setup.py встановити
Налаштування ЕМІ на Амазонці
І NBSP; * створити Web Services аккаунт Amazon: http://aws.amazon.com/
І NBSP; * реєстрація для пружних MapReduce: http://aws.amazon.com/elasticmapreduce/
І NBSP; * Отримайте ваш доступ і секретні ключі (перейти до http://aws.amazon.com/account/ і натисніть на кнопку "облікові дані безпеки") і встановити змінні оточення $ AWS_ACCESS_KEY_ID і $ AWS_SECRET_ACCESS_KEY відповідно

Спробуйте!

# Локально
Python mrjob / приклади / mr_word_freq_count.py README.md> розраховує
# На ЕМІ
Python mrjob / приклади / mr_word_freq_count.py README.md -r EMR> розраховує
# На Hadoop кластера
Python mrjob / приклади / mr_word_freq_count.py README.md -r Hadoop> розраховує
Advanced Configuration
Для запуску в інших регіонах AWS, завантажувати дерево вихідних текстів, запустити зробити, і використовувати інші додаткові можливості mrjob, ви повинні налаштувати mrjob.conf. mrjob шукає його конф файл в:
І NBSP; * ~ / .mrjob
І NBSP; * mrjob.conf в будь-якому місці $ PYTHONPATH
І NBSP; * /etc/mrjob.conf
См mrjob.conf.example для отримання додаткової інформації

Особливості :.

  • Виконати роботи по ЕМІ, ваші власні Hadoop кластера, або локально (для тестування).
  • Написати багатоступінчасті завдання (одна карта-згортка крок канали в наступному)
  • Дублювати виробничого середовища всередині Hadoop
  • Завантажити дерево вихідних текстів і покласти його в вашу роботу за $ PYTHONPATH
  • запустити зробити і інші настройки сценаріїв
  • набір змінних оточення (наприклад, $ TZ)
  • Легко встановити пітона пакети з тарболлов (EMR тільки)
  • Налаштування здійснюється прозоро mrjob.conf файлі конфігурації
  • Автоматично інтерпретувати журнали помилок від ЕМІ
  • SSH тунель Hadoop Job Tracker на ЕМІ
  • Мінімальна установка
  • Для запуску на ЕМІ, встановіть $ AWS_ACCESS_KEY_ID і $ AWS_SECRET_ACCESS_KEY
  • Щоб працювати на вашому Hadoop кластера, встановіть $ HADOOP_HOME

Вимоги

  • Python

Схожі програми

cloudinitd
cloudinitd

11 May 15

salt
salt

20 Feb 15

LAPACK
LAPACK

17 Feb 15

Ganeti
Ganeti

17 Feb 15

Інші програми розробника David Marin

doloop
doloop

11 May 15

mrjob

Коментар не знайдено
додати коментар
Включіть картинки!
Пошук за категоріями