Hadoop. Подробное руководство

Сообщить о появлении

Александр Крючковцитирует4 года назад
Рис. 2.5. Поток данных MapReduce без задач свертки
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Рис. 2.4. Поток данных MapReduce для не
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Весь поток данных для одной задачи свертки изображен на рис. 2.3. Пунктирные прямоугольники обозначают узлы, пунктирные стрелки — передачу данных узлам, а жирные стрелки — передачу данных между узлами.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Hadoop позволяет пользователю задать комбинирующую функцию, которая будет выполняться для выходных данных отображения; выходные данные комбинирующей функции образуют ввод функции свертки
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Комбинирующая функция не заменяет функцию свертки. (Да и как она могла бы ее заменить? Функция свертки все равно необходима для обработки записей с одним ключом от разных отображений.) Но она может сократить объем данных, передаваемых между функциями отображения и свертки, и уже по одной этой причине всегда стоит рассмотреть возможность использования комбинирующей функции в задании MapReduce.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Для большинства заданий желательный размер сплита обычно соответствует размеру блока HDFS — 64 Мбайт по умолчанию, хотя эту величину можно изменить для кластера (для всех вновь создаваемых файлов) или задать при создании файла.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Трекер заданий координирует все задания, выполняемые системой; для этого он планирует выполнение задач на трекерах задач. Трекеры задач выполняют задачи и отправляют отчеты о ходе работы трекеру заданий, который отслеживает общий прогресс каждого задания. Если попытка выполнения задачи завершается неудачей, трекер может заново спланировать ее на другом трекере.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Hadoop делит входные данные заданий MapReduce на фрагменты фиксированного размера, называемые сплитами (splits). Hadoop создает для каждого сплита одну задачу отображения, которая выполняет определенную пользователем функцию отображения для каждой записи в сплите.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
Задание (job) MapReduce представляет собой единицу работы, которую хочет выполнить клиент: оно состоит из входных данных, программы MapReduce и конфигурационной информации. Чтобы выполнить задание, Hadoop разбивает его на задачи (tasks), которые делятся на два типа: задачи отображения и задачи свертки.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться
Александр Крючковцитирует4 года назад
четыре формальных параметра определяют типы входных и выходных данных — на этот раз для функции свертки. Входные типы функции свертки должны соответствовать выходным типам функции отображения: Text и IntWritable. Выходными типами функции свертки являются Text и IntWritable — для года и максимальной температуры, определяемой перебором температур и сравнением элементов с текущим найденным максимумом.
- Нравится
- Комментировать
- Поделиться
  Facebook
  Twitter
  Скопировать ссылку
- Пожаловаться