Реферат.Справочник
Рефераты по информационным технологиям
Big Data/Основы Hadoop. Базовый набор компонентов Hadoop.

Big Data/Основы Hadoop. Базовый набор компонентов Hadoop.

Big Data/Основы Hadoop. Базовый набор компонентов Hadoop. .doc

Зарегистрируйся в два клика и получи неограниченный доступ к материалам,а также промокод на новый заказ в Автор24. Это бесплатно.

Введение

Начнем с того, что скорость развития информационных технологий и современных тенденций позволяют уже сегодня говорить о том, что именно уровень обеспеченности предприятия информационными системами управления бизнес-процессами определяет показатели эффективности роста каждого предприятия.
В мире информационных технологий есть такие взаимосвязанные термины и вещи – обсуждение одного неизменно влечет за собой разговор о другом. Вот, например, произнося словосочетание «Big Data», вы вскоре обязательно заговорите о проекте с жизнерадостным желтым слоном на логотипе – Hadoop. По сути это платформа для распределенных вычислений, но ее название обязательно упоминается в связке с большими данными.
В условиях лавинообразного роста объемов данных на помощь организациям приходят технологии Big Data – они обеспечивают обработку массивов информации из различных источников. Один из основных вариантов эффективной работы с большими данными - построение системы на открытой и расширяемой платформе Hadoop, которую с 2005 года развивает квалифицированное Open Source сообщество Apache Software Foundation.
Hadoop включает в себя набор утилит, библиотек и фреймворк для разработки, позволяющий создавать производительные системы обработки разнородных данных за счет использования модели распределенных вычислений.
Решения на основе Hadoop успешно используют не только предприятия корпоративного уровня из различных отраслей, включая таких лидеров ИТ-индустрии, как Facebook, Amazon, Ebay, Yahoo, но и тысячи менее крупных компаний по всему миру.
Актуальность данной работы обусловлена глобальным ростом объёма данных в мире, развитием новых технологий и растущим интересом к данной проблематике со стороны научного сообщества. Принимая во внимание тот факт, что развитие аналитики больших данных рассматривается как основа конкурентных преимуществ компании, игнорирование малыми и средними логистическими компаниями данных технологий может, в теории, привести к их полному уходу с рынка.
Объектом исследования выступают Big Data. Предметом исследования является особенности технологии Hadoop.
Цель работы – изучение основ и базовых компонент Hadoop. Поставленная цель предполагает решение следующих задач:
рассмотреть основные понятия Big Data;
исследовать основы и базовый набор компонентов Hadoop;
проанализировать использование технологии Hadoop на предприятиях и ее ключевые преимущества.
Методологической базой данной работы явились изучение научной литературы, анализ и синтез, а также, методы системного подхода.

1 Основные понятия Big Data
Большие данные, появившиеся в результате изменения структуры генерируемых данных и развития новых технологий, привлекают к себе все больше внимания, как со стороны учёных, так и со стороны практиков бизнеса. Логистические провайдеры в данном случае не исключение.
Все больше компаний внедряют у себя аналитику больших данных для всестороннего развития бизнеса и получения дополнительных конкурентных преимуществ. При этом можно говорить об аналитике больших данных, как о глобальном тренде, меняющем сам подход к управлению организациями.
Технологии Big Data позволяют обработать большой объем неструктурированных данных, систематизировать их, проанализировать и выявить закономерности там, где человеческий мозг никогда бы их не заметил. Это открывает совершенно новые возможности по использованию данных [2, с. 9]. На рисунке 1 приведено сравнение традиционной базы данных от базы больших данных.

Рисунок 1 - Сравнение традиционной базы данных от базы больших данных
Само понятие Big Data означает не просто большие пласты данных. Это огромные хранимые и обрабатываемые массивы из сотен гигабайт, и даже петабайт данных. Данных, которые можно обработать и извлечь из них некоторое количество полезной информации. Говоря коротко, можно определить Big Data как совокупность технологий обработки информации для получения информации.
Важно заметить, объемы обрабатываемых через Big Data данных постоянно растут, также, как и растет скорость ее обработки. Развитие этого направления вполне соответствует современному миру, стремительному и инновационному.
Начну с того, что современный российский бизнес в условиях информатизации познает совершенно новые способы создания и распространения информации, что, безусловно, ведет к тому, что возрастает потребность в обработке большого количества информации. Соответственно, в данной ситуации актуальной стала проблема бесконечных потоков информации, а точнее, возможность ее адекватного и оперативного отслеживания, обработки и качественного, а главное, точного анализа.
Большие данные характеризуются тремя основными параметрами: объёмом, скоростью и разнообразием.
Объём означает большие объёмы информации, требующие особых способов её обработки.
Скорость подразумевает сбор и обработку данных в реальном времени без временного лага, или с минимальным временным лагом.
Разнообразие подразумевает, что данные варьируются во времени и контексту, а также не обязательно являются структурированными.
Использование Big data систем анализа данных невозможно без использования системы загрузки данных для их последующей обработки. При использовании больших данных возникает необходимость надежной загрузки этих данных и того как системы загрузки справляются с этой задачей [5, с. 111].
В настоящее время прослеживается динамика увеличения роли «больших данных», представляющих собой огромные массивы неструктурированной информации и являющихся одним из трендов в бизнесе на сегодняшний день

Зарегистрируйся, чтобы продолжить изучение работы

. Из таких «больших данных» сегодня можно выделить ценнейшие сведения для бизнеса.
Безусловно, все это возможно при наличии необходимых технологий. Сегодня получить качественную отчетность и выстроить наиболее точные прогнозы и сложные многомерные модели, а также оптимизировать запасы, разработать программы лояльности и стимулирования спроса позволяют получить именно решения в области бизнес-аналитики.
Отметим, что внастоящее время получают широкое распространение системы распределенного хранения и обработки больших объемов данных. Такие системы находят свое применение не только в наукоемких областях, но и при обработке и анализе данных информационных ресурсов глобальных телекоммуникаций [1, с. 97]. Не вдаваясь в анализ существующих решений в области распределенных вычислений, отметим проект Apache Hadoop фонда Apache Software Foundation, получивший наибольшее распространение и популярность среди крупнейших игроков IT рынка.
Hadoop используется для осуществления поиска по сайтам с большим объёмом данных – Amazon, Вконтакте и т.д. Особенностью системы является защищённость от выхода из строя любого из узлов.

2 Основы Hadoop. Базовый̆ набор компонентов Hadoop
Выпущенная в 2007 году версия 1.0 основанного на Java фреймвока Hadoop стала первым открытым проектом, который учитывал все эти изменения. Его первая версия состоит из двух уровней:
HDFS: распределенная файловая система Hadoop, которая отвечает за хранение данных на нескольких компьютерах.
MapReduce: программная среда для параллельной обработки данных на каждой машине, а также для планирования задач, их мониторинга и перезапуска.
Отметим, что изначально Hadoop был, в первую очередь, инструментом для хранения данных и запуска MapReduce-задач, сейчас же Hadoop представляет собой большой стек технологий, так или иначе связанных с обработкой больших данных (не только при помощи MapReduce).
Статьи Google и реализация этих идей в Hadoop основаны на четырех изменениях в восприятии данных, которые необходимы для учета объема данных:
Системы больших данных должны поддерживать распределение данных. Распределенное хранение набора данных на разных машинах стало неизбежным.
Когда кластеры стали основой хранилища, программное обеспечение должно было научиться учитывать аппаратный сбой, поскольку это неизбежно, особенно если речь идет о сотнях или тысячах компьютеров в кластере.
Поскольку на машинах будут случаться сбои, им нужен новый способ общения друг с другом. В повседневных вычислениях данных машины обычно определяются IP-адресом или именем хоста. Это явное сообщение машин пришлось заменить неявным соединением: при этом одна машина сообщает какой-то другой машине, что она должна обрабатывать некоторые конкретные данные. В противном случае программисты столкнулись бы с проблемой аутентификации – такой же большой, как и сама проблема обработки данных.
Компьютеру нужно будет перейти к данным и обработать их на распределенных машинах, а не перемещать огромное количество данных по сети.
Архитектура HDFS приведена на рисунке 2.

Рисунок 2 - Архитектура HDFS
Технически Hadoop состоит из распределенной файловой системы HDFS, Распределенная файловая система Hadoop, HDFS, представляет собой уровень хранения, который Hadoop использует для распространения и надлежащего хранения данных для обеспечения высокой доступности.
Ветка Hadoop 2.х, выпущенная в декабре 2011 года, представила четыре основных усовершенствования и исправила ключевые ограничения версии 1. Hadoop 2.0 устраняет ограничение производительности и единую точку отказа NameNode. Кроме того, он отделяет MapReduce от HDFS с введением YARN (Yet Another Resource Negotiator), открыв экосистему дополнительных продуктов и разрешив моделям обработки взаимодействовать с HDFS и обходить слой MapReduce.
Для внешнего клиента HDFS (рисунок 3) выглядит как обычная иерархическая файловая система. Вы можете создавать, удалять, перемещать, переименовывать файлы и так далее. Однако в силу особенностей HDFS архитектура этой файловой системы основана на наборе специальных узлов (см. рисунок 1) [3]. Это узел типа NameNode (существует в единственном экземпляре), выполняющий роль служб метаданных HDFS, и узлы типа DataNode, служащие блоками хранения данных HDFS. Существование всего одного узла типа NameNode является проблемой HDFS (единичная точка отказа).

Рисунок 3 - Для внешнего клиента HDFS
Если в предыдущих версиях NameNode прекращал работу, весь кластер был недоступен, пока NameNode не перезапустится или не появится на новом компьютере. Модернизация программного или аппаратного обеспечения NameNode также создавала окна простоя. Чтобы предотвратить это, Hadoop 2.0 реализовал конфигурацию active/passive, чтобы обеспечить быстрый переход на другой ресурс.
Хранящиеся в HDFS файлы разделены на блоки, которые реплицируются на несколько компьютеров (узлы DataNode). Это отличается от традиционных RAID-архитектур. Размер блока (обычно 64 МБ) и количество его реплик определяются клиентом в момент создания файла. Все файловые операции управляются узлом NameNode. Все взаимодействия внутри HDFS основаны на стандартном протоколе TCP/IP.
Таким образом, платформа продолжает работать даже если какой-то из серверов выходит из строя. HDFS заточена под потоковые считывания файлов, и они записываются в системе лишь однократно, так что внесение произвольных записей в файлы невозможно в принципе. При этом приложения Hadoop могут работать с файлами распределенной файловой системы через программный интерфейс Java.
Таким образом, Hadoop это:
Отличный парсер неструктурированных данных;
Замечательная ETL машина;
Замечательный инструмент для обработки большого объема данных, лежащих в одной таблице;
Инструмент для работы с разреженными данными;
Хорошее дополнение к реляционной базе данных;
Hadoop не является заменой реляционным СУБД (в силу ограниченности функционала).
К основным компонентам экосистемы Hadoop относятся:
HDFS (Hadoop Distributed File System) – распределенная файловая система, предназначенная для хранения больших объемов данных и делегирующая копии данных в вычислительные узлы кластера;
MapReduce – фреймворк, основа для программирования модели распределенных вычислений, написания приложений для быстрой обработки массивов информации на крупных кластерах;
Hadoop Common: библиотеки управления файловыми системами и сценариями распределенной обработки данных;
YARN (Yet Another Resource Negotiator) – система управления кластерными ресурсами и планированием заданий.
Экосистема предусматривает создание и подключение дополнительных модулей для совершения таких операций, как создание распределенных приложений, обмен данными со структурированными системами данных, представление данных в виде таблиц, планирование заданий и др.
Hadoop 2.0 отделяет MapReduce от HDFS

50% реферата недоступно для прочтения

Закажи написание реферата по выбранной теме всего за пару кликов. Персональная работа в кратчайшее время!

Big Data/Основы Hadoop. Базовый набор компонентов Hadoop.

Зарегистрируйся, чтобы продолжить изучение работы

50% реферата недоступно для прочтения

Современные тенденции и приоритеты информационных процессов

Дисковые массивы и уровни RAID

Закрепление знаний в области стратегии развития информационных систем