Кратки преглед Апацхе Хадооп оквира

Хадооп, сада познат као Апацхе Хадооп, добио је име по слону играчака који је припадао сину суоснивача Доуга Цуттинга. Даг је изабрао име за пројекат отвореног кода јер га је било лако написати, изговорити и пронаћи у резултатима претраге. Оригинални жути плишани слон који је инспирисао име појављује се у Хадооповом логотипу.

Шта је Апацхе Хадооп?

Софтверска библиотека Апацхе Хадооп је оквир који омогућава дистрибуирану обраду великих скупова података кроз кластере рачунара користећи једноставне моделе програмирања. Дизајниран је за проширивање са појединачних сервера на хиљаде машина, од којих сваки нуди локално рачунање и складиштење. Уместо да се ослања на хардвер да би пружио високу доступност, сама библиотека је дизајнирана да открива и обрађује кварове на слоју апликације, тако да пружа високо доступну услугу на врху кластера рачунара, од којих сваки може бити склон кваровима.

Извор: Апацхе Хадооп

2003. године Гоогле је објавио свој рад о Гоогле систему датотека (ГФС). У њему је детаљно описан власнички систем дистрибуираних датотека намењен пружању ефикасног приступа великим количинама података помоћу робног хардвера. Годину дана касније, Гоогле је објавио још један рад под називом „МапРедуце: Поједностављена обрада података на великим кластерима“. У то време, Даг је радио у Иахоо-у. Ови радови су били инспирација за његов пројекат отвореног кода Апацхе Нутцх. 2006. компоненте пројекта тада познате као Хадооп иселиле су се из Апацхе Нутцх-а и пуштене су.

Зашто је Хадооп користан?

Свакодневно се стварају милијарде гигабајта података у разним облицима. Неки примери често креираних података су:

  • Метаподаци о употреби телефона
  • Евиденције веб страница
  • Трансакције куповине кредитне картице
  • Објаве на друштвеним мрежама
  • Видеос
  • Информације прикупљене из медицинских уређаја

„Велики подаци“ се односе на скупове података који су превелики или сложени за обраду помоћу традиционалних софтверских апликација. Фактори који доприносе сложености података су величина скупа података, брзина доступних процесора и формат података.

У време изласка, Хадооп је био способан да обрађује податке у већем обиму од традиционалног софтвера.

Цоре Хадооп

Подаци се чувају у систему дистрибуираних датотека Хадооп (ХДФС). Користећи смањење карте, Хадооп обрађује податке у паралелним комадима (обрађујући неколико делова истовремено), уместо у једном реду. Ово смањује време потребно за обраду великих скупова података.

ХДФС функционише чувањем великих датотека подељених у делове и њиховим умножавањем на многим серверима. Имати више копија датотека ствара вишак, који штити од губитка података.

Екосистем Хадооп

Постоје многи други софтверски пакети који допуњују Хадооп. Ови програми састоје се од Хадооп екосистема. Неки програми олакшавају учитавање података у Хадооп кластер, док други чине Хадооп лакшим за употребу.

Екосистем Хадооп укључује:

  • Апацхе Хиве
  • Апацхе Пиг
  • Апацхе ХБасе
  • Апацхе Пхоеник
  • Апацхе Спарк
  • Апацхе ЗооКеепер
  • Цлоудера Импала
  • Апацхе Флуме
  • Апацхе Скооп
  • Апацхе Оозие

Више информација:

  • Апацхе Хадооп