Како започети са Датабрицкс-ом

Када сам почео да учим Спарк са Писпарк-ом, наишао сам на платформу Датабрицкс и истражио је. Ова платформа је олакшала подешавање окружења за покретање Спарк-ових оквира података и вежбање кодирања. Овај пост садржи неколико корака који вам могу помоћи да започнете са Датабрицкс-ом.

Датабрицкс је платформа која ради на врху Апацхе Спарк-а. Погодно је за подешавање система Нотебоок. Кластере се лако може обезбедити у облаку, а такође укључује интегрисани радни простор за истраживање и визуелизацију.

Такође можете заказати прелазак било које постојеће свеске или локално развијеног Спарк кода из прототипа у производњу без поновног инжењеринга.

1. Подесите налог Датабрицкс

Да бисте започели са упутством, дођите до ове везе и одаберите бесплатно издање заједнице да бисте отворили свој налог. Ова опција има један кластер са до 6 ГБ бесплатног простора за складиштење. Омогућава вам стварање основне бележнице. За верификацију налога биће вам потребна важећа адреса е-поште.

Овај екран ћете посматрати након што се успешно пријавите на свој налог.

2. Стварање новог кластера

Почињемо са стварањем новог кластера на којем ћемо изводити наше програме. Кликните на „Кластер“ на главној страници и унесите ново име кластера.

Затим треба да изаберете верзију „Датабрицкс Рунтиме“. Датабрицкс Рунтиме је скуп основних компоненти које се изводе на кластерима којима управља Датабрицкс. Укључује Апацхе Спарк, али такође додаје бројне компоненте и исправке за побољшање употребљивости и перформанси алата.

Можете одабрати било коју верзију рубрике Датабрицкс - изабрао сам 3.5 ЛТС (укључује Апацхе Спарк 2.2.1, Сцала 2.11). Такође имате могућност избора између Питхон 2 и 3.

Требаће вам неколико минута да створите кластер. После неког времена на контролној табли бисте могли да видите активни кластер.

3. Израда нове бележнице

Хајде да креирамо нову бележницу на којој можете да покрећете свој програм.

На главној страници притисните „Нова бележница“ и унесите име за бележницу. Изаберите језик по свом избору - овде сам изабрао Питхон. Можете видети да Датабрицкс подржава више језика, укључујући Сцала, Р и СКЛ.

Једном када унесете детаље, приметићете да је изглед бележнице веома сличан Јупитер бележници. Да бисмо тестирали свеску, увезимо писпарк.

Команда се извршила за 0,15 секунди и такође даје име кластера на којем се изводи. Ако у коду постоје грешке, приказаће се испод цмд оквира.

Можете да притиснете икону тастатуре у горњем десном углу странице да бисте видели пречице специфичне за оперативни систем.

Овде су најважније пречице:

  • Схифт + Ентер за покретање ћелије
  • Цтрл + Ентер наставља да покреће исту ћелију без преласка на следећу ћелију

Имајте на уму да су ове пречице за Виндовс. Пречице специфичне за ОС за ваш ОС можете да проверите на икони тастатуре.

4. Учитавање података у Датабрицкс

Идите на одељак „Табеле“ на левој траци и притисните „Направи табелу“. Можете да отпремите датотеку или да се повежете са извором података Спарк или неком другом базом података.

Отпремимо овде често коришћену датотеку скупа података ириса (ако немате скуп података, користите ову везу)

Након што отпремите податке, направите табелу помоћу корисничког интерфејса како бисте могли да је визуализујете и прегледате на кластеру. Као што видите, можете уочити атрибуте табеле. Спарк ће покушати да открије тип података сваке од колона и омогућава вам и да га уредите.

Сада морам да поставим заглавља за колоне, тако да могу да идентификујем сваку колону по заглављу уместо _c0, _c1и тако даље.

Њихова заглавља стављам као дужину сепала, ширину сепала, дужину латица, ширину латица и класу. Овде је Спарк погрешно открио тип података прва четири ступца као Стринг, па сам га променио у жељени тип података - Флоат.

5. Како приступити подацима из бележнице

Спарк је оквир који се може користити за анализу великих података помоћу СКЛ-а, машинског учења, обраде графова или анализе струјања у реалном времену. У овом упутству ћемо радити са СпаркСКЛ-ом и Датафрамес-ом.

Почнимо са радом са подацима на бележници. Подаци које смо учитали сада су стављени у табеларни формат. Потребан нам је СКЛ упит да бисмо прочитали податке и ставили их у оквир података.

Тип df = sqlContext.sql(“SELECT * FROM iris_data”)за читање података о ирису у оквир података.

Да бих погледао првих пет редова у оквиру података, могу једноставно да покренем команду:

display(df.limit(5))

Приметите икону тракастог графикона на дну. Једном када кликнете, можете прегледати податке које сте увезли у Датабрицкс. Да бисте видели тракасти графикон комплетних података, покрените display(df)уместо display(df.limit(5)).

Дугме са падајућим менијем омогућава вам да визуализујете податке на различитим графиконима као што су трака, пита, расејање итд. Такође вам даје опције цртања за прилагођавање парцеле и визуализацију само одређених колона.

Такође можете приказати фигуре матплотлиб и ггплот у Датабрицкс. За демонстрацију погледајте Матплотлиб и ггплот у Питхон бележницама.

Да бисте прегледали све колоне података, једноставно откуцајте df.columns

Покрените да бисте избројали колико укупно редова постоји у Датафраме-у (и видели колико је времена потребно за потпуно скенирање са удаљеног диска / С3) df.count().

6. Претварање Спарк оквира података у Пандас оквир података.

Сада ако вам је угодно да користите оквире података панди и желите да претворите свој Спарк оквир података у панде, то можете учинити стављањем команде

import pandas as pdpandas_df=df.to_pandas()

Сада можете користити операције pandas_dfпанди на оквиру података.

7. Преглед корисничког интерфејса Спарк

Кориснички интерфејс Спарк садржи мноштво информација потребних за отклањање грешака у пословима Спарк-а. Постоји гомила сјајних визуализација, па погледајмо их укратко.

Да бисте прешли на Спарк УИ, морате да одете на врх странице где постоје неке опције менија као што су „Датотека“, „Поглед“, „Код“, „Дозволе“ и друге. Име кластера ћете наћи на врху поред „Приложено“ и падајуће дугме поред њега. Притисните падајуће дугме и одаберите „Виев Спарк УИ“. Отвориће се нова картица са пуно информација на вашој бележници.

Поглед корисничког интерфејса даје обиље информација о сваком задатку изведеном на кластеру, фазама, окружењу и извршеним СКЛ упитима. Ово корисничко сучеље може бити корисно за кориснике при отклањању грешака у њиховим апликацијама. Такође, овај кориснички интерфејс даје добру визуализацију статистика стриминга Спарк. Да бисте детаљније сазнали о сваком аспекту корисничког интерфејса Спарк, погледајте ову везу.

Када завршите са бележницом, можете је објавити или извести датотеку у различите формате датотека, тако да је неко други може користити помоћу јединствене везе. Приложио сам своју бележницу у ХТМЛ формату.

Окончање

Ово је кратак преглед како можете брзо започети рад са Датабрицкс-ом и покренути своје програме. Предност употребе Датабрицкс-а је што нуди енд-то-енд услугу за изградњу аналитике, складиштења података и апликација за машинско учење. Читавим кластером Спарк може се управљати, надгледати и осигурати помоћу самопослужног модела Датабрицкс-а.

Ево неколико занимљивих веза за научнике података и за инжењере података. Такође, ево водича који сам сматрао веома корисним и сјајним за почетнике.