Како направити скалабилни цевовод за аналитику података

Свака апликација генерише податке, али шта ти подаци значе? Ово је питање на које су ангажовани сви научници за податке.

Нема сумње да су ове информације најдрагоценија роба за посао. Али стварање смисла за податке, стварање увида и њихово претварање у одлуке је још важније.

Како подаци непрестано расту, цевоводи за аналитику података морају бити прилагодљиви да би прилагодили брзину промена. Из тог разлога, одабир постављања цевовода у облаку има сасвим смисла (јер облак нуди скалабилност и флексибилност на захтев).

У овом чланку ћу демистификовати како да направим скалабилни и прилагодљиви цевовод за обраду података у Гоогле Цлоуд-у. И не брините - ови концепти су применљиви у било ком другом облаку или на локалном цевоводу података.

5 корака за стварање цевовода за аналитику података:

  • Прво уносите податке из извора података
  • Затим обрадите и обогатите податке како би их ваш низводни систем могао користити у формату који најбоље разуме.
  • Затим податке смештате у језеро података или у складиште података или за дугорочно архивирање или за извештавање и анализу.
  • Затим можете анализирати податке додавањем у аналитичке алате.
  • Примените машинско учење за предвиђања или направите извештаје које ћете делити са својим тимовима.

Прођимо кроз сваки од ових корака детаљније.

Како снимити податке

У зависности одакле долазе ваши подаци, можете да имате више опција за њихово уношење.

  • Користите алате за миграцију података за миграцију података из локалног или из једног облака у други. Гоогле Цлоуд у ту сврху нуди услугу преноса складишног простора.
  • Да бисте унијели податке са независних саас услуга, користите АПИ-је и пошаљите их у складиште података. У Гоогле Цлоуд БигКуери-у, складиште података без сервера пружа услугу преноса података која вам омогућава да унесете податке из саас апликација као што су ИоуТубе, Гоогле Адс, Амазон С3, Терадата, РесСхифт и још много тога.
  • Такође можете да стримујете податке из својих апликација у реалном времену помоћу услуге Пуб / Суб. Конфигуришете извор података да поруке догађаја прослеђује у Пуб / Суб одакле претплатник преузима поруку и предузима одговарајуће радње на њој.
  • Ако имате ИоТ уређаје, они могу да преносе податке у реалном времену помоћу Цлоуд ИоТ језгра које подржава МКТТ протокол за ИоТ уређаје. ИоТ податке можете да пошаљете и на Пуб / Суб.

Како се обрађују подаци

Једном када се подаци унесу, потребно их је обрадити или обогатити како би постали корисни за низводне системе.

Три су главна алата која вам помажу у томе у Гоогле Цлоуд-у:

  • Датапроц се у основи управља Хадооп-ом. Ако користите Хадооп екосистем, тада знате да може бити компликовано поставити га, укључујући сате, па чак и дане. Датапроц може да заврти кластер за 90 секунди, тако да можете брзо да почнете да анализирате податке.
  • Датапреп је интелигентан алат за графички кориснички интерфејс који аналитичарима података омогућава брзу обраду података без писања било ког кода.  
  • Проток података је услуга обраде података без сервера за струјање и скупне податке. Заснован је на СДК-у отвореног кода Апацхе Беам који чини ваше цевоводе преносним. Услуга одваја складиште од рачунара, што му омогућава неприметно прилагођавање. За више детаља погледајте ГЦПСкетцхноте у наставку.

Како чувати податке

Једном обрађени, податке морате да сачувате у језеру података или у складишту података или за дугорочно архивирање или за извештавање и анализу.

Два су главна алата који вам помажу у томе у Гоогле Цлоуд-у:

Гоогле Цлоуд Стораге је складиште предмета за слике, видео записе, датотеке итд., Које се испоручује у 4 врсте:

  1. Стандардно складиште: погодно за „вруће“ податке којима се често приступа, укључујући веб локације, стримовање видео записа и мобилне апликације.
  2. Складиштење у близини: Ниска цена. Погодно за податке који се могу чувати најмање 30 дана, укључујући сигурносне копије података и мултимедијални садржај са великим репом.
  3. Складиштење са хладном линијом: Веома ниска цена. Погодно за податке који се могу чувати најмање 90 дана, укључујући опоравак од катастрофе.
  4. Складиштење архиве: најнижа цена. Погодно за податке који се могу чувати најмање 365 дана, укључујући регулаторне архиве.

БигКуери је складиште података без сервера које се неприметно скалира до петабајта података без потребе за управљањем или одржавањем било ког сервера.

Можете да складиштите и тражите податке у БигКуери-у користећи СКЛ. Тада лако можете да делите податке и упите са другима у свом тиму.

Такође садржи 100 бесплатних јавних скупова података које можете користити у својој анализи. Такође пружа уграђене конекторе за друге услуге, тако да се подаци могу лако уносити у њих и вадити из њих за визуализацију или даљу обраду / анализу.

Како анализирати податке

Када се подаци обраде и ускладиште у језеру података или складишту података, спремни су за анализу.  

Ако за складиштење података користите БигКуери, тада можете директно анализирати те податке у БигКуерију помоћу СКЛ-а.

Ако користите Гоогле Цлоуд Стораге, можете лако преместити податке у БигКуери.

БигКуери такође нуди функције машинског учења са БигКуериМЛ. Тако можете креирати моделе и предвидети директно из корисничког интерфејса БигКуери користећи можда познатији СКЛ.

Како се користе и визуализују подаци

Коришћење података

Једном када се подаци налазе у складишту података, можете их користити за добијање увида и предвиђање помоћу машинског учења.

За даљу обраду и предвиђања можете користити оквир Тенсорфлов и АИ платформу, у зависности од ваших потреба.

Тенсорфлов је универзална платформа за машинско учење отвореног кода са алатима, библиотекама и ресурсима заједнице.

АИ платформа олакшава програмерима, научницима података и инжењерима података да поједноставе свој МЛ радни ток. Укључује алате за сваку фазу животног циклуса МЛ-а почев од Припрема -> Израда -> Провера ваљаности -> Примена.

Визуелизација података

Постоји много различитих алата за визуелизацију података, а већина их има конектор за БигКуери за лако креирање графикона у алату по вашем избору.

Гоогле Цлоуд нуди неколико алатки које би вам могле бити корисне.

  • Дата Студио је бесплатан и повезује се не само са БигКуери већ и са многим другим услугама за једноставну визуализацију података. Ако сте користили Гоогле диск, дељење графикона и контролних табли је управо такво - изузетно лако.
  • Поред тога, Лоокер је пословна платформа за пословну интелигенцију, апликације за податке и уграђену аналитику.

Закључак

Много се тога догађа у цевоводу за аналитику података. Који год алат да одаберете да користите, побрините се да се може повећати како ваши подаци буду расли у будућности.

За више таквих садржаја можете ме пратити на Твиттеру, @пвергадиа и посетити моју веб страницу, тхецлоудгирл.дев.