Како стругати веб странице помоћу Питхона

Понекад ћете можда желети да издвојите податке са веб локације у други формат. Али шта ако веб локација нема лак начин за извоз тих података? Овде долази до стругања веба.

На ИоуТубе каналу фрееЦодеЦамп.орг објавили смо курс за пад који ће вас научити како да изводите стругање по мрежи помоћу Питхон библиотеке Беаутифул Соуп.

Овај курс је развио Јим Ергин из ЈимСхапедЦодинг. Јим већ дуги низ година користи и подучава Питхон.

Беаутифул Соуп ће вам омогућити да прикупите све информације које желите са било које веб локације коју желите. То може бити веб локација банке, друштвени медији, Википедиа или било која друга веб локација.

Беаутифул Соуп пружа методе за навигацију, претрагу и модификовање стабла за рашчлањивање. Олакшава сецирање ХТМЛ документа и издвајање података који су вам потребни. А за писање апликације није потребно пуно кода.

На овом курсу ћете прво научити како стругати основну ХТМЛ страницу само да бисте научили концепте. Затим ћете прећи на стругање праве веб странице. На крају ћете научити како да складиштите податке које стружете са веб локације.

Ево тема које су обрађене на овом курсу:

  • Основна ХТМЛ структура, објашњење ХТМЛ тагова
  • Инсталација пакета
  • Стругање локалних датотека
  • Беаутифул Соуп финд & финд_алл () методе
  • Алат за преглед веб прегледача
  • Грабање цена у основном пројекту стругања веба
  • Коришћење библиотеке захтева да бисте видели ХТМЛ веб странице  
  • Стругање производне веб странице
  • Прелиставајући сличне супе.финд_алл () објекте
  • Филтрирање струганих послова
  • Постављање пројекта за стругање сваких 10 минута
  • Похрањивање пасуса послова у текстуалним датотекама

Погледајте целокупан курс пада на ИоуТубе каналу фрееЦодеЦамп.орг (једносатно гледање).