Преглед садржаја
Тхе Стругање екрана или стругање екрана, омогућава нам да извучемо информације са веб странице преузимањем наведене странице и накнадном обрадом помоћу програма; Ово је веома корисно, посебно када су нам потребне ажуриране информације са веб локације која их нема АПИ доступни или неки Веб сервис.Да бисте извршили а Стругање екрана, једноставно морамо преузети садржај и моћи њиме манипулирати како бисмо могли издвојити оно што нас занима, за то можемо користити различите технике попут употребе регуларних израза или можда помоћи себи у другим библиотекама, као што су Уредно.
Шта је Тиди?
Да бисте могли да читате а ХТМЛ Морамо вјеровати његовој структури, јер јер не знамо тачно који садржај има, барем знамо да ако тражимо структуре ХТМЛ нешто што можемо добити, међутим, није увек то ХТМЛ добро је обликован, било због грешке у изостављању, било зато што програмер зна да неки прегледачи теже тумачењу ХТМЛ -а чак и ако постоје недостаци.
У овом тренутку долази до изражаја Уредно, који није ништа друго до алат који нам омогућава поправљање погрешно обликованог ХТМЛ -а, високо се конфигурише и омогућава нам да прилагодимо начин на који треба да тумачи исправке које може да унесе, на овај начин ћемо са сигурношћу знати коју врсту документа резултираће на крају.
Хајде прво да видимо слику кода ХТМЛ Уз много грешака, неки претраживачи могу протумачити овај код, међутим то није исправан код његовог формирања:
Као што видимо, сваки ред практично има грешку, најчешћи је затварање ознака, затим видимо ознаке које се затварају на погрешном месту итд.
Затим користимо Уредно и да видимо код већ исправљен, тамо ћемо схватити колико је ова библиотека важна и сву помоћ коју нам може пружити:
На слици видимо како је то исправљено Уредно, морамо напоменути да, иако је Тиди велика библиотека, вјероватно не може ријешити све грешке ХТМЛМеђутим, много нам помаже када је у питању изградња добро обликованог ХТМЛ-а.
Гет Тиди
Постоји неколико начина да набавите Тиди преко његове службене странице хттп: / /тиди.сф.нет. можемо набавити библиотеку, међутим у том извору нема начина да је интегришемо Питхон тако да морамо прибећи алтернативном извору, за то имамо две могућности: уТиди доступно на хттп: / /утидилиб.берлиос.де и мкТиди доступно на хттп://егеник.цом/филес/питхон/мкТиди.хтмл, чини се да је уТиди најновији од ова два, али мкТиди је мало лакше инсталирати, на свима је да виде који користити.
Погледајмо пример како се користи Уредно Када га инсталирамо, у следећем коду ћемо отворити ХТМЛ са грешкама и прочитати га користећи Тиди, а затим ћемо приказати информације на екрану.
из потпроцеса увози Попен, ПИПЕ тект = опен ('месси.хтмл'). реад () тиди = Попен ('тиди', стдин = ПИПЕ, стдоут = ПИПЕ, стдерр = ПИПЕ) тиди.стдин.врите (тект) уредно. стдин.цлосе () принт тиди.стдоут.реад ()
Као што видимо, употреба је прилично једноставна УредноКада имамо довољно поверења у њу ако добро познајемо понашање библиотеке, можемо постићи веома занимљиве ствари.Да ли вам се допао и помогао овај водич?Можете наградити аутора притиском на ово дугме да бисте му дали позитиван поен