Chrome Web Scraper Tutorial Ó Shaineolaí Semalt

Má tá Google Chrome á úsáid agat, tá síneadh le haghaidh do bhrabhsálaí a chabhróidh le leathanaigh ghréasáin a scrabhadh. Tugtar '' Scrapper, '' air agus is féidir é a úsáid gan fadhbanna. Cuideoidh Scrapper le hábhar láithreán gréasáin a scríobadh agus na torthaí a uaslódáil chuig cáipéisí Google.

Conas suíomh Gréasáin a scrapadh ag úsáid síneadh Scraper?

1. Roghnaigh Chrome Web Store i Google Chrome;

2. I síntí, déan cuardach ar '' Scrapper '';

3. Is é an chéad toradh cuardaigh an síneadh ar a dtugtar '' Scrapper '';

4. Roghnaigh an cnaipe atá liostaithe mar '' Cuir le Chrome ";

5. Téigh ar ais chuig liostú Básanna na RA;

6. Cliceáil ar an nasc seo a leanas;

7. Anois lorg MP amháin agus déan cinnte go bhfuil an iontráil marcáilte;

8. Deaschliceáil chun an rogha "Scrape Cosúil ..." a roghnú;

9. Beidh an consól le haghaidh scrapper pop suas i bhfuinneog eile;

10. Féach ar an ábhar scríobtha sa chonsól scraper;

11. Chun a chinntiú go sábhálfar an t-ábhar mar Scarbhileog Google, roghnaigh "Sábháil go Google Docs ..."

Scrapáil leathnaithe

Sula gcloíonn tú leis an oideas seo, tá sé úsáideach buneilimintí HTML a thuiscint. Mar shampla, is féidir leat réamhrá gairid ar HTML a léamh tríd an nasc seo

Samhlaímid go bhfuil suim againn i ngach scannán ar a raibh Asia Argento, aisteoir cáiliúil Iodálach.

1. Tá cartlann an-mhionsonraithe d’aisteoirí in IMDB. Is é suíomh Áise na hAirgintíne: http://www.imdb.com/name/nm0000782/;

2. Anseo, is féidir leat féachaint ar na róil go léir a imríonn an t-aisteoir. Tosaímid ag scriosadh na faisnéise a bhfuil suim againn ann;

3. Déan iarracht é a scrabhadh ar an mbealach a ndearnadh cur síos air thuas;

4. Feicfidh tú go bhfuil an liosta rud beag as a riocht. Tarlaíonn sé seo toisc gur féidir an liosta anseo a struchtúrú ar bhealach difriúil;

5. Ceann go dtí an consól scraper. Ar chlé ar chlé, feicfidh tú an bosca beag atá ag rá XPath;

6. Is cineál teanga fiosrúcháin é Xpath a oibríonn do XML agus HTML;

7. Is féidir le XPath cuidiú leis na codanna den leathanach a bhfuil suim agat iontu a aimsiú. Is é an chéad rud eile eilimint oiriúnach a aimsiú agus an XPath a scríobh dó;

8. Anois déanaimis ár mbord a shocrú;

9. Feicfidh tú gurb é an XPath atá againn cheana féin, a bhfuil na sonraí go léir ag teastáil uaidh ná "// div [3] / div [3] / div [2] / div";

10. Cuireann XPath an Córas ar an eolas chun an doc HTML a fheiceáil agus an tríú heilimint a roghnú, ansin an dara heilimint agus ansin iad go léir;

11. Ach, ba mhaith linn go mbeadh ár gcuid sonraí scartha amach;

12. Úsáid roinn na gcolún sa chonsól le haghaidh scrapper chun é seo a dhéanamh;

13. Faighimid ár dteideal ar dtús њІР‚в Úsáid Eilimint Iniúchta chun an teideal a fheiceáil;

14. Seiceáil an teideal laistigh de chlib. Cuir an chlib leis an XPath;

15. Dealraíonn sé go bhfeidhmíonn an abairt go cuí, mar sin déan é inár gcéad cholún;

16. Sa chuid "Colúin", cuir "teideal" in ionad ainm an chéad cholúin;

17. Cuir an XPath leis;

18. Sa chuid colún, tá na XPaths coibhneasta agus ciallaíonn sé go roghnóidh "./b" an eilimint <b>

19. Sa XPath don cholún teidil, cuir "./b" agus roghnaigh "scrape";

20. Anois déanaimis coinneáil ar feadh bliana. Is féidir blianta a fháil laistigh de réise amháin;

21. Cruthaigh colún nua tríd an móide beag in aice leis an gcolún a roghnú do do theideal;

22. Ag baint úsáide as XPath "./span" cruthaigh colún don "bhliain";

23. Cliceáil scrape agus féach conas a cuireadh an bhliain leis;

24. Arna dhéanamh!

mass gmail