Semalt - Kako strgati spletne strani?

Beautiful Soup je knjižnica Python, ki se pogosto uporablja za strganje spletnih strani z ustvarjanjem razčlenjenega drevesa iz dokumentov XML in HTML. Spletno strganje, tehnika pridobivanja podatkov s spletnih strani in strani, se pogosto uporablja na področjih analize podatkov in upravljanja. V večini primerov je programski jezik Python predpogoj v znanosti o podatkih.

Python 3 ima orodja in module za strganje, ki jih lahko uporabite za svoj projekt upravljanja podatkov. Trenutno deluje kot Beautiful Soup 4, ta modul je združljiv tako s Python 3 kot s Python 2.7. Modul Beautiful Soup 4 lahko ustvari tudi drevo razčlenjevanja za nesklepno juho z oznakami. V tej vadnici boste izvedeli, kako strgati stran in zapisati strgane podatke v datoteko CSV.

Začetek

Za začetek v računalniku nastavite strežnik ali lokalno okolje za kodiranje Python-a. Na svoj stroj namestite tudi modul Beautiful Soup and Requests. Poznavanje dela z obema moduloma je tudi nujen pogoj. Dodatna prednost je tudi poznavanje označevanja in strukture HTML.

Razumevanje vaših podatkov

V tem okviru bodo uporabljeni resnični podatki iz Nacionalne umetniške galerije, ki vam bodo pomagali razumeti, kako uporabljati Beautiful Soup 4. Nacionalna umetniška galerija obsega 120.000 del, ki jih je približno 13.000 umetnikov. The Art ima sedež v Washingtonu, ZDA.

Črpanje spletnih podatkov s funkcijo Beautiful Soup ni tako zapleteno. Če se na primer osredotočite na črko Z, označite in zapišite ime na seznamu. V tem primeru je prvo ime Zabaglia, Niccola. Za doslednost navedite število strani in ime zadnjega izvajalca na tej strani.

Kako uvoziti zahteve in knjižnico Beautiful Soup

Za uvoz knjižnic aktivirajte programsko okolje Python 3. Preverite, ali ste v istem imeniku s svojim programskim okoljem. Zaženite naslednji ukaz. my_env / bin / activate.

Ustvarite novo datoteko in začnite uvažati knjižnice Beautiful Soup and Requests. Knjižnica zahtevkov vam bo omogočila uporabo HTTP v vaših programih Python v berljivih oblikah. Lepa juha na drugi strani deluje na hitro strganje strani. Uporabite bs4 za uvoz Beautiful Soup.

Kako zbrati in razčleniti spletno stran

Z uporabo zahtevkov zbirajte URL svoje prve strani. URL prve strani bo dodeljen strani s spremenljivko. Izdelajte objekt BeautifulSoup iz zahtevkov in razčistite predmet iz razpravljalnika Pythonov.

Cilj te vadnice je zbrati povezave in imena umetnikov. Na primer, lahko zbirate datume in narodnosti umetnikov. Za uporabnike sistema Windows z desno miškino tipko kliknite ime izvajalca. V tem primeru uporabite Zabaglia, Niccola. Za uporabnike Mac OS tapnite "CTRL" in kliknite ime. Kliknite meni "Pregledaj element", ki se prikaže na zaslonu za dostop do orodij spletnih razvijalcev. Natisnite imena izvajalca, da bo Beautiful Soup hitro razčlenil drevo.

Odstranjevanje spodnjih povezav

Če želite odstraniti spodnje povezave na svoji spletni strani, preglejte DOM tako, da element kliknete z desno miškino tipko. Ugotovili boste, da so povezave pod tabelo HTML. S čudovito juho odstranite oznake z razčlenjenega drevesa s pomočjo metode "razpad".

Kako potegniti vsebino iz oznake

Ni vam treba natisniti celotne oznake povezav, za odstranitev materiala z oznake uporabite Beautiful Soup. URL-je, povezane z izvajalci, lahko zajamete tudi z uporabo Beautiful Soup 4.

Zajem strganih podatkov v datoteko CSV

Datoteka CSV vam bo omogočila shranjevanje strukturiranih podatkov v navadno besedilo, obliko, ki se večinoma uporablja za podatkovne liste. Priporočljivo je znanje o ravnanju z navadnimi besedilnimi datotekami v Pythonu.

Črpanje spletnih podatkov se uporablja za strganje strani in pridobivanje informacij. Bodite previdni do spletnih mest, s katerih pridobite informacije o črpanju. Nekatera dinamična spletna mesta na svojih spletnih mestih omejujejo pridobivanje spletnih podatkov. Strganje strani z Beautiful Soup in Python 3 je tako preprosto.