Back to Question Center
0

Semalt - Hoe om webbladsye te skraap?

1 answers:
Pragtige Sop is 'n Python-biblioteek wat wyd gebruik word om webbladsye te skraap deur 'n parse-boom te skep.

uit XML- en HTML-dokumente. Webskrape, 'n tegniek om data uit webwerwe en bladsye te onttrek, word wyd gebruik in data-analise en bestuursvelde - application company. In die meeste gevalle is Python-programmeertaal 'n voorvereiste in datavetenskap.

Python 3 het skrapprogramme en modules wat u kan toepas op u data bestuursprojek. Op die oomblik as Pragtige Sop 4, is hierdie module verenigbaar met beide Python 3 en Python 2. 7. Pragtige Sop 4-module is ook in staat om 'n parse-boom te skep vir nie-geslote tag sop. In hierdie handleiding leer jy hoe om die bladsy te krap en die gekrapte data na 'n CSV-lêer te skryf.

Aan die begin

Om te begin, stel 'n bediener of plaaslike gebaseerde Python-koderingomgewing op jou rekenaar op. Jy moet ook die Mooi Sop en Versoeke-module op jou masjien installeer. Kennis van werk met beide modules is ook 'n vereiste. Vertroudheid met HTML-tagging en -struktuur is ook 'n bykomende voordeel.

Verstaan ​​u data

In hierdie konteks sal werklike data van die Nasionale Kunsmuseum gebruik word om u te help verstaan ​​hoe om Pragtige Sop 4 te gebruik.Nasionale Kunsmuseum bestaan ​​uit 120 000 stukke wat deur ongeveer 13 000 kunstenaars gedoen word. Die kuns is gebaseer in Washington D. C, Verenigde State.

Web data-ekstraksie met pragtige sop is nie so ingewikkeld nie. As u byvoorbeeld op letter Z fokus, merk en merk die voornaam op die lys neer. In hierdie geval is die eerste naam Zabaglia, Niccola. Vir konsekwentheid, dui die aantal bladsye en die naam van die laaste kunstenaar op daardie bladsy aan.

Hoe om versoeke en pragtige sop biblioteek in te voer

Om biblioteke in te voer, aktiveer jou Python 3 programmeringsomgewing. Maak seker dat jy in dieselfde gids met jou programmeringsomgewing is. Begin die volgende opdrag om te begin. my_env / bin / aktiveer.

Skep 'n nuwe lêer en begin met die invoer van Mooi Sop en Versoeke biblioteke. Versoeke biblioteek sal toelaat dat jy HTTP in jou Python programme in leesbare formate gebruik. Pragtige Sop, aan die ander kant, werk vinnig om bladsye te skraap. Gebruik bs4 om pragtige sop in te voer.

Hoe om 'n webblad te versamel en te ontleed

Gebruik van versoeke versamel URL van jou eerste bladsy. URL van die eerste bladsy sal toegeken word aan die veranderlike bladsy. Bou 'n BeautifulSoup-voorwerp van versoeke en ontleed die voorwerp van Python se parser.

In hierdie handleiding is die doel om skakels en die name van die kunstenaars in te samel. Byvoorbeeld, jy kan kunstenaars se datums en nasionaliteite versamel. Vir Windows-gebruikers, kliek met die rechtermuisknop op die kunstenaar se voornaam. Gebruik in hierdie geval Zabaglia, Niccola. Vir Mac OS-gebruikers, tik "Ctrl" en klik die naam. Klik op die "Inspect Element" menu wat pop-ups op jou skerm toegang tot webontwikkelaars se gereedskap. Druk die kunstenaar se name uit om Pragtige Sop vinnig 'n boom te laat ontleed.

Die onderste skakels verwyder

Om die onderste skakels op jou webblad te verwyder, inspekteer die DOM deur regs te klik op die element. U sal identifiseer dat die skakels onder 'n HTML-tabel is. Gebruik pragtige sop, gebruik die "ontbind metode" om etikette van die parse-boom te verwyder.

Hoe om inhoud van 'n merker te trek

Jy hoef nie die hele skakel-tag te druk nie, gebruik Pragtige sop om materiaal van 'n merker te verwyder. U kan ook URL's wat met die kunstenaars geassosieer word, vasmaak met behulp van Pragtige Sop 4.

CSV-lêer sal jou toelaat om gestruktureerde data op te slaan in 'n gewone teks, 'n formaat wat meestal vir datastelle gebruik word.

. Kennis oor die hantering van gewone tekslêers in Python word aanbeveel.

Web data-ekstraksie word gebruik om bladsye te skraap en inligting te bekom. Wees bedagsaam van die webtuistes waarop u inligting oor uittreksels is. Sommige dinamiese webwerwe beperk web data-ekstraksie op hul webwerwe. Om die bladsy met Beautiful Soup en Python 3 te skraap, is so eenvoudig.

December 22, 2017