Semalt: Estrazzjoni tad-Dejta tal-Web Bil-Google Chrome Plugin

Jekk qed tuża Google Chrome Browser biex tisserfja fuq ix-xibka, hemm plugin tal-browser biex jiġbed dejta mill-paġni tal-web favoriti tiegħek. Google Chrome Scraper huwa softwer użat biex jirkupra data minn websajts kemm dinamiċi kif ukoll statiċi. Dan il-plugin Chrome jippermettilek li tinbarax il-kontenut favorit tiegħek tal-paġna tal-web u ssalvah fil-Google Docs.
Barraxa tal-web Google Chrome
Google Chrome Web Scraper hija estensjoni tal-browser li tiġbed dejta minn siti u paġni. B'din l-estensjoni, m'għandekx bżonn mijiet ta 'ħaddiema biex tikkopja kontenut tal-kunserva mis-siti l-ġurnata kollha. Wara li tkun installat fil-browser Chrome tiegħek, kull ma għandek tagħmel hu li tagħżel il-kontenut immirat u ħalli l- web scraper jagħmel il-bqija.
Jekk m'għandekx għarfien dwar il-kodifikazzjoni, dan huwa l-aħjar barraxa tal-web li għandek tikkunsidra. Google Chrome Scraper huwa rrakkomandat għal brix kemm fuq skala żgħira kif ukoll fuq skala kbira. Dan jinkludi tagħrif siewi u dejta li tista 'tinbidel fi dejta ta' intelliġenza kompetittiva. B'din l-estensjoni, l-immaġini u d-direttorji kollha fil-mira tiegħek jistgħu jiġu estratti u esportati faċilment lejn CouchDB jew spreadsheets.
Gwidi dwar kif tibda
It-tqaxxir tal-paġni tal-web bi plugin tal-browser huwa kompitu do-it-yourself li tista 'malajr tesegwixxi bil-PC tiegħek. Hawnhekk hawn gwida aħħarija li tgħinek tibda:

- Ibda l-browser tal-Google Chrome tiegħek u kklikkja fuq "Chrome Web Store."
- Iftaħ l-estensjonijiet tal-browser tiegħek u fittex "Scraper."
- Ikklikkja fuq l-għażla "Żid mal-Chrome" murija fuq l-iskrin tiegħek
- Iftaħ il-websajt jew il-paġna tal-web biex tkun mibruxa u tenfasizza d-dejta li trid tikseb. Ikklikkja fuq il-lemin fuq l-element u kklikkja fuq "Barraxa simili."
- Se tidher barraxa console fuq l-iskrin tiegħek. Innota li l-console tal-barraxa tal-web tinkludi d-data estratta.
- F'dan l-istadju, tista 'tiddeċiedi fejn tiffranka l-kontenut mibruxa tiegħek. Pereżempju, tista 'tiffranka l-kontenut minn Google Docs billi tikklikkja fuq "Issejvja għal Google Docs."
Innota li "barraxa" huwa skript awtomatizzat li jiġbed dejta utli minn paġni u siti web dinamiċi. B'differenza minn għodod oħra tal-brix tal- web, il-web barraxa Google Chrome tista 'wkoll tinbarax id-dejta ġġenerata b'JavaScript. Kompiti oħra eżegwiti mill-plugin barraxa Chrome jinkludu:
- Meta tikklikkja fuq il-buttuni tal-kontenut biex titgħabba d-data;
- Tikklikkja fuq il-buttuni ta 'paġinazzjoni li jgħabbu l-informazzjoni bl-użu ta' AJAX;
- Skrollja 'l isfel mill-paġni tal-web biex tagħbija aktar kontenut;
- Stennija biex il-kontenut dinamiku jitgħabba fuq paġna tal-web;
Wara li tqaxxar id-dejta minn paġna tal-web, tista 'tniżżel id-dejta f'format ta' valuri separati mill-virgola (CSV) jew aħżenha f'CouchDB. Bil-Google Chrome Web Scraper, m'għandekx għalfejn taħdem fuq l-estrazzjoni tad-dejta, il-bini tal-pjan, jew l-esportazzjoni.