Semalt: Estrazzjoni tad-Dejta tal-Web Bil-Google Chrome Plugin

Jekk qed tuża Google Chrome Browser biex tisserfja fuq ix-xibka, hemm plugin tal-browser biex jiġbed dejta mill-paġni tal-web favoriti tiegħek. Google Chrome Scraper huwa softwer użat biex jirkupra data minn websajts kemm dinamiċi kif ukoll statiċi. Dan il-plugin Chrome jippermettilek li tinbarax il-kontenut favorit tiegħek tal-paġna tal-web u ssalvah fil-Google Docs.

Barraxa tal-web Google Chrome

Google Chrome Web Scraper hija estensjoni tal-browser li tiġbed dejta minn siti u paġni. B'din l-estensjoni, m'għandekx bżonn mijiet ta 'ħaddiema biex tikkopja kontenut tal-kunserva mis-siti l-ġurnata kollha. Wara li tkun installat fil-browser Chrome tiegħek, kull ma għandek tagħmel hu li tagħżel il-kontenut immirat u ħalli l- web scraper jagħmel il-bqija.

Jekk m'għandekx għarfien dwar il-kodifikazzjoni, dan huwa l-aħjar barraxa tal-web li għandek tikkunsidra. Google Chrome Scraper huwa rrakkomandat għal brix kemm fuq skala żgħira kif ukoll fuq skala kbira. Dan jinkludi tagħrif siewi u dejta li tista 'tinbidel fi dejta ta' intelliġenza kompetittiva. B'din l-estensjoni, l-immaġini u d-direttorji kollha fil-mira tiegħek jistgħu jiġu estratti u esportati faċilment lejn CouchDB jew spreadsheets.

Gwidi dwar kif tibda

It-tqaxxir tal-paġni tal-web bi plugin tal-browser huwa kompitu do-it-yourself li tista 'malajr tesegwixxi bil-PC tiegħek. Hawnhekk hawn gwida aħħarija li tgħinek tibda:

  • Ibda l-browser tal-Google Chrome tiegħek u kklikkja fuq "Chrome Web Store."
  • Iftaħ l-estensjonijiet tal-browser tiegħek u fittex "Scraper."
  • Ikklikkja fuq l-għażla "Żid mal-Chrome" murija fuq l-iskrin tiegħek
  • Iftaħ il-websajt jew il-paġna tal-web biex tkun mibruxa u tenfasizza d-dejta li trid tikseb. Ikklikkja fuq il-lemin fuq l-element u kklikkja fuq "Barraxa simili."
  • Se tidher barraxa console fuq l-iskrin tiegħek. Innota li l-console tal-barraxa tal-web tinkludi d-data estratta.
  • F'dan l-istadju, tista 'tiddeċiedi fejn tiffranka l-kontenut mibruxa tiegħek. Pereżempju, tista 'tiffranka l-kontenut minn Google Docs billi tikklikkja fuq "Issejvja għal Google Docs."

Innota li "barraxa" huwa skript awtomatizzat li jiġbed dejta utli minn paġni u siti web dinamiċi. B'differenza minn għodod oħra tal-brix tal- web, il-web barraxa Google Chrome tista 'wkoll tinbarax id-dejta ġġenerata b'JavaScript. Kompiti oħra eżegwiti mill-plugin barraxa Chrome jinkludu:

  • Meta tikklikkja fuq il-buttuni tal-kontenut biex titgħabba d-data;
  • Tikklikkja fuq il-buttuni ta 'paġinazzjoni li jgħabbu l-informazzjoni bl-użu ta' AJAX;
  • Skrollja 'l isfel mill-paġni tal-web biex tagħbija aktar kontenut;
  • Stennija biex il-kontenut dinamiku jitgħabba fuq paġna tal-web;

Wara li tqaxxar id-dejta minn paġna tal-web, tista 'tniżżel id-dejta f'format ta' valuri separati mill-virgola (CSV) jew aħżenha f'CouchDB. Bil-Google Chrome Web Scraper, m'għandekx għalfejn taħdem fuq l-estrazzjoni tad-dejta, il-bini tal-pjan, jew l-esportazzjoni.

mass gmail