Come importare i dati degli avvistamenti UFO di Internet in un foglio di calcolo di Google

Come importare i dati degli avvistamenti UFO di Internet in un foglio di calcolo di Google / Internet

Quando si tratta di database e informazioni online che possono essere trovati all'interno di ciò che è comunemente noto come “Web invisibile 10 Motori di ricerca per esplorare il Web invisibile 10 Motori di ricerca per esplorare il Web invisibile Abbiamo familiarità con il web. Ma lo sapevate che esiste una vasta quantità di informazioni che i motori di ricerca come Google non hanno accesso diretto? Questa è la rete invisibile. Leggi di più “, Non sono il tuo tipico utente. Certo, spendo un po 'troppo del mio tempo spulciando tra i database online in posti come gli Archivi Nazionali e la sala di lettura della CIA FOIA, ma devo dire che non mi rende più eccitato di quando trovo una tabella basata su HTML piena di volumi di dati apparentemente complessi e non connessi.

Il fatto è che le tabelle di dati sono una miniera d'oro di verità importanti. I dati vengono spesso raccolti da eserciti di grugniti di raccolta dati con stivali sul terreno. Hai persone del censimento statunitense che viaggiano in tutto il paese per informazioni su famiglia e famiglia. Hai gruppi ambientalisti senza scopo di lucro che raccolgono ogni sorta di informazioni interessanti sull'ambiente, l'inquinamento, il riscaldamento globale e altro ancora. E se ti piacciono il paranormale o l'ufologia, ci sono anche tabelle di informazioni costantemente aggiornate sugli avvistamenti di strani oggetti nel cielo sopra di noi.

Ironia della sorte, si potrebbe pensare che qualsiasi governo al mondo sarebbe interessato a sapere quale tipo di imbarcazione straniera viene individuata nei cieli in qualsiasi paese, ma apparentemente non - almeno non negli Stati Uniti comunque. In America, la raccolta di insoliti avvistamenti di imbarcazioni è stata relegata a squadre di hobbisti dilettanti che affollano nuovi avvistamenti UFO come falene a fuoco. Il mio interesse per questi avvistamenti in realtà non deriva dal fascino di alieni o mestieri di altri pianeti, ma da un fascino scientifico con i modelli - dove e perché più persone vedono le cose nel cielo e se questi avvistamenti potrebbero riflettere qualcosa di molto reale e molto più in realtà sulla terra.

Per esplorare i volumi di dati raccolti dai team di hobbisti UFO, ho effettivamente sviluppato un modo per importare tabelle di dati HTML di grandi dimensioni in un foglio di calcolo di Google e quindi manipolare e analizzare tali dati per estrarre e scoprire informazioni significative e importanti. In questo articolo, ho intenzione di mostrarti come fare lo stesso.

Dati HTML importanti in Google Spreadsheet

In questo esempio, ti mostrerò come importare tutti i dati che potrebbero essere memorizzati in una tabella su qualsiasi sito web su Internet, nel tuo foglio di lavoro Google. Pensa all'enorme volume di dati oggi disponibile su Internet sotto forma di tabelle HTML. Solo Wikipedia ha dati nelle tabelle per argomenti come il riscaldamento globale, il Census Bureau degli Stati Uniti ha tonnellate di set di dati sulla popolazione, e un po 'di Google su Google ti porterà molto di più oltre.

Nel mio esempio, sto iniziando con un database sul National UFO Reporting Center che sembra essere un database deep-web in stile query, ma se osservi la strutturazione dell'URL, in realtà è un web semi-complesso sistema di reporting basato su pagine Web statiche e tabelle HTML statiche: esattamente ciò che vogliamo quando cerchiamo i dati da importare.

NUForc.org è una di quelle organizzazioni che funge da uno dei più grandi centri di segnalazione per avvistamenti UFO. Non è l'unico, ma è abbastanza grande da trovare nuovi dataset con avvistamenti attuali per ogni mese. Si sceglie di visualizzare i dati ordinati in base a criteri come Stato o Data e ciascuno di essi viene fornito sotto forma di pagina statica. Se si ordina per data e quindi si fa clic sulla data più recente, si vedrà che la tabella elencata contiene una pagina Web statica denominata in base al formato della data.

Quindi, ora abbiamo un modello per estrarre regolarmente le ultime informazioni sugli avvistamenti da questo database basato su HTML. Tutto ciò che devi fare è importare la prima tabella, utilizzare la voce più recente (quella in alto) per identificare l'ultimo aggiornamento, quindi utilizzare la data di tale pubblicazione per creare il link dell'URL in cui è presente la più recente tabella di dati HTML. Per fare ciò sarà sufficiente un paio di istanze della funzione ImportHTML e quindi alcuni usi creativi delle funzioni di manipolazione del testo. Quando hai finito, avrai uno dei fogli di report più interessanti e autoaggiornanti di tua proprietà. Iniziamo.

Importazione di tabelle e manipolazione dei dati

Il primo passo, ovviamente, è creare il nuovo foglio di calcolo.

Quindi, come importate le tabelle HTML? Tutto ciò di cui hai bisogno è l'URL in cui è memorizzata la tabella, e il numero della tabella nella pagina - di solito quello elencato per primo è 1, il secondo è 2 e così via. Poiché conosco l'URL della prima tabella che elenca le date e i conteggi degli avvistamenti elencati, è possibile importare digitando la seguente funzione nella cella A1.

= ImportHtml (“http://www.nuforc.org/webreports/ndxpost.html?”& H2,”tavolo”,1)

H2 detiene la funzione “= Ora (ora ())“, quindi la tabella si aggiornerà ogni ora. Questo è probabilmente estremo per i dati che aggiornano questo di rado, quindi potrei probabilmente farla franca quotidianamente. Ad ogni modo, la funzione ImportHTML sopra riportata introduce la tabella come mostrato di seguito.

Dovrai fare un po 'di manipolazione dei dati su questa pagina prima di poter mettere insieme l'URL per il secondo tavolo con tutti gli avvistamenti UFO. Ma vai avanti e crea il secondo foglio sulla cartella di lavoro.

Prima di provare a costruire quel secondo foglio, è tempo di estrarre la data del post da questa prima tabella, in modo da creare il collegamento alla seconda tabella. Il problema è che la data viene introdotta come formato di data, non una stringa. Quindi, per prima cosa è necessario utilizzare la funzione TESTO per convertire la data del rapporto in una stringa:

= Testo (A2,”mm / gg / aa”)

Nella cella successiva a destra, è necessario utilizzare la funzione SPLIT con “/” delimitatore per suddividere la data in mese, giorno e anno.

= Split (D2,”/”)

Guardando bene! Tuttavia, ogni numero deve essere forzato a due cifre. Lo fai nelle celle proprio sotto di loro usando di nuovo il comando TEXT.

= Text (E2,”00" )

Un formato di “00” (quelli sono zeri) forza due cifre o a “0” come segnaposto.

Ora sei pronto per ricostruire l'intero URL all'ultima tabella HTML di nuovi avvistamenti. È possibile farlo utilizzando la funzione CONCATENATE e unendo insieme tutti i bit di informazioni appena estratti dalla prima tabella.

= Concatenate (“http://www.nuforc.org/webreports/ndxp”,G3, E3, F3,”.html”)

Ora, sul nuovo foglio che hai creato sopra (il foglio bianco), stai per fare un nuovo “ImportHtml” funzione, ma questa volta per il primo parametro di collegamento URL, quindi tornerai al primo foglio di calcolo e fai clic sulla cella con il link URL appena creato.

Il secondo parametro è “tavolo” e l'ultimo è “1” (perché la tabella degli avvistamenti è la prima e unica sulla pagina). Premi Invio, e ora hai appena importato l'intero volume di avvistamenti che sono stati pubblicati in quella particolare data.

Quindi, probabilmente stai pensando che questo sia un bel atto di novità e tutto - voglio dire, dopo tutto quello che hai fatto è stato estrarre le informazioni esistenti da una tabella su Internet e averle migrate su un altro tavolo, anche se privato nel tuo Account Google Documenti. Sì è vero. Tuttavia, ora che si trova nel tuo account Google Docs privato, hai a portata di mano gli strumenti e le funzioni per analizzare meglio tali dati e iniziare a scoprire connessioni sorprendenti.

Utilizzo dei report di pivot per analizzare i dati importati

Proprio di recente, ho scritto un articolo sull'utilizzo dei report di Pivot in Google Spreadsheet Diventare un esperto di dati analisti durante la notte utilizzando gli strumenti di report di Google Spreadsheet Diventa un esperto di dati analisti durante la notte utilizzando gli strumenti di report di Google Spreadsheet Sapevi che uno dei più grandi strumenti di tutti per condurre i dati l'analisi è in realtà Google Spreadsheet? La ragione di questo non è solo perché può fare quasi tutto ciò che si potrebbe desiderare ... Leggi di più per eseguire tutti i tipi di imprese di analisi dei dati interessanti. Bene, puoi fare le stesse incredibili acrobazie di analisi dei dati sui dati che hai importato da Internet - dandoti la possibilità di scoprire connessioni interessanti che probabilmente nessun altro ha scoperto prima di te.

Ad esempio, dalla tabella degli avvistamenti finali, potrei decidere di utilizzare un rapporto pivot per dare un'occhiata al numero di diverse forme uniche riportate in ogni stato, rispetto al numero complessivo di avvistamenti in quello stato particolare. Infine, filtro anche tutto ciò che menziona “alieni” nella sezione commenti, per sperare di estirpare alcune delle voci più alare.

Ciò rivela in realtà alcune cose interessanti, come il fatto che la California abbia il più alto numero di avvistamenti di qualsiasi altro Stato, insieme alla distinzione di riportare il maggior numero di forme artigianali nel paese. Mostra anche che il Massachusetts, la Florida e l'Illinois sono anche grandi battitori nel settore degli avvistamenti UFO (almeno nei dati più recenti).

Un'altra cosa interessante di Google Spreadsheet è la vasta gamma di grafici disponibili, inclusa una mappa geografica che ti consente di disporre “hotspot” di dati in un formato grafico che spicca davvero e rende abbastanza evidenti quelle connessioni all'interno dei dati.

Se ci pensi, questa è davvero solo la punta dell'iceberg. Se ora puoi importare dati da tabelle di dati su qualsiasi pagina su Internet, pensa alle possibilità. Ricevi gli ultimi numeri di borsa o i 10 libri e autori più recenti nella classifica dei bestseller del New York Times o le auto più vendute al mondo. Ci sono tabelle HTML là fuori su quasi tutti gli argomenti che puoi immaginare, e in molti casi queste tabelle vengono frequentemente aggiornate.

ImportHtml ti dà la possibilità di collegare il tuo foglio di calcolo Google in Internet e di nutrire i dati esistenti. Può diventare il tuo hub personale di informazioni che puoi usare per manipolare e massaggiare in un formato con cui puoi effettivamente lavorare. È solo una cosa molto interessante da amare su Google Spreadsheet.

Hai mai importato dati nei tuoi fogli di lavoro? Che tipo di cose interessanti hai scoperto in quei dati? Come hai usato i dati? Condividi le tue esperienze e idee nella sezione commenti qui sotto!

Crediti immagine: Business Graph

Scopri di più su: Google, foglio di calcolo.