Fare scienza dei dati nel cloud con ScraperWiki
Se hai i brividi mentali, un talento per la programmazione e la narrazione e un occhio per il design, puoi fare di peggio che entrare nella scienza dei dati. È la nuova grande novità della tecnologia; molto alla moda e molto pagati, con ricercatori di dati ricercati da alcune delle più grandi aziende del mondo.
ScraperWiki è una società che è stata a lungo associata al campo della scienza dei dati. Negli ultimi anni, questa startup con sede a Liverpool ha offerto una piattaforma per i programmatori per scrivere strumenti che ottengono dati, puliscono e analizzano nel cloud.
Con un recente aggiornamento e la crescente richiesta di data scientist nell'azienda, vale la pena dare un'occhiata a ScraperWiki.
Full disclosure: Sono stato un intern presso ScraperWiki la scorsa estate.
Cosa fa ScraperWiki Do?
ScraperWiki si propone come luogo in cui ottenere, pulire e analizzare i dati e fornisce su ciascuno di questi conteggi. Nella sua forma più semplice, consente all'utente - l'utente - un luogo in cui è possibile scrivere codice che recupera i dati da un'origine, strumenti per convertirli in un formato che è facile da analizzare e spazio di archiviazione per mantenerlo per una successiva visualizzazione. può anche gestire con ScraperWiki.
Inoltre viene fornito con una serie di strumenti predefiniti che automatizzano attività ripetitive, tra cui la raccolta di dati da PDF, che sono notoriamente difficili da decodificare. Questo è oltre alla ricerca di Twitter 5 Trucchi di ricerca di Twitter per monitorare ciò che le persone dicono di te 5 Trucchi di ricerca di Twitter per monitorare ciò che le persone dicono di te Se possiedi un sito web o stai solo cercando di guadagnare soldi online come libero professionista, è sempre bene sapere che cosa le persone dicono di te su Internet. Le persone potrebbero citare ... Leggi di più e raschiando programmi di utilità. Non hai bisogno di alcuna esperienza di sviluppo software per usarli.
Costo
Come accennato in precedenza, ScraperWiki abbraccia il modello di pricing freemium e offre un servizio che ha più livelli. Quelli appena iniziato con la scienza dei dati o con esigenze limitate possono usufruire del servizio gratuito. Questo ti dà tre set di dati - dove si memorizzano i dati e il codice.
Chi pianifica di scrivere più scrapers o vuole fare montagne di analisi dei dati può sborsare un po 'di soldi per un account premium. Questi partono da $ 9 al mese e offrono 10 set di dati. Se questo non è ancora abbastanza, è sempre possibile eseguire l'aggiornamento al livello più alto che viene fornito con 100 set di dati e costa $ 29 al mese.
Coding
I programmatori sono spesso piuttosto particolari quando si tratta di come codificano. Alcuni preferiscono i linguaggi di scripting rispetto alle lingue compilate. Alcuni preferiscono l'esperienza ridotta di un editor di testo rispetto a quella di un ambiente di sviluppo integrato (IDE). ScraperWiki lo riconosce e offre all'utente una grande quantità di scelta quando si tratta di come si scrive il codice.
Se sei così incline, puoi scrivere il tuo codice nel browser. Come ci si aspetterebbe da qualsiasi ID di livello professionale basato su Web I primi 3 IDE basati su browser per codificare nel cloud I 3 principali IDE basati sul browser per codificare nel cloud Ulteriori informazioni sullo strumento di sviluppo, questo include funzionalità che ogni programmatore considererebbe essenziale, come l'evidenziazione della sintassi.
Ci sono un certo numero di lingue in offerta. Questi includono Python I 5 migliori siti web per imparare la programmazione Python I 5 migliori siti web per imparare la programmazione Python Vuoi imparare la programmazione Python? Ecco i modi migliori per imparare Python online, molti dei quali sono completamente gratuiti. Leggi altro, un popolare linguaggio di scripting utilizzato da Google e dalla NASA; Ruby 3 Interactive, Fun, Free Ways per iniziare l'apprendimento del linguaggio di programmazione Ruby 3 Modi interattivi, divertenti e gratuiti per iniziare l'apprendimento del linguaggio di programmazione Ruby Ruby è un linguaggio di scripting espressivo di altissimo livello. Viene utilizzato sul Web principalmente come parte del framework di sviluppo web di Ruby on Rails, ma anche standalone. Se sei curioso di sapere cosa Ruby (non ... Read More, che alimenta un certo numero di siti web popolari come Living Social e il popolare linguaggio di analisi statistica, R.
Inoltre, puoi anche scrivere codice dalla riga di comando utilizzando SSH, Git e qualsiasi altro editor di testo che ti piace utilizzare. Sì, avete letto bene. SSH Cosa è SSH e come è diverso da FTP [Tecnologia spiegata] Che cos'è SSH e come è diverso da FTP [Tecnologia spiegata] Ulteriori informazioni. Ogni box che usi è il suo account Linux, e puoi collegarti ad esso come faresti con un VPS o qualsiasi altro account di shell. Sono disponibili diversi editor di testo, tra cui Vim I 7 principali motivi per dare a Vim Text Editor un'occasione I 7 principali motivi per dare a Vim Text Editor un'occasione Per anni ho provato un editor di testo dopo l'altro. Lo chiami, l'ho provato. Ho usato ognuno di questi editor per oltre due mesi come il mio editore principale per la giornata. In qualche modo, io ... Leggi altro che può essere esteso con i plugin e modificando la configurazione. Quelli intimiditi da Vim possono usare Nano, che è un leggero editor di testo da riga di comando.
Le librerie installate dovrebbero essere sufficienti per scrivere strumenti per recuperare i dati e elaborarli. Se hai bisogno di qualcosa di un po 'più oscuro, puoi sempre creare un virtualenv dalla riga di comando. Come puoi vedere, c'è un'enorme quantità di flessibilità offerta agli sviluppatori.
Visualizzazione dati
Quindi, hai i tuoi dati. L'hai normalizzato. L'hai pulito. L'hai analizzato. Ora è il momento di fare qualche visualizzazione e mostrare al mondo ciò che hai imparato.
ScraperWiki consente agli sviluppatori di visualizzare i propri dati utilizzando le pagine Web costruite con l'inusuale trifecta di HTML, CSS e JavaScript. Inoltre, i componenti Bootstrap sono supportati immediatamente.
Sono disponibili numerose visualizzazioni preimpostate, incluse quelle che tracciano i tuoi dati su una mappa e trovano le tendenze all'interno dei risultati. Per utilizzarli, è necessario assicurarsi che i dati siano archiviati come file SQLite con il nome file 'scraperwiki.sqlite'. Quindi aggiungi semplicemente la visualizzazione a cui sei interessato. Semplice, giusto?
Conclusione
ScraperWiki offre molto agli sviluppatori che vogliono fare delle analisi dei dati senza che il loro ambiente di sviluppo si metta sulla loro strada, pur avendo la flessibilità di accontentare anche gli utenti più esigenti. Ma cosa ne pensi? Fatemi sapere nei commenti qui sotto.
Crediti fotografici: Rocket Science (Dan Brown)
Scopri di più su: Cloud Computing, Web Analytics.