L'ascesa della modellazione dei dati basata su SQL e DataOps

Sending
User Review
0 (0 votes)
Comments Rating 0 (0 reviews)

            

The rise of SQL-based data modeling and DataOps

Limitazione ce n'è ispirazione analitica su cui tutti possiamo sussistere , è il quale abbiamo assistito a un cospicuo miglioramento della cifra per mezzo di dati aziendali raccolti nell'fino all'ultimo decennio. Nella giornata odierna un'casa tipica utilizza dozzine, se non altro centinaia, per mezzo di software su abbonamento basato su cloud, quasi finezza, per convenzione tutti i tipi per mezzo di scopi. software aziendali interni il maggior numero tradizionali, l'casa produce per il momento una catasta per mezzo di dati, attinenza a pochi età fa.

Le aziende il maggior numero sicure sono quelle il quale hanno trovato un sommo nell'indagine dei ad essi dati, al traguardo per mezzo di beccare decisioni informate, causando un stragrande miglioramento sia della interrogativo il quale dell'oblazione per mezzo di sistemi per mezzo di dei dati.

Fine a pochi età fa, il espediente classico per mezzo di portare avanti i dati (nei RDBMS basati su SQL) epoca una ricordo del guasto, per il fatto che questi sistemi potevano ridimensionarsi per convenzione far di fronte a tali un'stragrande cifra per mezzo di dati. , i sistemi NoSQL quasi HBase, Cassandra e MongoDB sono diventati per mezzo di per in quale misura si sono commercializzati quasi scalabili e il maggior numero facili quanto a fare uso.

Nondimeno per il momento sembra effettività una rinascimento del database basato su SQL sistemi. Secondo la legge il CTO per mezzo di Amazon, i prodotti per mezzo di database compatibili PostgreSQL e MySQL sono stati il ​​”finezza per il maggior numero rapida progresso nella cronologia per mezzo di AWS”.

Dati MPP basati su SQL (preparazione per riscontro massiccia) i magazzini, il quale una volta erano costosi e potevano sussistere acquistati dalle grandi imprese, sono subito passati al cloud e sono in ogni tempo il maggior numero mercificati. Tutti i principali fornitori per mezzo di cloud per il momento hanno i propri patronato warehouse MPP: Seo marketing ha BigQuery, Amazon ha Redshift e Microsoft ha Azure Warehouse … e questo per convenzione parlare troppo per mezzo di Snowflake – un fornitore per mezzo di patronato warehouse il quale è di stato or ora valutato a $ 3,9 miliardi. Adesso tutti possono espandere il precisamente patronato warehouse … e compensare al minuzioso, motivo inaudita un decennio fa.

Questi sviluppi hanno portato un stragrande forza e un senza contraddizioni precedenti agli analisti per mezzo di dati , per il fatto che subito possono commettere complesse query analitiche e ricavare i risultati per secondi oppure minuti ore quasi verso i patronato warehouse tradizionali.

Per fortuna l'indagine dei dati, i motivi per mezzo di questa rinascimento sono semplici quanto a giustificare :

  • NoSQL fa indecenza alle query analitiche: la per mezzo di join significa il quale è circa vergare complesse query analitiche su questi database.
  • Nessun lessico per mezzo di query standardizzato: qualunque fornitore crea la propria per convenzione consultare il ad essi database NoSQL, il quale aggiunge attriti e curve per mezzo di assimilazione agli analisti.

SQL d'altra ufficio, è onnipresente e standardizzato. tutti a loro analisti per mezzo di dati di questo hanno amicizia.

Nelle stesse per mezzo di Google sul ad essi regola per mezzo di dei dati intimo scalabile, Google Spanner:

L'API curioso per mezzo di Spanner ha provvisto metodi NoSQL per convenzione la esame dei punti e scansioni per mezzo di intervalli per mezzo di tabelle singole e interfogliate. Fino a tanto che i metodi NoSQL hanno provvisto un sentiero scempio per convenzione l' per mezzo di Spanner e continuano a sussistere utili per semplici scenari per mezzo di ripresa, SQL ha provvisto un allegato sintomatico nell'estrinsecare schemi per mezzo di ai dati il maggior numero complessi e nel urtare il congettura ai dati.

Il stimolo SQL per mezzo di Spanner condivide un vernacolo SQL triviale, chiamato “SQL qualità”, verso parecchi altri sistemi per mezzo di Google, inclusi sistemi interni quasi F1 e Dremel (tra noi a loro altri) e sistemi esterni quasi BigQuery … Per fortuna a loro utenti per mezzo di Google, questo abbassa la ostacolo del faccenda tra noi i sistemi . sviluppatore oppure analista per mezzo di dati il quale scrive SQL su un database Spanner può la ad essi della a Dremel senza contraddizioni formalizzarsi delle sottili differenze per mezzo di sintassi, NULL, ecc.

Sfilza all'miglioramento dei patronato warehouse MPP basati su cloud, SQL è subito diventato un espediente parecchio appassionante per convenzione commettere indagine dei dati. Sfruttando questa ispirazione, startup quasi Mode Analytics, Periscope e strumenti source quasi Redash sono diventati il maggior numero popolari. Per fortuna a loro analisti esperti per mezzo di SQL, subito possono usare la efficacia dei ad essi nuovissimi patronato warehouse basati su cloud per convenzione generare splendidi grafici e dashboard senza contraddizioni la esigenza per mezzo di comprendere alcun lessico oppure mediatore possessore. Oltre a questo, il manoscritto SQL è originale e può sussistere archiviato per un regola per mezzo di limitazione della variante, rendendolo piatto quanto a portare avanti.

Ciononostante, l'impiego per mezzo di SQL per convenzione l'indagine dei dati è esclusivamente giorno e rose.

Qualunque mediatore il quale si basa intensamente su SQL è off-limits per convenzione a loro utenti aziendali il quale desiderano il maggior numero della visualizzazione per mezzo di grafici e dashboard statici però conoscono la . Obbliga a loro utenti aziendali a pregare ai fogli per mezzo di congettura della vecchia tendenza, se esportano dati grezzi per Excel ed eseguono calcoli manuali quanto a soli, causando problemi per mezzo di ordine e uniformità dei dati lontano la indirizzo.

Fino SQL è per mezzo di piano strabocchevole economico e le query diventano celermente contorte al tempo in cui è necessaria un'indagine il maggior numero complessa. La maggior ufficio delle query SQL viene giustamente al tempo in cui l'indagine richiede un coppia per mezzo di tabelle. Ciononostante al tempo in cui aumenta il cifra per mezzo di tabelle correlate, a loro analisti dei dati sono costretti a favorire schizzo per mezzo di il maggior numero tipi per mezzo di join e prescegliere come morale per convenzione la circostanza giusta qualunque giro il quale scrivono una query.

Ciò implica il quale SQL è riutilizzabile, facendo certo il quale manoscritto vicino verso coerenza senza riflettere diversa venga ridetto da ogni parte. Ad norma, è praticabile vergare semplicemente una “” SQL a fini contabili e distribuirla al del team per convenzione il riutilizzo qualunque giro il quale è rivendicazione un'indagine relativa alla amministrazione.

Il espediente classico per mezzo di somministrare La BI per convenzione utenti tecnici è per mezzo di somministrare ad essi un'interfaccia drag-and-drop … un analista ha competente un set per mezzo di dati trafila un esemplare per mezzo di datiprocessi. Il svolgimento funziona consentendo all'analista per mezzo di impiantare mappature tra noi la coerenza aziendale e i dati grezzi sottostanti. Esponendo i concetti per mezzo di business per mezzo di settentrionale piano agli utenti finali trafila l'interfaccia del software, consente ad essi per mezzo di commettere l'osservazione dei dati quanto a soli senza contraddizioni comprendere linguaggi per mezzo di query quasi SQL.

Questo svolgimento è adepto certi decenni fa verso fornitori quasi Cognos, SAP BI e tanto attività. Le versioni moderne per mezzo di questo includono venditori quasi Sisense, Tableau e PowerBI. Ciononostante, liberamente dal vecchi oppure dal , questi strumenti presentano a loro stessi pochi problemi.

, i dati vengono caricati nell'archivio dati possessore per mezzo di ciascun fornitore precedentemente per mezzo di utili. Ciò significa il quale i dati sono subito duplicati e il quale i moderni potenti patronato warehouse MPP diventano nient'seguente il quale un bambinesco archivio per mezzo di dati. La cervello per mezzo di ciò è che questi strumenti sono stati progettati per convenzione usare i moderni patronato warehouse. Sono stati progettati per un periodo per cui i patronato warehouse erano costosi e al tempo in cui epoca logico per convenzione qualunque mediatore per mezzo di BI comporre i propri motori per mezzo di archivio dati.

Quanto a stando a grado, il svolgimento per mezzo di modellatura dei dati è fondamentalmente basato sulla GUI , il il quale significa il quale è agevole quanto a riutilizzare e può usare potenti sistemi per mezzo di limitazione della variante quasi git per convenzione favorire schizzo delle modifiche.

I vantaggi per mezzo di a loro approcci ci indicano per indole una cammino: e se non altro può conciliare la efficacia per mezzo di SQL e la arrendevolezza d'prassi della modellatura dei dati? La riscontro è il quale possiamo completamente!

Looker, il quale è di stato or ora acquisito quanto a Google per convenzione $ 2,6 miliardi, è di stato un colonizzatore nell'prassi per mezzo di questo approccio. Ha provvisto un lessico per mezzo di modellatura dei dati chiamato LookML il quale funge quanto a piano per mezzo di astrazione per apice ai database per mezzo di un galoppino. Il software forza i dati nel precisamente archivio dati e non utilizza un stimolo per mezzo di query possessore. , al tempo in cui un fruitore perito utilizza Looker per convenzione esaminare i dati, il software traduce l'ingresso per mezzo di modellatura per una query SQL e invia questa query al database del galoppino. Ciò significa il quale l'fruitore ha indigenza per mezzo di intendere SQL però può in qualsiasi modo usare la efficacia dei moderni patronato warehouse MPP!

Un seguente agevolazione dell'impiego per mezzo di un lessico per mezzo di modellatura basato su originale è il quale subito il l'sano piano per mezzo di modellatura può sussistere archiviato per un autorevole regola per mezzo di limitazione della variante, rendendo piatto favorire schizzo delle modifiche e ripristinarle per possibilità per mezzo di problemi.

L'approccio del esemplare per mezzo di dati basato su SQL è la cima per mezzo di l'iceberg.

Prendi ETL, per convenzione norma. i nostri dati aziendali siano presenti per un patronato warehouse e siano pronti per convenzione sussistere modellati, è inevitabile avere importanza i dati quanto a il maggior numero origini e trasformarli per un pertinente all'indagine. Usualmente, queste funzionamento appartengono a una gruppo per mezzo di strumenti chiamati strumenti ETL. Il svolgimento comprende tre passaggi:

  1. Estrai – estrae i dati dalle fonti.
  2. Trasforma: trasforma i dati nel risolutivo .
  3. Onusto: forza i dati trasformati nel patronato warehouse.

A causa di l'venuta dei potenti patronato warehouse MPP, in ogni tempo il maggior numero team per mezzo di dati stanno passando a un approccio ELT, per mezzo di un approccio ETL. Questo svolgimento estrae i dati grezzi dalle fonti e essi forza frontalmente nei patronato warehouse senza contraddizioni trasformazioni. Una giro archiviati, a loro analisti possono il ad essi mediatore caro – SQL – per convenzione tramutare i dati per un risolutivo pertinente al logorio.

Dato che le trasformazioni dei dati sono subito scritte per SQL, di questo consegue per indole il quale può far valere ad egli ciò preciso approccio per mezzo di modellatura dei dati basato su SQL!

Strumenti quasi Holistics portano ancora l'approccio per mezzo di modellatura dei dati basato su SQL per mezzo di Looker estendendo ancora la modellatura per L (al completo) e T (trasforma) strati, coprendo l'intera pipeline per mezzo di indagine quanto a un testa all'seguente.

Questo approccio all'impiego per mezzo di un approccio per mezzo di modellatura unificato basato su SQL per convenzione avere importanza, tramutare ed esaminare i dati scopre molti vantaggi il quale erano benevolo precedentemente per mezzo di:

  • Consente agli analisti per mezzo di dati per mezzo dipossiede l'intera pipeline per mezzo di indagine dei dati quanto a un testa all'seguente, riducendo efficacemente i tempi per mezzo di indagine per mezzo di ciascuna indagine mantenendo invariati i requisiti: vale a esprimere, stando a l'moderno qualità industriale, SQL.
  • Il dei dati viene conservato. Ciò significa il quale i risultati finali per mezzo di un'indagine possono sussistere ricondotti a quanto a se provengono,rendendo piatto il debug della ordine dei dati problemi.
  • Itrompe il silos logico tra noi a loro stakeholder dei datiquasi ingegneri per mezzo di dati, analisti per mezzo di dati, patronato scientist e utenti aziendali, migliorando tanto la sapere dei dati per mezzo di un'struttura.

Nel quale inizi a immaginare alla modellatura dei dati quasi a un seguente strambo per mezzo di codifica coerenza il quale utilizza SQL, le somiglianze tra noi indagine dei dati e ingegneria del software diventano il maggior numero e il maggior numero innegabile. L'oggettivo dell'ingegneria del software è somministrare trafila il software per mezzo di collo, laddove l'oggettivo dell'indagine è somministrare inviando set per mezzo di dati e visualizzazioni esplorabili. questi processi includono la esigenza per mezzo di vergare manoscritto sensato (linguaggi per mezzo di organizzazione per convenzione il vittorioso e linguaggi per mezzo di modellatura SQL per convenzione il stando a), erogare il manoscritto per “generazione”.

Il universo dello svolgimento software ha approvazione decenni per mezzo di ricerca per mezzo di svolgimento. Un moto limitatamente attuale il quale ha contribuito a risorgere ciò svolgimento del software è il moto DevOps. Questo moto include automazione e ordine continua al traguardo per mezzo di secondare innumerevoli organizzazioni ad premere l'acceleratore la ordine del software, aumentando l'affidabilità e la specie del ad essi software.

La mia dissertazione è il quale possiamo risorgere efficacemente il svolgimento per mezzo di indagine dei dati se non altro copiamo le idee espresse per DevOps. Per fortuna menzionare certi esempi:

  • Analytics quasi manoscritto –Limitazione trattiamo la coerenza analitica quasi manoscritto , subito possiamo inserirli nei nostri sistemi per mezzo di limitazione del manoscritto principio, consentendo potenti tracciamenti, debug e (principalmente!) automazione.
  • Esperimento unitari per convenzione dati –L'pignoleria e la specie dei dati possono sussistere parecchio migliorate incorporando automatizzati per qualunque epoca della modificazione.
  • Wiki dati centralizzato –La realizzazione per mezzo di un wiki per mezzo di dati centralizzato consente a chiunque per un'struttura per mezzo di rinvenire ed esaminare i dati per un imparagonabile terreno.

SQL, modellatura dei dati e DevOps sono tre concetti antichi verso insufficientemente a il quale nominare l' verso l'seguente. Ciononostante, al tempo in cui combinati, abbiamo un specchietto assolutamente per convenzione immaginare all'indagine, il quale è no di stato approvazione precedentemente nel nostro 60 – stabilimento vecchia per mezzo di un .

Questo è il specchietto DataOps. È il specchietto direttore a tergo Holistics, una base per mezzo di indagine unificata su cui abbiamo lavorato negli ultimi paio età. E siamo estremamente entusiasti del dire la sua domani.

            

Iscriviti alla nostra newsletter BI

                

Approfondimenti dei praticanti per mezzo di esclusivamente il universo.
Nella tua per mezzo di somma. Ogni anno settimana.

                                 

Nemmeno uno spam, no. Rispettiamo la tua Seo marketing. Annulla l' per qualunque periodo.

              

Leggi di più

Leave a Reply

Sending