Spark SQL è il modulo di Apache Spark per lavorare con dati strutturati (Data Frame), una piattaforma open source per l’elaborazione di analisi dei dati su larga scala, progettata per essere veloce ed efficace. La sua caratteristica principale è il suo cluster computing che è responsabile di aumentare la velocità di elaborazione dei dati.
Durante il corso ci occuperemo dunque di SparkSQL, il modulo di Spark che consente di lavorare in contesti Big Data utilizzando Data Frame. Questa tipologia di approccio consente di lavorare su grandi quantità di dati sfruttando le metodologie che ricordano molto da vicino i database relazionali e il lavoro sul database relazionale, dunque utilizzeremo un metodo molto intuitivo e amichevole per avvicinarci al mondo dei Big Data. Grazie alle Api e ai DataFrame svolgerai analisi ed elabroazioni dati, sfruttando la struttura di SparkSQL utilizzando il linguaggio SQL che si utilizza con i database relazionali, divenuto un elemento distintivo per Spark.
Conoscenza dei Big Data
Big Data, Big Data: analisi con DataFrame
Scopri tutti i nostri corsi e Learning in ambito ICT.