Non ho dubbi che l’incontro più interessante che ho fatto questa settimana è stato quello con Cloudera. Cloudera sviluppa software per BigData e, in particolare, ha una distribuzione hadoop a cui aggiunge tutta una serie di tool aggiuntivi, il supporto e i servizi.
Sono circa 200 persone, e hanno ricevuto un altro ingente finanziamento anche ieri, non nascono l’entusiasmo e penso che abbiano le idee e le persone giuste per fare qualche cosa di grande.

Qualche dettaglio

I numeri che hanno presentato danno l’idea dell’interesse che c’è questo momento sul Big Data e su questa azienda. Anche se sono nati solo 4 anni fa possono contare già su oltre 400 partner (OEM, repeller, sviluppatori, ecc) e su oltre 30000 persone già formate sulla tecnologia e il prodotto: a me sembrano numeri impressionanti!
Certo, sono stati fra i primi a partire e quindi hanno sfruttato un po l’entusiasmo della novità ma il loro team tecnico conta personaggi di primissimo piano nel mondo Hadoop e in quello del Big Data in generale.
Cloudera comunque è una piattaforma su cui sviluppare applicazioni e non un’applicazione in se. Se dovessi fare un parallelo, è come quando si pensa al DB: è un tool di base per gestire (grandi) basi dati e a cui si accede con strumenti più o meno standard.

Hadoop e il real time

Due dei punti di forze e di estrema debolezza che ha sempre avuto hadoop sono Map Reduce e una architettura pensata per le lavorazioni batch. Parte della presentazione è stata proprio incentrata su una novità decisamente interessante. Cloudera ha contribuito in modo significativo a risolvere questo problema e ha appena rilasciato un prodotto (disponibile anche in versione open source) che si chiama impala. Impala indirizza proprio questa lacuna e permette quindi di utilizzare linguaggi molto più familiari agli sviluppatori tradizionali (SQL) su basi di dati enormi e in tempo reale. Queste nuove possibilità aprono nuovi campi di utilizzo per hadoop decisamente interessanti e permetteranno agli sviluppatori di adottare queste tecnologie con pochissimo sforzo.

Non è tutto oro…

La tecnologia è relativamente immatura e gli sviluppi sono frenetici, ma questo non sarebbe il problema più grosso. L’ostacolo più importante all’adozione del BigData è la mancanza di persone in grado di fare da trade union fra gli sviluppatori e il business. Il Data scientist infatti è un figura relativamente nuova, una via di mezzo fra uno sviluppatore e un statistico matematico, che sta nel mezzo fra le esigenze di business (chi ha il problema da risolvere) e gli sviluppatori (chi deve risolvere il problema). Questo tipo di figure professionali sono rare, giovani (nel senso che molti stanno uscendo adesso dalle università), ricercatissime e costosissime!
Ho registrato un video con Josh Wills (Director of Data Science proprio in Cloudera) che pubblicherò prestissimo e che dovrebbe dare l’idea di cosa sto parlando.

Nota finale

Se ce ne fosse stato ancora bisogno, ho avuto la riprova che il Big Data sarà (è?) la cosa più interessante nell’IT da molti anni a questa parte. Tutte le aziende raccolgono dati in diverse forme e misure, e ne raccolgono sempre di più. Avere la capacità di analizzarli e trasformali in informazioni a supporto del business diventerà sempre più un vantaggio competitivo inestimabile. E’ tutto molto nuovo e, come ho spiegato poco sopra, mancano anche risorse specifiche ma sono fortemente convinto che ci sono opportunità interessantissime.

Disclaimer: Sono stato invitato a questo meeting da Condor Consulting Group e loro hanno pagato per il viaggio e l’alloggio. Non sono stato ricompensato in alcun modo per il mio tempo e non sono in obbligo di scrivere articoli. In ogni caso, i contenuti di questi articoli non sono concordati, rivisti o approvati dalle aziende menzionate o da altri al di fuori del team di juku.