Els acumuladors són variables que només s'hi "afegeixen" mitjançant una operació associativa i, per tant, es poden suportar de manera eficient en paral·lel. Es poden utilitzar per implementar comptadors (com a MapReduce) o sumes. Spark admet de forma nativa acumuladors de tipus numèrics i els programadors poden afegir suport per a nous tipus.
Per què utilitzem l'acumulador?
Acumuladors hidràulics s'utilitzen en una gran varietat de indústries per emmagatzemar energia; mantenir la pressió; amortir vibracions, pulsacions i cops; i molt més. Emmagatzematge d'energia: els acumuladors poden acceptar, emmagatzemar i alliberar energia en forma de fluid a pressió per millorar l'eficiència del vostre sistema hidràulic.
Quina diferència hi ha entre l'emissió i l'acumulador a Spark?
La diferència clau entre una variable d'emissió i un acumulador és que, mentre que la variable d'emissió és només de lectura, es pot afegir l'acumulador. … Cada node de treball només pot accedir i afegir-hi el seu propi valor d'acumulador local, i només el programa del controlador pot accedir al valor global.
Com funciona l'acumulador Spark?
Els
Acumuladors són variables que s'utilitzen per agregar informació entre els executors. Per exemple, aquesta informació pot referir-se a dades o al diagnòstic de l'API, com ara quants registres estan danyats o quantes vegades s'ha cridat a una API de biblioteca concreta.
Per què el treballador no hauria d'utilitzar la variable acumuladora a Spark per a operacions de transformació?
L'acumulador donarà una sortida incorrecta. Si una tasca s'executa lenta, Spark pot llançar una còpia especulativa d'aquesta tasca en un altre node. Veredicte: No es gestiona. L'acumulador donarà una sortida incorrecta.