Levitatud vahemälu levimuutujatega: Apache Spark



Selles ajaveebi postituses käsitletakse levitatavate muutujate hajutatud vahemällu salvestamist ja saate alustada Sparki programmeerimisel suurte väärtuste tõhusast levitamisest.

Kaastööd tegi Prithviraj Bose





Levimuutujad on kasulikud siis, kui täitjad peavad vahemällu salvestama suured andmekogumid. See ajaveeb selgitab, kuidas alustada.

java keeles läbima väärtuse ja viite

Mis on ringhäälingu muutujad?



Apache Sparki muutujad on mehhanism muutujate jagamiseks täidesaatjate vahel, mis on mõeldud ainult lugemiseks. Ilma levimuutujateta saadetakse need muutujad igale teisendajale ja toimingule igale täitjale ja see võib põhjustada võrgu üldkulusid. Ülekandemuutujate puhul saadetakse need üks kord kõigile täitjatele ja need salvestatakse vahemällu edaspidiseks kasutamiseks.

Ringhäälingu muutujate kasutamise juhtum

Kujutage ette, et teisendamise ajal peame üles otsima suure sihtnumbrite / PIN-koodide tabeli. Siin pole teostatav suurt otsingutabelit iga kord täitjatele saata, samuti ei saa me andmebaasist iga kord päringuid teha. Lahendus peaks olema selle otsingu tabeli teisendamine levimuutujaks ja Spark teeb selle vahemällu edaspidiseks kasutamiseks vahemällu.

Võtame ülaltoodud mõistete mõistmiseks lihtsa näite. Meil on riikide ja nende pealinnade nimedega CSV-fail. CSV-faili leiate siin .



CSV-file-distributed-caching

Eeldades, et töötleme riikide demograafilisi andmeid ja peame saama selle riigi kapitali. Sel juhul saame teisendada CSV-faili andmed levimuutujaks.

Kõigepealt laadime CSV-faili kaardile, kui fail leitakse, tagastatakse meetod Mõned (riigid) muidu naaseb Puudub .

lisage jaavas kaks numbrit

Pärast CSV-faili edukat laadimist teisendame kaardi levimuutujaks ja kasutame seda oma programmis.

Ülaltoodud koodilõiguga laadime CSV-faili kaardile riikides siis teisendame selle kaardi levimuutujaks countriesCache . Seejärel loome RDD võtmetest riikides . Aastal searchCountryDetails meetod otsime kõik riigid, mis algavad kasutaja määratud tähega, ja meetod tagastab riikide RDD koos nende suurtähtedega. Ülekandemuutuja countrieCache kasutatakse pealinnade otsimiseks.
Nii ei pea me kogu CSV-andmeid saatma iga kord, kui peame otsima.

Kood searchCountryDetails on näidatud allpool,

Leiate kogu lähtekoodi siin .

Kas teil on meile küsimus? Mainige neid kommentaaride jaotises ja võtame teiega ühendust.

mis on java näited

Seonduvad postitused:

Sädeakud selgitatud

Apache Spark-i kombineerimineByKey selgitatud