Apakah enjin pemprosesan data di sebalik Amazon Elastic MapReduce?
Apakah enjin pemprosesan data di sebalik Amazon Elastic MapReduce?

Video: Apakah enjin pemprosesan data di sebalik Amazon Elastic MapReduce?

Video: Apakah enjin pemprosesan data di sebalik Amazon Elastic MapReduce?
Video: Что такое Amazon EMR и как его использовать для обработки данных? 2024, April
Anonim

Amazon EMR menggunakan Apache Hadoop sebagai pengedarannya enjin pemprosesan data . Hadoop ialah rangka kerja perisian Java sumber terbuka yang menyokong data -aplikasi teragih intensif berjalan pada kelompok besar daripada perkakasan komoditi.

Selain itu, apakah itu Amazon Elastic MapReduce?

Amazon Elastic MapReduce ( EMR ) adalah Perkhidmatan Web Amazon ( AWS ) alat untuk pemprosesan dan analisis data besar. Amazon EMR memproses data besar merentas kluster pelayan maya Hadoop Amazon Elastik Kira Awan ( EC2 ) dan Amazon Perkhidmatan Storan Mudah ( S3 ).

Tambahan pula, adakah Amazon EMR diurus sepenuhnya? Ianya adalah terurus sepenuhnya perkhidmatan tasik data yang boleh memisahkan storan data daripada sumber pengiraan dan sebaliknya menjadikan kluster pengiraan boleh berskala, tersedia untuk digunakan atas permintaan dan termasuk keupayaan untuk berbilang kluster mengakses set data yang sama sekali gus.

Seseorang juga mungkin bertanya, bagaimana AWS EMR berfungsi?

Secara amnya, apabila anda memproses data masuk Amazon EMR , input ialah data yang disimpan sebagai fail dalam sistem fail asas pilihan anda, seperti Amazon S3 atau HDFS. Data ini berpindah dari satu langkah ke langkah seterusnya dalam urutan pemprosesan. Langkah terakhir menulis data output ke lokasi tertentu, seperti an Amazon baldi S3.

Apakah perbezaan antara ec2 dan EMR?

Tidak seperti EMR , EC2 tidak mengkategorikan nod hamba kepada nod teras dan tugas. Ini meningkatkan risiko kehilangan data HDFS sekiranya nod dialih keluar/hilang. EC2 menggunakan perpustakaan Apache (s3a) untuk mengakses data pada s3. Selain itu, EMR menggunakan kod proprietari AWS untuk mendapatkan akses yang lebih pantas kepada s3.

Disyorkan: