Apakah masalah dengan fail kecil dalam Hadoop?
Apakah masalah dengan fail kecil dalam Hadoop?

Video: Apakah masalah dengan fail kecil dalam Hadoop?

Video: Apakah masalah dengan fail kecil dalam Hadoop?
Video: Solution for Small File Issue | Hadoop Interview questions 2024, November
Anonim

1) Masalah Fail Kecil dalam HDFS : Menyimpan banyak fail kecil yang amat lebih kecil daripada saiz blok tidak boleh dikendalikan dengan cekap oleh HDFS . Membaca habis-habisan fail kecil melibatkan banyak pencarian dan banyak lompatan antara nod data ke nod data, yang mengakibatkan pemprosesan data yang tidak cekap.

Selain itu, fail manakah yang menangani masalah fail kecil dalam Hadoop?

1) HAR ( Hadoop Arkib) Fail telah diperkenalkan kepada menangani isu fail kecil . HAR telah memperkenalkan lapisan di atas HDFS , yang menyediakan antara muka untuk fail mengakses. menggunakan Hadoop arahan arkib, HAR fail dicipta, yang menjalankan a MapReduce kerja mengemas fail sedang diarkibkan ke dalam lebih kecil sebilangan fail HDFS.

Tambahan pula, bolehkah saya mempunyai berbilang fail dalam HDFS menggunakan saiz blok yang berbeza? Lalai saiz daripada blok ialah 64 MB. awak boleh mengubahnya bergantung pada keperluan anda. Datang kepada soalan anda ya anda boleh mencipta berbilang fail dengan memvariasikan saiz blok tetapi dalam Masa Nyata ini kehendak tidak memihak kepada pengeluaran.

Selain itu, mengapa HDFS tidak mengendalikan fail kecil secara optimum?

Masalah dengan fail kecil dan HDFS Setiap fail , direktori dan sekat masuk HDFS ialah diwakili sebagai objek dalam ingatan namenode, setiap satunya menduduki 150 bait, sebagai peraturan biasa. Tambahan pula, HDFS bukan diperuntukkan untuk mengakses dengan cekap fail kecil : ia ialah direka terutamanya untuk akses penstriman yang besar fail.

Mengapa Hadoop lambat?

Lambat Kelajuan Pemprosesan Cakera ini mencari mengambil masa sehingga menjadikan keseluruhan proses sangat lambat . Jika Hadoop memproses data dalam jumlah yang kecil, ia adalah sangat lambat secara perbandingan. Ia sesuai untuk set data yang besar. Sebagai Hadoop mempunyai enjin pemprosesan kelompok pada teras kelajuannya untuk pemprosesan masa nyata adalah kurang.

Disyorkan: