hadoop

HDFS چه تفاوتی با فايل سيستم‌هاي معمولي دارد؟

اردیبهشت ۴, ۱۳۹۵

برچسب‌ها, ,

HDFS یا فایل‌سیستم توزیع‌شده‌ی هدوپ در واقع پیاده‌سازی مفاهیم سنتی فایل‌سیستم، در مقیاسی بسیار بزرگتر از معمول است. در حالتی که کوچکترین بلوک قابل آدرس‌دهی در کامپیوتر شما احتمالا چند کیلوبایت است، بلوک‌های HDFS به سادگی ۶۴ یا ۱۲۰ مگابایت یا حتی بیشتر هستند. ده‌ها‌هزار برابر بزرگتر! به قلمرو داده‌های کلان خوش آمدید. به امکاناتی که این تغییر مقیاس در اختیار ما می‌گذارد فکر کنید.

تا به حال دیسک لپ‌تاپ خود را دفراگ کرده‌اید؟ در طی این فرایند، سیستم‌عامل شما ترتیب قرارگیری بلوک‌ها روی فضای دیسک را تغییر می‌دهد تا به شیوه بهتری بتواند به آن‌ها دسترسی پیدا کند. تصور کنید اگر در مقیاس داده‌های‌کلان توان بازی با بلوک‌ها را داشته باشیم چه فیچر‌هایی می‌توانیم پیاده کنیم؟

ذخیره افزونه

شما در HDFS چند نسخه از هر بلوک را در مکان‌های مختلف ذخیره می‌کنید.

تحمل خطا

با داشتن چند نسخه‌ از هر بلوک، HDFS می‌تواند از دست رفتن تعدادی از بلوک‌های افزونه را تحمل کند.

نگه‌داری توزیع‌شده

HDFS در لایه‌ای بسیار بالا پیاده شده است. بدون این که شما متوجه شوید، HDFS می‌تواند بلوک‌های داده‌ را روی چندین سرور پخش و مدیریت کند و به شما تصویر واحدی برای مدیرت فایل‌های کلان‌تان ارایه دهد. تمام پیچیدگی‌های این عملیات از دید شما پنهان است. کلاستر HDFS حتی می‌تواند از دست رفتن تعدادی سرور را تحمل کند زیرا در پخش بلوک‌ها روی سرور‌ها هر نسخه از یک بلوک را در صورت امکان روی یک سرور مجزا نگه‌داری می‌کند. با از دست رفتن یک سرور در کلاستر، شما تعدادی بلوک‌داده از دست می‌دهید ولی نسخه‌ای از تک‌تک بلوک‌های از دست رفته روی سرور‌های دیگر کلاستر وجود دارد.

پردازش موازی

اگر بلوک‌ها را به جای نگه‌داری روی یک سرور روی جندین سرور پخش کرده‌ایم، چرا علاوه بر استفاده از فضای دیسک، از امکانات پردازشی این سرور‌ها بهره‌مند نشویم؟ ویژگی‌های HDFS به فریم‌ورک‌های بالاتر این امکان را می‌دهد تا روی بلوک‌های توزیع شده‌ی یک فایل همزمان پردازش کنند.

بازیابی ترتیبی سریع

با وجود پخش بلوک‌های فایل روی سرور‌های مجرا، به دلیل ججم بسیار بالای هر بلوک، عملیات بازیابی آن از یک سرور، کم‌هزینه است. از این رو در بازیابی ترتیبی شما می‌توانید بلوک بعدی را پیش‌بینی و از قبل بارگذاری کنید. پس تمامی بلوک‌های داده کلان سر بزنگاه در دسترس هستند و شما هرگز منتظر نمی‌مانید.

اما در روی دیگر سکه شما دسترسی اتفاقی سریع را از دست می دهید. با ده‌ها‌هزار برابر بزرگتر شدن بلوک‌ها شما دسترسی اتقاقی سریع به نقاط مختلف فایل را فدا می‌کنید. فایل سیستم رایانه شما می‌تواند با یک جرکت هد دیسک جایی دیگر را بخواند. HDFS در بازیابی نقاط اتقاقی از فایل‌ها، کم‌بازده و پرهزینه عمل می‌کند. فاصله بین بلوک کنونی و بلوک مقصد شما در فایل‌سیستم‌های خرد چند نانومتر روی یک دیسک یک لپ‌تاپ است و بازیابی بلوک‌های چند کیلوبایتی بسیار سریع انجام می‌شود. چند سال پیش در جایی شنیدم که کلاستر اسپاتیفای در لندن که داده‌های تعامل کاربران با اپ‌های موبایل را برای پردازش دریافت می‌کند از ۵۰۰ سرور تشکیل‌شده‌است. اندازه این کلاستر به هیچ‌وجه منحصر‌به‌فرد نیست با وجود این‌که تاکنون احتمالا بسیار بزرگتر هم شده‌است.

بهرام شمشیری

اگر مایل بودید اطلاعات بیشتری از من داشته باشید آدرس لینکدین من:

More Posts

Follow Me:
LinkedIn

1 پسند

ديدگاه ها (1)

  • اردیبهشت ۱۷, ۱۳۹۶ توسط دانلود آهنگ جدید

    دانلود آهنگ جدید

    مفید بود مرسی

آدرس ایمیل شما منتشر نخواهد شد.