فهرست مطالب
کلان داده (Big Data):
برای درک مفهوم کلان داده ها، باید پیشینه تاریخی آن را بدانیم. کلان داده ها اولین بار در سال ۲۰۰۱ با مفهوم زیر مطرح شده است:
“کلان داده مجموعهای از دادههای بسیار متنوع میباشد، که حجم آنها در حال افزایش بوده و با سرعت بسیار بالایی در حال رشد است. به سه مفهوم تنوع (variety)، حجم (volumes) و سرعت (velocity) در کلان داده ها به اختصار Vs گفته میشود که از ابتدای نام انگلیسی هر یک از این سه مفهوم گرفته شده است.
به عبارت ساده، کلان داده ها مجموعه داده بسیار بزرگ، پیچیده و رو به رشد است که این مجموعه دادهها به نسبت مجموعه دادههای گذشته، حجم بسیار زیادی دارند و نرم افزارهای پردازش داده قدیمی نمیتوانند آنها را مدیریت کنند. این در حالی است که این دادههای بسیار حجیم، قابلیتهای بسیاری زیادی دارند و میتوانند مشکلات و مسائلِ کسب و کار مختلف را که در گذشته قادر به حل آنها نبودید، به آسانی تجزیه و تحلیل نمایند .
تاریخچه کلان داده ها:
با وجود اینکه مفهوم کلان داده تا حدودی نوظهور است، اما خاستگاه دادههای با تعداد بالا، به دهههای ۱۹۶۰ و ۱۹۷۰ باز میگردد. زمانی که دنیای دادهها تازه شروع به کار کرده و اولین مراکز داده و پایگاه دادههای رابطهای شروع به کار کردند.
در سال ۲۰۰۵ دانشمندان به این حقیقت دست یافتند که کاربران با استفاده از فیس بوک، یوتیوب و سایر سرویسهای آنلاین تا چه میزان دادههای فراوانی را ایجاد میکنند. در همان سال Hadoop که یک چارچوب منبع باز برای ذخیرهسازی، تجزیه و تحلیل پایگاه دادههای بزرگ بود، ساخته شد. همچنین NoSQL نیز در همان سال به محبوبیت فراوانی دست یافت.
رشد چارچوبهای منبع باز مانند Hadoop (و اخیرا Spark) برای رشد کلان داده ها ضروری بودند زیرا آنها کار با کلان داده ها را سادهتر و ذخیرهسازی آنها را ارزانتر نمودند. در سالهای پس از آن حجم کلان داده ها بسیار بسیار زیاد شد و کاربران هر روزه دادههای بسیار زیادی را تولید کردند، و البته تنها انسانها نبودند که این حجم از دادهها را تولید میکردند.
با ظهور اینترنت اشیا (Internet of Things= IoT)، دستگاهها و اشیا مختلف به اینترنت متصل شدند و دادههای مرتبط با الگوهای مصرفی و کاراییِ محصولات را جمع آوری میکنند. به علاوه ظهور یادگیری ماشین نیز دادههای بیشتری را به این عرصه وارد نمود.
در حالی که کلان دادهها خیلی پیشرفت کرده بودند، این تازه شروع کار بود. محاسبات ابری (Cloud computing) امکانات و قابلیتهای کلان داده ها را بسیار گسترش داد. این تکنولوژی مقیاسپذیری منعطفی را ایجاد کرد که توسعهدهندگان میتوانستند به آسانی مجموعههای زیر دادهها را آزمایش نمایند.
مزایای کلان داده ها و تجزیه و تحلیل دادهها:
– کلان داده ها این امکان را میدهند تا شما بتوانید پاسخهای کاملتری را دریافت کنید زیرا اطلاعات بیشتری دارید.
– پاسخهای کاملتر به این معنا هستند که شما میتوانید از رویکردهای کاملا متفاوتی برای حل مسائل کسب و کارِ خود استفاده کنید.
سه مفهوم Vs در کلان داده ها:
ارزش واقعی کلان داده ها:
سه Vs دیگر در چند سال گذشته به مفاهیم کلان داده ها اضافه شده است که شامل ارزش (Value) و صحت (Veracity) و تنوعپذیری (variability) میباشد.
هر داده دارای ارزش نهفتهای میباشد، اما تا زمانی که این ارزش کشف نشده باشد این داده هیچ گونه قابلتی نخواهد داشت. همین طور صحت داشتن داده شما از اهمیت بسیار بالایی برخوردار است تا شما بتوانید به این دادهها اعتماد کرده و کسب و کار خود را همگام با آنها پیش ببرید.
امروزه کلان داده ها تبدیل به سرمایههای بسیار مهمی شدهاند به طوری که شرکتهای تکنولوژی بسیار بزرگِ دنیا از آنها استفاده میکنند، و بیشترین ارزشی که آنها به دست آوردهاند از همین دادههایی است که به طور مداوم تجزیه و تحلیل میشوند و محصولات جدیدی را تولید میکنند و در ضمن از کارآمدی بالایی برخوردار هستند.
پیشرفتهای اخیر فناوری به طور تصاعدی، هزینه ذخیرهسازی و محاسبه دادهها را کاهش میدهند و آن را آسانتر میکنند. با حجم فراوان این دادههای رو به افزایش که ارزان و به آسانی در دسترس هستند شما میتوانید تصمیماتِ کسب و کار خود را دقیقتر و صحیحتر اتخاذ نمایید.
همچنین پیدا کردن ارزشِ کلان داده ها تنها در مورد تجزیه و تحلیل آنها نیست و دارای ارزشهای فراوان دیگری نیز میباشد. این ارزش یابی، یک فرآیند کشف کامل است که نیازمند تحلیلگران بسیار مجرب، کاربران تجاری و مدیرانی است که سوالات درست را مطرح میکنند الگوهای صحیح را میشناسند و فرضیات آگاهانهای را در نظر میگیرند تا بتوانند الگوی رفتاری مشتریان را پیش بینی کنند.
به علاوه مجموعههای کلان داده، پایداری کمتری نسبت به دادههای تراکنشی قدیمی دارند و دارای چندین معنا هستند و یا در فرمتهای مختلفی از یک منبع به منبع دیگر متغیر هستند، که به این ویژگی variability گفته میشود.
در شکل زیر شش Vs یا همان مفاهیم مرتبط با کلان دادهها، که تا به اینجا مورد بحث قرار گرفتهاند، را ملاحظه مینمایید.
موارد استفاده از کلان داده ها:
کلان داده ها میتواند به شما کمک کند تا به فعالیتهای تجاری گستردهای بپردازید: از تجربیات مشتریان گرفته تا تجزیه و تحلیل آنها.
توسعه و تولید محصولات:
شرکتهایی مانند نفلیکس از کلان داده ها برای پیش بینی تقاضای مشتریان استفاده میکنند. آنها مدلهای پیش بینی کنندهای را برای محصولات و خدمات جدید خود ایجاد میکنند تا با استفاده از کلاسبندی مشخصههای محصولات و خدماتِ قبلی و مدلسازی رابطه آنها با مشخصههای محصولات و خدماتِ جدید، میزان موفقیت تجاری آنها را پیش بینی کنند.
نگهداری همراه با پیشبینی:
عواملی که میتوانند مشکلات مکانیکی را پیش بینی کنند به احتمال بسیار بالای درون دادههای ساختاریافته مانند سال، شیوه ساخت و مدلِ دستگاه مورد نظر و نیز درون دادههای غیر ساختاریافته مانند دفعات ورود به سیستم، دادههای حسگرها، پیامهای خطا و دمای موتور قرار گرفتهاند. با تحلیل این نشانههایی که از مسائل و مشکلات بالقوه سرچشمه گرفتهاند، میتوان آنها را قبل از وقوع شناسایی نمود. شرکتها میتوانند با استفاده از کلان دادهها فرآیند نگهداری دستگاههای خود را با هزینه مقرون به صرفه و قطعات و تجهیزات کمتر به انجام برسانند.
تجربیات مشتریان:
فرآیند جذب مشتریان همیشه دغدغه بسیاری از شرکتها بوده است. امروزه با استفاده از کلان داده ها دید وسیعتری نسبت به تجربیات مشتریان وجود دارد. کلان داده ها شما را قادر میسازد تا دادههایی را از رسانههای اجتماعی خود، بازدیدهای وب سایت، گزارش تماسها و سایر منابع به دست آورده تا بتوانید تجربیات تعاملی خود را بهبود ببخشید و اطلاعات مفیدتری را برای مشتریانتان فراهم کنید که موجب میشود تا نگرانیهای آنها کاهش یافته و مسائل بالقوه را به صورت پیشگیرانه مدیریت نمایید.
کلاهبرداری:
زمانی که صحبت از امنیت میشود، شما تنها در مقابل یک هکر نیستید، بلکه یک تیم متخصص هک در مقابل شما قرار گرفته است. شیوههای امنیتی و الزامات جانبی آن روز به روز در حال تکامل هستند. کلان داده به شما کمک میکند تا الگوهای مشخصی در دادهها را که نشاندهنده کلاهبرداری در آینده هستند، شناسایی کنید و حجم زیادی از این دادهها و اطلاعات را جمع آوری کرده و بتوانید برای گزارش تخلف به صورت قانونی از آنها استفاده نمایید.
یادگیری ماشین:
یادگیری ماشین یکی از موضوعات داغ حوزه کامپیوتر محسوب میشود و داده، به خصوص کلان دادهها، یکی از دلایل این محبوبیت میباشد. امروزه ما قادر هستیم تا ماشینها و کامپیوترها را آموزش دهیم به جای اینکه آنها را به صورت کامل برنامه نویسی کنیم، که در این میان در دسترس بودن کلان داده ها، آموزشِ مدلهای یادگیری ماشین را امکانپذیر کرده است.
کارایی عملیاتها:
کارایی عملیاتی ممکن است که با اهمیت زیادی در مقالات و اخبار مشاهده نشده باشد، اما مهمترین حوزهای است که کلان داده ها بیشترین تاثیر را بر روی آن دارند. با کلان داده ها شما میتوانید تولید، بازخوردهای مشتریان و سایر عوامل موثر را تجزیه، تحلیل و ارزیابی نمایید تا بتوانید نواقص را کاهش داده و تقاضاهای آینده را پیشبینی کنید. همچنین میتوانید از آن برای بهبود فرآیند تصمیمگیری (decision-making) که هم راستا با تقاضای فعلی بازار است، استفاده کنید.
بروز خلاقیت و نوآوری:
کلان داده به شما کمک میکند تا با مطالعه وابستگیهای متقابل میان انسانها، موسسات و نهادها نوآوریهای تازهای داشته باشید و شیوههای جدیدی را بر اساس این بینشها ایجاد کنید. دادهها میتوانند برای بالا بردن افق دید شما در خصوص تصمیمات و ملاحظات مالی و برنامهریزی بسیار موثر باشند. همچنین به شما کمک میکنند تا گرایشات و آنچه در آینده مشتریان به آن نیاز خواهند داشت را شناسایی کنید یا حتی چگونگی استفاده از قیمتگذاری پویا را در بیابید.
به طور کلی کلان داده ها امکانات و توانمندیهای بیشماری را به شما عرضه خواهد کرد.