بیگ دیتا یا کلان داده چیست؟

کلان داده -هدر

بیگ دیتا یا کلان داده چیست؟

بیگ دیتا

اجداد ما انسان‌ها تا قبل از کشف وجود اجرام آسمانی هیچ ایده‌ای درباره نقاط نورانی که هر شب می‌دیدند نداشتند. آنها وقتی به آسمان شب خیره می‌شدند سعی می‌کردند با وصل کردن نقاط نورانی در تخیل خود موجوداتی بسازند یا آنها را به اتفاقات روزمره ربط دهند. هزاران سال از آن شب‌های مبهم گذشته است و اکنون خیلی چیزها را فهمیده‌‌ایم. انسان‌ها عاشق وصل کردن نقاط مبهم برای پیدا کردن معنی و ارتباط هستند.

حالا انسان‌ها با کمک رایانه‌ها به راحتی می‌توانند مفاهیم و اطلاعات به‌دردبخوری را از میان انبوهی از داده‌های نامفهوم و بدون ساختار استخراج کنند. این انبوه داده همان چیزی است که به آن می‌گوییم بیگ دیتا یا کلان داده.

بیگ دیتا یک واژه باب روز Buzzwords  برای فرایند‌هایی شامل جمع‌آوری، استخراج و تحلیل داده‌هایی پیچیده است که با ابزارهای معمول نمی‌توان از آنها برای دستیابی به اهداف استفاده کرد.

تحلیل بیگ دیتا

این تعریف ساده بیگ دیتا همه ماجرا را بیان نمی‌کند. در واقع اصطلاح بیگ‌دیتا فقط به داده‌ها اشاره می‌کند در حالی که بخش بزرگی از این فرایند بر عهده علم داده Data science، استخراج داده data mining، تحلیل داده Data analysis، یادگیری ماشین Machine learning و در ابعاد بزرگتر‌، هوش مصنوعی است.

بیگ دیتا یک اصطلاح تکاملی است که حجم زیادی از ساختار، داده‌های نیمه ساختار یافته و غیرساختاری را توضیف می‌کند. این داده‌ها پتانسیل آن را دارند که برای اطلاعات استخراج شوند و در پروژه‌های یادگیری ماشین و سایر برنامه‌های پیشرفته تجزیه و تحلیل استفاده شوند.

 

بیگ دیتا معمولا در مقابل سه موضوع مشخص می‌شود که عبارتند از: حجم شدید داده‌ها، طیف گسترده‌ای از انواع داده‌‌ها و سرعتی که داده‌ها باید پردازش شوند. این خصوصیات ابتدا توسط داگ لانی تحلیلگر گارتنر شناسایی و در سال 2001 در یک گزارش منتشر شد. اخیرا نیز چندین مورد دیگر به توصیف‌های داده بزرگ اضافه شده است که از جمله آن‌ها: صداقت، ارزش و تنوع می‌باشد. اگرچه داده بزرگ با هر مقدار خاصی از داده‌ها معادل نیستند، اما این اصطلاح اغلب در تصیف ترابایت، الفاظ و حتی اگزابایت داده‌ها در طول زمان استفاده می‌شود.

بیگ دیتا چگونه کار می‌کند؟

بیگ دیتا را می‌توان به عنوان ساختار یافته و بدون ساختار طبقه‌بندی کرد. داده‌های ساختار یافته شامل اطلاعاتی است که سازمان در پایگاه داده‌ها مدیریت می‌کند و طیف گسترده‌ای دارد. این اطلاعات اغلب عددی هستند. داده‌های غیرساختاری اطلاعاتی است که سازماندهی نشده و به یک مدل یا فرمت از پیش تعیین شده نمی‌رسد. این داده‌ها شامل اطلاعات جمع‌آوری شده از منابع رسانه‌های اجتماعی است که به موسسات کمک می‌کند تا اطلاعات مربوط به نیازهای مشتری را جمع‌آوری کنند.

بیگ دیتا 3

3 مشخصه بیگ دیتا به طور سنتی عبارتند از: حجم یا مقدار داده‌ها، سرعتی که این داده‌ها جمع‌آوری شده است و انواع اطلاعات.

 

بیگ دیتا را می‌توان از طریق نظرات عمومی در شبکه‌های اجتماعی، وب‌سایت‌ها، اطلاعاتی که به صورت داوطلبانه از برنامه‌های شخصی و الکترونیک جمع‌آوری شده‌اند، از طریق پرسشنامه‌ها، خرید محصولات و چک‌های الکترونیکی جمع‌آوری کرد. حضور سنسورها و دیگر ورودی‌ها در دستگاه‌های هوشمند اجازه می‌دهد تا داده‌ها در طیف گسترده‌ای از شرایط و موقعیت‌ها جمع‌آوری شوند.

 

بیگ دیتا اغلب در پایگاه داده‌های کامپیوتری ذخیره می‌شود و یا با استفاده از نرم‌افزار به طور خاص برای دسته‌بندی مجموعه‌های داده‌های بزرگ و پیچیده مورد تجزیه و تحلیل قرا می‌گیرد. بسیاری از شرکت‌های نرم‌افزاری به عنوان یک سرویس در مدیریت این نوع داده‌های پیچیده تخصص دارند.

 

ویژگی‌های بیگ دیتا

حجم

ویژگی اصلی که یک داده را بزرگ می‌کند حجم منحصر به فرد آن است. به نظر می‌رسد تمرکز برروی حداقل واحدهای ذخیره‌سازی اهمیت زیادی ندارد، چراکه میزان کل اطلاعات هر سال در حال افزایش است. در سال 2010 Thomson Reuters در یک گزارش سالانه برآورد کرده است که جهان با بیش از 800 اکسایبایت از داده‌ها روبرو است و در حال رشد است. هیچ کس واقعا نمی‌داند که چه مقدار اطلاعات جدید تولید می‌شود اما میزان اطلاعات جمع‌آوری شده در هر سال بسیار زیاد است.

 

تنوع

تنوع یکی از جالب‌ترین تحولات در فناوری است، زیرا اطلاعات روز‌به‌روز بیشتر دیجیتالی می‌شوند. انواع داده‌های سنتی (داده‌های ساختاری) شامل مواردی مانند تاریخ، مقدار و زمان هستند که در یک بیانیه جمع‌آوری شده‌اند.

 

داده‌های ساختار یافته توسط داده‌های غیرساختاری افزوده و تکمیل شده است که شامل مواردی مانند فیدهای توییتر، فایل‌های صوتی، صفحات وب، تصاویر و غیره می‌شود.

 

داده‌های غیرساختاری یک مفهوم اساسی در داده‌های بزرگ است. بهترین راه برای تشخیص داده‌های غیرساختاری مقایسه آن با داده‌های ساختار یافته است. داده‌های ساختار یافته را  به عنوان داده‌هایی که در مجموعه‌ای از قوانین به خوبی تعریف شده‌اند در نظر بگیرید. به عنوان مثال پول همیشه عدد است و حداقل دو رقم اعشار دارد، نام‌ها به صورت متن بیان می‌شوند و تاریخ‌ها یک الگوی خاص را بیان می‌کنند.

 

صحت

صحت به اعتماد داده‌ها اشاره دارد. آیا یک مدیر می‌تواند بر این واقعیت تاکید کند که داده‌ها نماینده او هستند؟ هر مدیر خوب می‌داند که اختلافات ذاتی در تمام داده‌های جمع‌آوری شده وجود دارد.

 

سرعت

سرعت در اینجا به معنای سرعت فراخوانی داده‌های ورودی است که باید پردازش شود. تصور کنید در هر دقیقه از یک روز چند پیغام به روزرسانی فیس‌بوک و یا پیام‌های موجودی کارت‌های اعتباری از یک حامل مخابراتی خاص ارسال می‌شود. این‌‌ها همه نمونه سرعت بالا است.

ارزش

 

ممکن است به نظر برخی بسیار سخت برسد اما داشتن یک هدف واقعی برای این چهار پلتفرم بسیار مهم است. آیا شما بینشی را که از تجزیه و تحلیل یک خط تولید جدید، یک فرصت فروش متقابل یا یک اقدام کاهش هزینه بدست می‌آورید جمع‌آوری می‌کنید؟ یا اینکه تجزیه و تحلیل اطلاعات شما منجر به کشف یک اثر علمی می‌شود که در نتیجه باعث بهبود مشکل شما و سازمان شما خواهد شد؟

در کلان داده منظور از داده‌ در هر مرحله از کار متفاوت است. داده خام داده‌ای است که بدون ترتیب و طبقه‌بندی جمع‌آوری شده‌اند و در نتیجه مفهوم خاصی را بیان نمی‌کند. در صورتی که روی داده خام پردازش انجام دهیم تبدیل به اطلاعات می‌شود که انتقال دهنده مفهومی هستند.

داده‌ها از صدها راه مختلف تولید و ذخیره می‌شوند. همین چند دقیقه قبل که روی لینکی کلیک کردید تا این مقاله باز شود داده‌هایی از فعالیت شما در سرورهای گوگل ذخیره شد. داده‌هایی مثل مدل سیستم عامل، دستگاه موبایل یا رایانه شما و محل اتصال شما به اینترنت.

داده‌ها فقط از فعالیت اینترنت جمع نمی‌شوند. هر منبع دیگری مثل پرسشنامه کاغذی، فیلم دوربین‌های نظارتی شهرها، موقعیت موبایل، بلیط اتوبوسی که می‌خرید، بیمه خودرو و درمانی، اطلاعات تحصیلی و … همه داده خام هستند.

در نهایت همه این داده‌ها دیجیتال می‌شوند تا مراحل بعدی انجام شود.

خبرنامه دنیای تراشه

با عضو شدن در خبرنامه چیپست، به ما اجازه می دهید تا در هنگام رویدادهای مهم، به سرعت شما را در جریان بگذاریم :)

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *