بیگ دیتا یا کلان داده چیست؟
اجداد ما انسانها تا قبل از کشف وجود اجرام آسمانی هیچ ایدهای درباره نقاط نورانی که هر شب میدیدند نداشتند. آنها وقتی به آسمان شب خیره میشدند سعی میکردند با وصل کردن نقاط نورانی در تخیل خود موجوداتی بسازند یا آنها را به اتفاقات روزمره ربط دهند. هزاران سال از آن شبهای مبهم گذشته است و اکنون خیلی چیزها را فهمیدهایم. انسانها عاشق وصل کردن نقاط مبهم برای پیدا کردن معنی و ارتباط هستند.
حالا انسانها با کمک رایانهها به راحتی میتوانند مفاهیم و اطلاعات بهدردبخوری را از میان انبوهی از دادههای نامفهوم و بدون ساختار استخراج کنند. این انبوه داده همان چیزی است که به آن میگوییم بیگ دیتا یا کلان داده.
بیگ دیتا یک واژه باب روز Buzzwords برای فرایندهایی شامل جمعآوری، استخراج و تحلیل دادههایی پیچیده است که با ابزارهای معمول نمیتوان از آنها برای دستیابی به اهداف استفاده کرد.
این تعریف ساده بیگ دیتا همه ماجرا را بیان نمیکند. در واقع اصطلاح بیگدیتا فقط به دادهها اشاره میکند در حالی که بخش بزرگی از این فرایند بر عهده علم داده Data science، استخراج داده data mining، تحلیل داده Data analysis، یادگیری ماشین Machine learning و در ابعاد بزرگتر، هوش مصنوعی است.
بیگ دیتا یک اصطلاح تکاملی است که حجم زیادی از ساختار، دادههای نیمه ساختار یافته و غیرساختاری را توضیف میکند. این دادهها پتانسیل آن را دارند که برای اطلاعات استخراج شوند و در پروژههای یادگیری ماشین و سایر برنامههای پیشرفته تجزیه و تحلیل استفاده شوند.
بیگ دیتا معمولا در مقابل سه موضوع مشخص میشود که عبارتند از: حجم شدید دادهها، طیف گستردهای از انواع دادهها و سرعتی که دادهها باید پردازش شوند. این خصوصیات ابتدا توسط داگ لانی تحلیلگر گارتنر شناسایی و در سال 2001 در یک گزارش منتشر شد. اخیرا نیز چندین مورد دیگر به توصیفهای داده بزرگ اضافه شده است که از جمله آنها: صداقت، ارزش و تنوع میباشد. اگرچه داده بزرگ با هر مقدار خاصی از دادهها معادل نیستند، اما این اصطلاح اغلب در تصیف ترابایت، الفاظ و حتی اگزابایت دادهها در طول زمان استفاده میشود.
بیگ دیتا چگونه کار میکند؟
بیگ دیتا را میتوان به عنوان ساختار یافته و بدون ساختار طبقهبندی کرد. دادههای ساختار یافته شامل اطلاعاتی است که سازمان در پایگاه دادهها مدیریت میکند و طیف گستردهای دارد. این اطلاعات اغلب عددی هستند. دادههای غیرساختاری اطلاعاتی است که سازماندهی نشده و به یک مدل یا فرمت از پیش تعیین شده نمیرسد. این دادهها شامل اطلاعات جمعآوری شده از منابع رسانههای اجتماعی است که به موسسات کمک میکند تا اطلاعات مربوط به نیازهای مشتری را جمعآوری کنند.
3 مشخصه بیگ دیتا به طور سنتی عبارتند از: حجم یا مقدار دادهها، سرعتی که این دادهها جمعآوری شده است و انواع اطلاعات.
بیگ دیتا را میتوان از طریق نظرات عمومی در شبکههای اجتماعی، وبسایتها، اطلاعاتی که به صورت داوطلبانه از برنامههای شخصی و الکترونیک جمعآوری شدهاند، از طریق پرسشنامهها، خرید محصولات و چکهای الکترونیکی جمعآوری کرد. حضور سنسورها و دیگر ورودیها در دستگاههای هوشمند اجازه میدهد تا دادهها در طیف گستردهای از شرایط و موقعیتها جمعآوری شوند.
بیگ دیتا اغلب در پایگاه دادههای کامپیوتری ذخیره میشود و یا با استفاده از نرمافزار به طور خاص برای دستهبندی مجموعههای دادههای بزرگ و پیچیده مورد تجزیه و تحلیل قرا میگیرد. بسیاری از شرکتهای نرمافزاری به عنوان یک سرویس در مدیریت این نوع دادههای پیچیده تخصص دارند.
ویژگیهای بیگ دیتا
حجم
ویژگی اصلی که یک داده را بزرگ میکند حجم منحصر به فرد آن است. به نظر میرسد تمرکز برروی حداقل واحدهای ذخیرهسازی اهمیت زیادی ندارد، چراکه میزان کل اطلاعات هر سال در حال افزایش است. در سال 2010 Thomson Reuters در یک گزارش سالانه برآورد کرده است که جهان با بیش از 800 اکسایبایت از دادهها روبرو است و در حال رشد است. هیچ کس واقعا نمیداند که چه مقدار اطلاعات جدید تولید میشود اما میزان اطلاعات جمعآوری شده در هر سال بسیار زیاد است.
تنوع
تنوع یکی از جالبترین تحولات در فناوری است، زیرا اطلاعات روزبهروز بیشتر دیجیتالی میشوند. انواع دادههای سنتی (دادههای ساختاری) شامل مواردی مانند تاریخ، مقدار و زمان هستند که در یک بیانیه جمعآوری شدهاند.
دادههای ساختار یافته توسط دادههای غیرساختاری افزوده و تکمیل شده است که شامل مواردی مانند فیدهای توییتر، فایلهای صوتی، صفحات وب، تصاویر و غیره میشود.
دادههای غیرساختاری یک مفهوم اساسی در دادههای بزرگ است. بهترین راه برای تشخیص دادههای غیرساختاری مقایسه آن با دادههای ساختار یافته است. دادههای ساختار یافته را به عنوان دادههایی که در مجموعهای از قوانین به خوبی تعریف شدهاند در نظر بگیرید. به عنوان مثال پول همیشه عدد است و حداقل دو رقم اعشار دارد، نامها به صورت متن بیان میشوند و تاریخها یک الگوی خاص را بیان میکنند.
صحت
صحت به اعتماد دادهها اشاره دارد. آیا یک مدیر میتواند بر این واقعیت تاکید کند که دادهها نماینده او هستند؟ هر مدیر خوب میداند که اختلافات ذاتی در تمام دادههای جمعآوری شده وجود دارد.
سرعت
سرعت در اینجا به معنای سرعت فراخوانی دادههای ورودی است که باید پردازش شود. تصور کنید در هر دقیقه از یک روز چند پیغام به روزرسانی فیسبوک و یا پیامهای موجودی کارتهای اعتباری از یک حامل مخابراتی خاص ارسال میشود. اینها همه نمونه سرعت بالا است.
ارزش
ممکن است به نظر برخی بسیار سخت برسد اما داشتن یک هدف واقعی برای این چهار پلتفرم بسیار مهم است. آیا شما بینشی را که از تجزیه و تحلیل یک خط تولید جدید، یک فرصت فروش متقابل یا یک اقدام کاهش هزینه بدست میآورید جمعآوری میکنید؟ یا اینکه تجزیه و تحلیل اطلاعات شما منجر به کشف یک اثر علمی میشود که در نتیجه باعث بهبود مشکل شما و سازمان شما خواهد شد؟
در کلان داده منظور از داده در هر مرحله از کار متفاوت است. داده خام دادهای است که بدون ترتیب و طبقهبندی جمعآوری شدهاند و در نتیجه مفهوم خاصی را بیان نمیکند. در صورتی که روی داده خام پردازش انجام دهیم تبدیل به اطلاعات میشود که انتقال دهنده مفهومی هستند.
دادهها از صدها راه مختلف تولید و ذخیره میشوند. همین چند دقیقه قبل که روی لینکی کلیک کردید تا این مقاله باز شود دادههایی از فعالیت شما در سرورهای گوگل ذخیره شد. دادههایی مثل مدل سیستم عامل، دستگاه موبایل یا رایانه شما و محل اتصال شما به اینترنت.
دادهها فقط از فعالیت اینترنت جمع نمیشوند. هر منبع دیگری مثل پرسشنامه کاغذی، فیلم دوربینهای نظارتی شهرها، موقعیت موبایل، بلیط اتوبوسی که میخرید، بیمه خودرو و درمانی، اطلاعات تحصیلی و … همه داده خام هستند.
در نهایت همه این دادهها دیجیتال میشوند تا مراحل بعدی انجام شود.