Please enable JavaScript.
Coggle requires JavaScript to display documents.
پیش پردازش داده ها(Data PreProcessing) (یکپارچه سازی داده ها(Data…
-
داده های واقعی ناقص،دارای اختلال و ناسازگارهستند،به کمک روش های پاکسازی،مقادیر گم شده(فاقد مقادیر ثبت شده) پر می شوند،اختلال داده ها(داده های داری انحراف از مقادیر مجاز) رفع می شود،داده های دور افتاده شناسایی می شوند و ناسازگاری(کدگذاری ناهماهنگ) داده ها اصلاح می شود.
-
مناسب برای زمانی که چندتایی دارای مقادیر گم شده ی متعددی است.با نادیده گرفتن یک چندتایی بسیاری از مقادیر ثبت شده نیز نادیده گرفته می شوند که ممکن است مطلوب نباشد.
-
در این روش تمام مقادیر خالی را با علامت یا کلمه خاصی مشخص می کنیم،مثلا "نا معلوم" یا ""
-
-
-
-
-
داده های دورافتاده را به کمک روش هلی مختلفی میتوان پیدا کرد ،مثلا به کمک خوشه بندی هر داده ای خارج از خوشه های مورد نظر باشد دور افتاده حساب می شود.
عبارت است از ادغام داده ها از چندین منبع داده که منجر به جلوگیری از تولید داده های تکراری و ناسازگار می شود و سرعت داده کاوی را بهبود می بخشد.
-
یک خصوصیت(مثلا درآمد سالانه)در صورتی افزونه است که به وسیله یک یا چند خصوصیت دیگر بتوان آن را تولید نمود.برخی از افزونگی ها را می توان با استفاده از تحلیل هبستگی شناسایی نمود.این تحلیل می تواند مقدار همبستگی یک خصوصیت را بر خصوصیت دیگر با استفاده از داده های موجود بسنجد
یکپارچه سازی داده ها یعنی مثلا این که برای یک مسئله ممکن است مقادیر یک خصوصیت از منابع مختلف متفاوت باشد.این موضوع ممکن است به دلیل تفاوت در نمایش،مقیاس و یا کدگذاری باشد.
از کاهش داده برای کوچکتر نمودن حجم مجموعه ی داده و در عین حال حفظ یکپارچگی آن ها می توان به کار برد.
کاهش ابعاد فرایندی است که در آن تعداد متغیرهای تصادفی و یا خصوصیات با در نظر داشتن مسائلی کاهش می یابد.
-
تبدیل موجک گسسته DWT یک روش پردازش سیگنال خطی است که برای بردار X وتبدیل آن به بردار عددی متفاوتی مثل 'X از ضرایب موجک به کار برده می شود.زمانی که از این روش برای کاهش داده ها استفاده می شود ،هر چندتایی یک بردار n بعدی است که n نشان دهنده خصوصیات پایگاه داده است.در این روش کاربر یک سطح آستانه تعریف می کند،مقادیر بیش از آستانه را حفظ کرده و مقادیر کمتر از آن صفر می شوند.از این روش برای حذف اختلال در داده ها و یکنواخت سازی آن ها نیز می توان استفاده کرد.روش DWT به روش تبدیل گسسته فوریه(DFT روش پردازش سیگنال است که از sin,cos استفاده می کند) شباهت فراوانی داد.
فرض کنید داده های مورد نظر،از چندتایی ها و یا بردارهایی با n بعد یا خصوصیت تشکیل شده باشد.تحلیل اجزای اصلی(PCAیا Karhunen-Loeve یا روش K-L) به دنبال k بردار n بعدی متعامد است که بهترین نمایش دهنده داده ها باشد.به این ترتیب داده های اصلی به فضای بسیار کوچکتری تصویر خواهند شد.
هنگام تحلیل داده ها ممکن است با صدها خصوصیت روبرو شویم که بسیاری از آن ها نسبت به مسئله بی ربط یا اضافی باشند.این روش حجم داده ها را با حذف خصوصیت های بی ربط و اضافی کم می کند.
این روش ها برای تخمین داده ها به کاربرده می شود.در رگرسیون خطی از داده ها برای برازش یک خط مستقیم استفاده می شود.
-
هیستوگرام با استفاده از تظریف اقدام به تخمین توزیع داده ها می زنند و یکی از محبوب ترین روش های کاهش داده هستند.
روش های خوشه بندی،داده ها را درون گروه ها و یا خوشه هایی تقسیم بندی می کنند.که دارای شباهت درون گروهی و عدم شباهتبا داده های گروه ها و خوشه های دیگر هستند.
-
فرض کنید گزارش روزانه تعداد کاربران یک بازی را داشته باشیم اما تعداد کاربران ماهانه برای ما جذابیت داشته باشد.برای رسیدن از آمار روزانه به ماهانه باید داده ها را تجمیع کنیم.
-
-
ساخت خصوصیت یا ساخت ویژگی راهبردی برای ساخت خصوصیت های جدید و اضافه کردن آن ها به مجموعه خصوصیات برای کمک به فرایند داده کاوی است.
-
راهبردی برای تبدیل متغیر های عددی (مانند سن) به بازه های مختلف و یا مفاهیم(مانند پیر و جوان) می باشد.
برای خلاصه سازی و تجمیع داده ها از این راهبرد استفاده می شود.مثلا یوزر های روزانه می توانند یوزر های ماهانه و سالانه را تولید کنند.
-