التصنيف هو أسلوب تعدين البيانات الذي يعين الفئات إلى مجموعة من البيانات للمساعدة في تنبؤات وتحليلات أكثر دقة. تسمى أيضًا أحيانًا باسم شجرة القرار ، التصنيف هو واحد من عدة طرق تهدف إلى جعل تحليل مجموعات البيانات كبيرة الحجم فعالة.
لماذا التصنيف؟
أصبحت قواعد البيانات الكبيرة جدا هي القاعدة في عالم اليوم البيانات الكبيرة . تخيل قاعدة بيانات تحتوي على تيرابايتات متعددة من البيانات - هي 1 تيرا بايت تريليون بايت من البيانات.
فيسبوك وحده يجرّب 600 تيرا بايت من البيانات الجديدة كل يوم (اعتبارًا من 2014 ، آخر مرة أبلغت فيها عن هذه المواصفات). التحدي الرئيسي للبيانات الضخمة هو كيفية فهمه.
والحجم الكبير ليس هو المشكلة الوحيدة: فالبيانات الضخمة تميل إلى أن تكون متنوعة وغير منظمة وسريعة التغير. فكّر في بيانات الصوت والفيديو أو منشورات الوسائط الاجتماعية أو البيانات ثلاثية الأبعاد أو البيانات الجغرافية المكانية. لا يتم تصنيف أو تنظيم هذا النوع من البيانات بسهولة.
ولمواجهة هذا التحدي ، تم تطوير مجموعة من الطرق الآلية لاستخراج المعلومات المفيدة ، من بينها تصنيف .
كيف يعمل التصنيف
على الرغم من خطر الانتقال بعيداً في الكلام التقني ، دعنا نناقش كيفية عمل التصنيف. الهدف هو إنشاء مجموعة من قواعد التصنيف التي ستجيب عن سؤال أو اتخاذ قرار أو توقع السلوك. للبدء ، يتم تطوير مجموعة من بيانات التدريب التي تحتوي على مجموعة معينة من السمات بالإضافة إلى النتيجة المحتملة.
تتمثل وظيفة خوارزمية التصنيف في اكتشاف كيفية وصول مجموعة السمات هذه إلى نهايتها.
سيناريو: ربما تحاول شركة بطاقة الائتمان تحديد أي الآفاق يجب أن تتلقى عرض بطاقة ائتمان.
قد يكون هذا مجموعة بيانات التدريب الخاصة به:
اسم | عمر | جنس | الدخل السنوي | عرض بطاقة الائتمان |
---|---|---|---|---|
فلان الفلاني | 25 | M | $39,500 | لا |
جين دو | 56 | F | $125,000 | نعم فعلا |
الأعمدة "predictor" عمر , جنس و الدخل السنوي تحديد قيمة "خاصية التوقع" عرض بطاقة الائتمان . في مجموعة التدريب ، من المعروف أن خاصية التنبؤ. ثم تحاول خوارزمية التصنيف تحديد كيفية الوصول إلى قيمة سمة التنبؤ: ما هي العلاقات الموجودة بين المتنبئين والقرار؟ سيطور مجموعة من قواعد التنبؤ ، عادةً عبارة IF / THEN ، على سبيل المثال:
IF (العمر> 18 أو العمر <75) و الدخل السنوي> 40،000 THEN Credit Card Offer = Yes
من الواضح ، هذا مثال بسيط ، وستحتاج الخوارزمية إلى أخذ عينات بيانات أكبر بكثير من السجلين اللذين يظهران هنا. علاوة على ذلك ، من المحتمل أن تكون قواعد التنبؤ أكثر تعقيدًا بكثير ، بما في ذلك القواعد الفرعية لالتقاط تفاصيل السمة.
بعد ذلك ، يتم إعطاء الخوارزمية "مجموعة تنبؤ" من البيانات لتحليلها ، ولكن هذه المجموعة تفتقر إلى خاصية التنبؤ (أو القرار):
اسم | عمر | جنس | الدخل السنوي | عرض بطاقة الائتمان |
---|---|---|---|---|
صقيع | 42 | M | $88,000 | |
ماري موراي | 16 | F | $0 |
تساعد بيانات التنبؤ هذه على تقدير دقة قواعد التنبؤ ، ثم يتم تعديل القواعد إلى أن يعتبر المطور أن التنبؤات فعالة ومفيدة.
يوما بعد يوم من الأمثلة على التصنيف
التصنيف ، وتقنيات استخراج البيانات الأخرى ، وراء الكثير من خبرتنا اليومية كمستهلكين.
قد تستفيد التنبؤات الجوية من التصنيف للإبلاغ عما إذا كان اليوم ممطرًا أو مشمسًا أو غائمًا. قد تقوم مهنة الطب بتحليل الظروف الصحية للتنبؤ بالنتائج الطبية. يستخدم نوع من أساليب التصنيف ، Naive Bayesian ، الاحتمال الشرطي لتصنيف رسائل البريد الإلكتروني غير المرغوبة. بدءًا من اكتشاف الاحتيال إلى عروض المنتجات ، يتم التصنيف في الكواليس يوميًا لتحليل البيانات وإنتاج التوقعات.