Skip to main content

استخدام التصنيف في استخراج البيانات

خطوات التسجيل والتصنيف في موقع ممارس بلس الجديد (أبريل 2025)

خطوات التسجيل والتصنيف في موقع ممارس بلس الجديد (أبريل 2025)
Anonim

التصنيف هو أسلوب تعدين البيانات الذي يعين الفئات إلى مجموعة من البيانات للمساعدة في تنبؤات وتحليلات أكثر دقة. تسمى أيضًا أحيانًا باسم شجرة القرار ، التصنيف هو واحد من عدة طرق تهدف إلى جعل تحليل مجموعات البيانات كبيرة الحجم فعالة.

لماذا التصنيف؟

أصبحت قواعد البيانات الكبيرة جدا هي القاعدة في عالم اليوم البيانات الكبيرة . تخيل قاعدة بيانات تحتوي على تيرابايتات متعددة من البيانات - هي 1 تيرا بايت تريليون بايت من البيانات.

فيسبوك وحده يجرّب 600 تيرا بايت من البيانات الجديدة كل يوم (اعتبارًا من 2014 ، آخر مرة أبلغت فيها عن هذه المواصفات). التحدي الرئيسي للبيانات الضخمة هو كيفية فهمه.

والحجم الكبير ليس هو المشكلة الوحيدة: فالبيانات الضخمة تميل إلى أن تكون متنوعة وغير منظمة وسريعة التغير. فكّر في بيانات الصوت والفيديو أو منشورات الوسائط الاجتماعية أو البيانات ثلاثية الأبعاد أو البيانات الجغرافية المكانية. لا يتم تصنيف أو تنظيم هذا النوع من البيانات بسهولة.

ولمواجهة هذا التحدي ، تم تطوير مجموعة من الطرق الآلية لاستخراج المعلومات المفيدة ، من بينها تصنيف .

كيف يعمل التصنيف

على الرغم من خطر الانتقال بعيداً في الكلام التقني ، دعنا نناقش كيفية عمل التصنيف. الهدف هو إنشاء مجموعة من قواعد التصنيف التي ستجيب عن سؤال أو اتخاذ قرار أو توقع السلوك. للبدء ، يتم تطوير مجموعة من بيانات التدريب التي تحتوي على مجموعة معينة من السمات بالإضافة إلى النتيجة المحتملة.

تتمثل وظيفة خوارزمية التصنيف في اكتشاف كيفية وصول مجموعة السمات هذه إلى نهايتها.

سيناريو: ربما تحاول شركة بطاقة الائتمان تحديد أي الآفاق يجب أن تتلقى عرض بطاقة ائتمان.

قد يكون هذا مجموعة بيانات التدريب الخاصة به:

بيانات التدريب
اسمعمرجنسالدخل السنويعرض بطاقة الائتمان
فلان الفلاني25M$39,500لا
جين دو56F$125,000نعم فعلا

الأعمدة "predictor" عمر , جنس و الدخل السنوي تحديد قيمة "خاصية التوقع" عرض بطاقة الائتمان . في مجموعة التدريب ، من المعروف أن خاصية التنبؤ. ثم تحاول خوارزمية التصنيف تحديد كيفية الوصول إلى قيمة سمة التنبؤ: ما هي العلاقات الموجودة بين المتنبئين والقرار؟ سيطور مجموعة من قواعد التنبؤ ، عادةً عبارة IF / THEN ، على سبيل المثال:

IF (العمر> 18 أو العمر <75) و الدخل السنوي> 40،000 THEN Credit Card Offer = Yes

من الواضح ، هذا مثال بسيط ، وستحتاج الخوارزمية إلى أخذ عينات بيانات أكبر بكثير من السجلين اللذين يظهران هنا. علاوة على ذلك ، من المحتمل أن تكون قواعد التنبؤ أكثر تعقيدًا بكثير ، بما في ذلك القواعد الفرعية لالتقاط تفاصيل السمة.

بعد ذلك ، يتم إعطاء الخوارزمية "مجموعة تنبؤ" من البيانات لتحليلها ، ولكن هذه المجموعة تفتقر إلى خاصية التنبؤ (أو القرار):

بيانات التوقع
اسمعمرجنسالدخل السنويعرض بطاقة الائتمان
صقيع42M$88,000
ماري موراي16F$0

تساعد بيانات التنبؤ هذه على تقدير دقة قواعد التنبؤ ، ثم يتم تعديل القواعد إلى أن يعتبر المطور أن التنبؤات فعالة ومفيدة.

يوما بعد يوم من الأمثلة على التصنيف

التصنيف ، وتقنيات استخراج البيانات الأخرى ، وراء الكثير من خبرتنا اليومية كمستهلكين.

قد تستفيد التنبؤات الجوية من التصنيف للإبلاغ عما إذا كان اليوم ممطرًا أو مشمسًا أو غائمًا. قد تقوم مهنة الطب بتحليل الظروف الصحية للتنبؤ بالنتائج الطبية. يستخدم نوع من أساليب التصنيف ، Naive Bayesian ، الاحتمال الشرطي لتصنيف رسائل البريد الإلكتروني غير المرغوبة. بدءًا من اكتشاف الاحتيال إلى عروض المنتجات ، يتم التصنيف في الكواليس يوميًا لتحليل البيانات وإنتاج التوقعات.