ال ك- يعني أن خوارزمية التجميع هي أداة لتعدين البيانات وتعلم الآلة تستخدم لتجميع الملاحظات في مجموعات من الملاحظات ذات الصلة دون أي معرفة مسبقة بتلك العلاقات. من خلال أخذ العينات ، تحاول الخوارزمية إظهار الفئة أو المجموعة التي تنتمي إليها البيانات ، مع تحديد عدد العناقيد حسب القيمة ك.
ال ك- تعني أن الخوارزمية هي واحدة من أبسط تقنيات التجميع وتُستخدم عادةً في التصوير الطبي ، والقياسات الحيوية ، والمجالات ذات الصلة. ميزة ك- يعني التجميع هو أنه يخبر عن البيانات الخاصة بك (باستخدام نموذجها غير خاضع للإشراف) بدلاً من الحاجة إلى توجيه الخوارزمية حول البيانات في البداية (باستخدام النموذج الخاضع للإشراف في الخوارزمية).
يشار إليها أحيانا باسم لويدز الخوارزمية ، لا سيما في دوائر علوم الكمبيوتر لأن أول من اقترح الخوارزمية القياسية من قبل ستيوارت لويد في عام 1957. وقد صاغ مصطلح "ك يعني" في عام 1967 من قبل جيمس ماكوين.
كيف K-Means وظائف خوارزمية
ال ك- تعني الخوارزمية خوارزمية تطورية اكتسبت اسمها من طريقة عملها. تقوم الخوارزميات بتجميع الملاحظات في ك مجموعات ، أين ك يتم توفير كمعلمة الإدخال. ثم يعين كل ملاحظة للمجموعات استناداً إلى قرب الملاحظة من متوسط الكتلة. ثم تتم إعادة حساب متوسط الكتلة ثم تبدأ العملية مرة أخرى. إليك طريقة عمل الخوارزمية:
- الخوارزمية يحدد تعسفا ك يشير إلى مراكز الكتلة الأولية (الوسيلة).
- يتم تعيين كل نقطة في مجموعة البيانات إلى المجموعة المغلقة ، استنادًا إلى المسافة الإقليدية بين كل نقطة وكل مركز عنقودية.
- يتم recomputed كل مركز الكتلة كمتوسط نقاط في ذلك الكتلة.
- تكرار الخطوتين 2 و 3 حتى تتقارب الكتل. يمكن تعريف التقارب بشكل مختلف اعتمادًا على التنفيذ ، ولكنه يعني عادةً أنه إما عدم تغير الملاحظات في العناقيد عند تكرار الخطوتين 2 و 3 ، أو أن التغييرات لا تحدث فرقاً جوهريًا في تعريف المجموعات.
اختيار عدد العناقيد
واحدة من العيوب الرئيسية ل ك- يعني التجميع هو حقيقة أنه يجب عليك تحديد عدد العناقيد كمدخل إلى الخوارزمية. على النحو المصمم ، فإن الخوارزمية غير قادرة على تحديد العدد المناسب من العناقيد وتعتمد على المستخدم لتحديد ذلك مسبقًا.
على سبيل المثال ، إذا كان لديك مجموعة من الأشخاص يتم تجميعها استنادًا إلى الهوية الثنائية بين الجنسين كذكر أو أنثى ، ك- يعني خوارزمية باستخدام الإدخال ك = 3 سوف يجبر الناس على ثلاث مجموعات عند اثنين فقط ، أو مدخلات ك = 2، من شأنه أن يوفر ملاءمة أكثر طبيعية.
وبالمثل ، إذا تم تجميع مجموعة من الأفراد بسهولة على أساس حالة المنزل وكنت اتصلت ك- يعني خوارزمية مع المدخلات ك = 20، قد تكون النتائج معممة جدًا بحيث تكون فعالة.
لهذا السبب ، غالبًا ما تكون فكرة جيدة تجربة قيم مختلفة لـ ك لتحديد القيمة التي تناسب بياناتك على أفضل وجه. قد ترغب أيضًا في استكشاف استخدام خوارزميات أخرى لاستخراج البيانات في سعيكم للحصول على المعرفة المكتسبة من الآلة.