مشروع تحسين خوارزمية K-means في التنقيب في البيانات

مشروع تحسين خوارزمية K-means في التنقيب في البيانات العنقدة (التجميع) 1- ما هي العنقدة. 2- المتطلبات النموذجيةلعملية العنقدة. 3- أنواع البيانات في العناقيد . 4- تهيئة البيانات. 5- الطرق الرئيسية في العنقدة و أهم الخوارزميات .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • إن عملية العنقدة هي عملية تجميع الكائنات أو العناصر التي تمتلك صفات و سمات متشابهة ضمن مجموعات تدعى العناقيد. • تعتبر عملية العنقدة (التجميع) إحدى الطرق الرئيسية في عملية التنقيب في البيانات،و يمكن أن تستخدم كأداة قائمة بذاتها لاكتساب نظرة ثاقبة على كيفية توزع البيانات و مراقبة خصائص كل مجموعة، والتركيز على مجموعة معينة من المجموعات و ذلك لمزيد من التحليل و يمكن أن تكون بمثابة خطوة تمهيدية أو ابتدائية لعمل تقنيات أخرى مثل التوصيف و التصنيف.

مشروع تحسين خوارزمية K-means في التنقيب في البيانات تصنف العنقدةفي مجال التعلم الغير استشرافيأي دون إعطاء أي معلومات مسبقا عن الفئات أو السمات لهذا السبب يعتبر التجميع هو شكل من أشكال التعلم عن طريق الملاحظةبدلا من التعلم من خلال الأمثلة. يمكن لعملية العنقدة أن تستخدم للكشف عن الحالات الشاذة .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات قابلية التدرج . القدرة على التعامل مع أنواع مختلفة من السمات. اكتشاف العناقيد ذات الأشكال العشوائية . متطلبات الحد الأدنى لمجال المعرفة لتحديد معلومات الإدخال. القدرة على التعامل مع البيانات التي تحتوي ضجيج . العناقيد الإضافية وعدم الحساسية لترتيب السجلات المدخلة . تعدد الأبعاد. التجميع على أساس القيد. تفسيرها وقابليتها للاستخدام.

مشروع تحسين خوارزمية K-means في التنقيب في البيانات مصفوفة البيانات (Data Matrix) :التي تمثل (n) غرض مع المتحول (p) الذي يمثل المعيار او السمات .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • مصفوفة الاختلاف : و هي مصفوفة المسافات التي تخزن فيها التقاربات المتاحة لجميع الأزواج من الأغراض (n) : • d(i,j) يمثل مقياس الاختلاف بين الأغراض i و j • العدد (i,j)d غير سالب و هو يتقارب إلى الصفر عندما تكون درجة التشابه عالية أو يكون الغرضان متقاربان و يتباعد عن الصفر عندما يكونان مختلفان . • معظم خوارزمات العنقدة تتم على مصفوفة الاختلاف بعد تمثيل البيانات باستخدام مصفوفة البيانات .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات أنواع البيانات : Interval-Scaled Variables Binary Variables Categorical Variables Ordinal Variables Ratio-Scaled Variables Variables of Mixed Types

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • Interval-Scaled Variables : و هي البيانات من نوع مجال أي لهذا النمط من البيانات حد أعلى و حد أدنى يعبر عن مجال القيم التي يمكن أن تأخذه الواصفات للبيانات مثال : الطول أو العمر أو الوزن أو درجات الحرارة و غيرها : • حساب الوسطي لجميع الكائنات حسب العلاقة • نقوم بحساب وسطي الانحراف المطلق (mean absolute deviation) الذي يعطى بالعلاقة : • نقوم بحساب قيمة (z-score) الذي يعطي بالعلاقة : • و هي القيمة التي من خلالها يمكن حساب المسافات بين الأغراض في مجموعة البيانات المطلوبة و يتم تشكيل المصفوفة عدم التشابه

مشروع تحسين خوارزمية K-means في التنقيب في البيانات Binary Variables: و هي المتحولات التي تمتلك حاليتن فقط (0,1) الحالة 0 تعني ان المتحول غائب أو لا يتمتع بصفة معينة و الحالة 1 تعني أن المتحول حاضر أي أنه يتمتع بصفة معينة و هناك نوعين من المتحولات الثنائية : المتناظرة(symmetric) : حيث (r,s) هما عدد مرات الاختلاف حيث (q) هي عدد مرات التشابه بأن الغرضان يتمتعان بنفس السمة حيث (t) هي عدد مرات التشابه بأن الغرضان لا يتمتعان بنفس السمة الغير متناظرة (asymmetric): بعد تمثيل البيانات نقوم بتشكيل مصفوفة عدم التشابه .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • Categorical Variables : و هي تعميم لحالة المتحولات الثنائية فهي تمتلك إمكانية أن تأخد أكثر من حالتين من الأمثلةعلة هذا النوع من المتحولات الألوان . • حساب عدم التشابه يعطى بالعلاقة : • حيث أن : • M هو عدد مرات التشابه بين الغرضين أي يكون الغرضين في نفس الحالة. • P هو العدد الكلي لعدم التشابه بين الغرضين. • نقوم بتشكيل مصفوفة عدم التشابه

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • Ordinal Variables: و هي تشابه المتحولات Categorical Variables و لكن في هذه الحالة يؤخذ الترتيب بعين الاعتبار مثال درجات التقدير (دكتوراة , ماجستير,إجازة , مساعد) من أجل تمثيل هذه السمات يتم تمثيلها قيم عددية تدل على التصنيف فمثلا تعطى قيمة 1 للمساعد و 2 للإجازة و 3 للماجستير و 4 للدكتوراة فيصبح لدينا مجال التصنيف هو {1…..M} و M=4 و من ثم نقوم بتحويل المجال [1,M] إلى المجال من [0,1] و ذلك من خلال العلاقة التالية : • نقوم بمعالجة المتحولات الناتجة و كأنها متحولات المجال و نقوم بحساب المسافات و تشكيل مصفوفة عدم التشابه.

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • Ratio-Scaled Variables: و هي المتحولات التي تعطي قياسات مفيدة في • المجالات الغير خطية مثل المجال الأسي حسب الصيغة ( ) حيث A,B هي ثوابت موجبة و t تعبر عن الزمن عادة من أشهر الأمثلة نمو نوع من البكتريا مع مرور الزمن أو الزمن اللازم لاضمحلال عنصر مشع • هناك ثلاثة طرق لحساب عدم التشابه بالنسبة لهذا النوع : • معالجة Ratio-Scaled Variables كما تعالج Scaled Variables و لكن هذه الطريقة لا ينصح بها لأن المجال ممكن أن يتعرض للتشوه و تصبح القيم غير دقيقة • تطبيق التحويل اللوغاريتمي و من ثم معالجتها بطريقة Interval . • معالجتها مثل متحولات Ordinal و معالجة تصنيفاتها مثل Interval. • الطريقتان الثانية و الثالثة هما الطريقتان الأفضل اعتمادا على التطبيق المعطى .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • Variables of Mixed Types:و هذا النوع هو الموجود غالبا في قواعد البيانات الحقيقة أي يكون لدينا خليط من جميع الأنواع من البيانات و تعرف عملية عدم التشابه بالعلاقة التالية: • بعد الانتهاء من تمثيل البيانات يتم أنشاء مصفوفة عدم التشابه .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • الطرق الرئيسية في العنقدة : • طرق التقسيم • الطرق الهرمية • الطرق المعتمدة على الكثافة • الطرق الشبكية • الطرق المعتمدة على النماذج • التجميع المتعدد الأبعاد • الطرق المعتمدة على القيود

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • طرق التقسيم : تقوم بتقسيم البيانات المؤلفة من (n) كائن (غرض) إلى (K) قسم حيث يمثل كل قسم عنقود فهي تجمع البيانات في K عنقود التي تحقق المتطلبات التالية : • كل عنقود يجب أن تحتوي على الأقل كائنا واحد . • كل كائن (غرض) يجب ان ينتمي إلى عنقود واحد فقط. • أهم الخوارزميات : • 1- خوارزمية (K-means) . • 2- خوارزمية (K-mediods) . • 3- خوارزمية CLARA .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • ألية عمل خوارزمية (k-means): • الدخل : • K عدد العناقيد • D قاعدة البيانات التي تحتوي n سجل • الخرج : • مجموعة من العناقيد عددها K • الطريقة : • تحديد k مركزا للعناقيد و يتم التحديد بشكل عشوائي. • حساب المسافة بين كل نقطة و بين جميع المراكز و يتم ذلك باستخدام البعد الإقليدي • ربط كل نقطة من النقاط مع المركز الأقرب لها. • حساب المراكز الجديدة للعناقيد (مركز الثقل) • تكرر الخطوات 2 و 3 و 4 حتى نصل إلى مرحلة تصبح فيها المراكز ثابتة لا يحدث فيها أي تغير أي حالة الاستقرار. • نهاية الخوارزمية .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • خوارزمية (K-mediods) • الدخل : • K عدد العناقيد • Dمجموعة البيانات التي تحوي n كائن (غرض) • الخرج : A مجموعة من العناقيد عددها K • الطريقة : • اختيار K غرض من مجموعة البيانات D بشكل عشوائي و التي تمثل المراكزالابتدائية • كرر: • ضم الأغراض المتبقية إلى العنقود بحسب قربها من المراكز. • اختيار غرضبشكل عشوائي (O1) • حساب الكلفة الكلية (S) لعملية تبديل المراكز( Om)مع (O1 ). • إذا كان (S<0) بدل (Om)مع (O1) من أجل تشكيل مجموعة جديدة من المراكز(k-medoids) • الوصول إلى حالة الاستقرار

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • خوارزمية CLARA : • ألية عمل هذاالخوارزمية تقوم على التالي : بدلا من تطبيق عملية التجميع على كامل مجموعة البيانات يتم أخذ عينة تعبر عن البيانات و من ثم تطبيق خوارزميات • (K-means,K-mediods) و بعد الانتهاء يتنج لدنيا مراكز العناقيد الملطوبة و من ثم تتم عملية ضم باقي البينانات الموجودة في قاعدة البيانات إلى العناقيد المناسبة و إن خوارزمية (CLARA) تستطيع التعامل مع مجموعات من البيانات أكبر بكثير من خوارزميات (K-means,K-medoids) و إن فعالية و كفاءة خوارزمية (CLARA) تعتمد على حجم العينة . • تعقيد هذه الخوارزمية هو • حيث s هو حجم العينة و k هو عدد العناقيد و n هو العدد الكلي للكائنات

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • الطرق الهرمية : ينتج عن هذه الطريقة تحليل هرمي لمجموعة للبيانات المعطاة و طريقة التحليل الهرمي أما أن تكون كتلية او توزيعية اعتمادا على الصيغة المطلوبة في التحليل الهرمي فالطريقة الكتلية و التي تسمى (bottom-up) تبدأمن العناصر الموجودة و تشكل مجموعات منفصلة و من ثم تقوم تباعا بدمج العناصر القريبة من بعضها إلى أن يتم دمج جميع المجموعات في مجموعة واحدة أما الطريقة التوزيعية و التي تدعى (top-down) التي تبدأ بجمع الكائنات في عنقود واحد و عند البدء بعمليات التكرار ينقسم العنقود إلى عناقيد أصغر منه حتى يصبح كل كائن من الكائنات في عنقود وحيد .

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • الطرق المعتمدة على الكثافة : معظم أساليب العنقدة تعتمد على أساس المسافة بين الكائنات. يمكن لمثل هذه الأساليب أن توجد التجمعات الكروية الشكل و تواجه صعوبة في اكتشاف المجموعات من الأشكال العشوائية وقد تم تطوير أساليب تجميع أخرى على أساس مفهوم الكثافة الفكرة العامة منها هو النمو المتواصل للعنقود يمكن استخدامها لتصفية الضجيج (القيم الشاذة) واكتشاف عناقيد من الشكل اللعشوائي. • من أهم الطرق المتبعة في هذا النوع من العنقدة : • DBSCAN • OPTICS • DENCLUE

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • خوارزمية (DBSCAN) : تحتاج هذه الخوارزمية إلى معاملين هما () نصف القطر للدائرة التي تمثل الكثافة للنقطة و (minPts) الحد الأدنى من عدد النقاط للبدء بتشكيل العنقود فهذه الحوارزمية تعتمد مبدأ الوصول و الاتصال بالكثافة تبدأ هذه الخوارزمية باختيار نقطة غير مزارة و يتم ايجاد النقاط التي تحقق () فإذا كان عدد النقاط المحققة للمسافة مع النقطة المختارة عشوائيا أكبر من (minPts) يتم البدء بتشكيل العنقود و إذا وجدت نقاط لم تحقق فأنها تعتبر نقاط شاذة بالنسبة للنقطة المختارة وطبعا هذه النقطة الشاذة لاحقا ممكن ان تنتمي إلى عنقود أخر . • حيث يمثل نصف قطر الدائرة و(minPts=3) و كل من النقاط (p-m-o-r) تعتبر نقاط مركزية أو أغراض مركزية لأن كل نقطة من النقاط تمتلك ثلاث نقاط في مجالها حسب ( -neighborhood ). • النقطة q نستطيع الوصول إليها بشكل مباشر بالكثافة من النقطة m و m ايضا نستطيع الوصول لها عن طريق p . • نستطيع الوصول إلى q من p بشكل غير مباشر لأن q نصل إلها من m بشكل مباشر و m نصل إليها من p بشكل مباشر . • النقاط (o,s,r) كلها نقاط متصلة بالكثافة

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • الطرق المعتمدة على النماذج: تفترض هذه الطريقة نموذجا لكل عنقود من العناقيد والعثور على أفضل البيانات المناسبة لكل نموذج مفترض. خوارزميات هذا النوع تحدد العناقيد عن طريق إنشاء دالة الكثافة التي تعكس التوزيع المكاني لنقاط البيانات و أيضا تعطي طريقة لتحديد عدد العناقيد تلقائيا استنادا إلى الإحصاءات القياسية و تأخد بعين الاعتبار الضجيج والقيم الشاذة وبالتالي تعتبر من أساليب التجميع القوية. • من هم الخوارزميات : • EM (Expectation-Maximization) : • COBWEB • SOM

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • التجميع المتعدد الأبعاد: البيانات المتعدد الابعاد لها أهمية خاصة في التحليل العنقودي لأن العديد من التطبيقات تتطلب تحليل الأغراض التي تحتوي على عدد كبير من الميزات أو أبعاد. على سبيل المثال، قد تحتوي الوثائق والنصوص على الآلاف من المصطلحات أو الكلمات الرئيسية فإن تجميع بيانات عالية الأبعاد يمثل تحديا كبيرا. كما ازداد عدد الأبعاد تصبح البيانات متفرقة على نحو متزايد بحيث يصبح قياس المسافة بين أزواج من النقاط بلا معنى ومتوسط كثافة النقاط في أي مكان في البيانات تصبح منخفضة. لذلك يحتاج إلى منهجية تجميع مختلفة لتتلائم مع بيانات عالية الأبعاد.

مشروع تحسين خوارزمية K-means في التنقيب في البيانات • الطرق المعتمدة على القيود: في هذه الطريقة يتم تجميع البيانات في عناقيد اعتمادا على القيود المفروضة من قبل المستخدم او التطبيق المستخدم إن القيود المفروضة من قبل المستخدم أو التطبيق هي تعبر عن تصور المستخدم للعناقيد الناتجة من عملية التجميع و خصائصها.

مشروع تحسين خوارزمية K-means في التنقيب في البيانات