دانشجو: حميدرضا مطهري نژاد استاد راهنما: دكتر عبداله زاده بارفروش

بازيابي كارا و مؤثر اطلاعات وب با استفاده از دستاوردهاي يادگيري ماشين: طراحي و تكامل روشهاي يادگيري تقويتي در كاوش متمركزجلسه دفاع از پايان نامه كارشناسي ارشد دانشگاه صنعتي اميركبير دانشكده مهندسي كامپيوتر دانشجو: حميدرضا مطهري نژاد استاد راهنما: دكتر عبداله زاده بارفروش Efficient and Effective Information Retrieval through Machine Learning Approaches: Design and Evolution of Reinforcement Learning on Focused Crawling

فهرست مطالب • مقدمه • دستاوردهاي اين پروژه • كاوش متمركز وب • كاوش متمركز وب با استفاده از يادگيري تقويتي • طراحي و پياده سازي كاوشگر متمركز يادگيري تقويتي • نتايج حاصل از پياده سازي و ارزيابي • توسعه مكانيسم هاي پرس و جو در كاوشگرهاي متمركز • معرفي “سلسله مراتب مفهومي با دامنه خاص (DSCH)” • ارائه الگوريتمي خودكار DSCH– پياده سازي و ارزيابي آن • ارائه معماري يكپارچه براي موتورهاي جستجوي با دامنه خاص • نتيجه گيري و پيشنهادات آينده • مقالات ارائه شده حاصل از پروژه

Stop list Stemmer Proper noun list Indexing Policy Thesaurus … target url • Results query Web content معماري كاوشگرهاي وب Index Manager Indexer • Indexing Component Query Manager • Crawling Component • Crawler Manager • Querying Component

كاوش متمركز وب • كاوش متمركز وب به عنوان راه حلي براي بازيابي اطلاعات وب • صفحات مربوط به يك موضوع و يا از نوع خاص را جستجو و كپي كرده، شاخصبندي و نگهداري ميكند. • نتايج مورد انتظار از كاوش متمركز • يافتن بيشترين صفحات مربوط با كاوش كمترين ابرپيوند نامربوط • تحقيقات مرتبط • Fish • Web Watcher • Page-Rank • IBM Focused Crawler (Clever) • Cora • Context Focused Crawler • KAON • Apprentice

URL صفحه وب معماري كاوشگرهاي متمركز مؤلفه تنظيمات اوليه (صفحات اوليه كاوش) حد آستانه اسناد مربوط به موضوع مورد تمركز تخمين ميزان ربط ابرپيوندهاي استخراج شده به موضوع تشخيص ميزان تشابه صفحه به موضوع كاوش (دستهبندي كننده) • URLهاي استخراج شده صفحات مرتبط صفحه وب Q/ مقدار URL آدرس شروع كاوشگر(هاي) وب وب صف اولويت URLها URL

دستاوردهاي اين پروژه • كاوش متمركز وب با استفاده از يادگيري تقويتي • توسعه روشهاي Cora براي محاسبه مقدار Q يادگيري تقويتيو پيشنهاد روشهاي جديد • استفاده از دستهبندي كننده ماشينهاي بردار پشتيبان براي اولين بار در كاوشگرها و مقايسه با نتايج قبلي • ارزيابي تاثير مقادير متفاوت پارامترهاي يك كاوشگر يادگيري تقويتي در كارآيي كاوشگر مانند متن اطراف ابرپيوند، تعداد دسته ها در دسته بندي كننده و مقدار گاما در محاسبه Q • توسعه پرس و جوي كاربر در كاوشگرهاي متمركز • معرفي ابزار "سلسله مراتب مفهومي با دامنه خاص" و استفاده از آن براي توسعه خودكار پرس و جوي كاربر در معماري -CSََAKU • طراحي، پياده سازي و ارزيابي الگوريتمي جديد براي يادگيري"سلسله مراتب مفهومي با دامنه خاص" با استفاده از اسناد آموزشي • پيشنهاد يك معماري يكپارچه (با ارائه چارچوب فرمال ) براي موتورهاي جستجوي با دامنه خاص كه از سلسله مراتب مفهومي با دامنه خاص و استدلال بر پايه موارد براي يادگيري از جستجوهاي قبلي استفاده مي كند

Agent STATE , REWARD ACTION Environment يادگيري تقويتي • يادگيري تقويتي • به چارچوبي براي يادگيري خط مشي بهينه از محاوره با يك محيط پويا و با مكانيسم پاداش و جزا اشاره دارد. S: set of available States , A: set of available Actions, T: SAS, Transition Function R: SAR,Reward Function, : SA, Learned Policy rt: Received reward in t step after starting from s, : discount factor, V(s) = Value of state s *: Optimal Policy, which maximizes the values of states, for all state s. V*: Value Function of Optimal Policy Q*: expected return of taking action a in state s, and thereafter following optimal policy Q*(s,a) = R(s,a) +  V*(T(s,a))

يادگيري تقويتي براي كاوش متمركز • خواصي از يادگيري تقويتي كه آن را براي كاوش متمركز مناسب مي سازد: • توانايي مدل كردن پاداشهاي تاخيري (آينده) حاصل از تعقيب ابرپيوندها • امكان يادگيري از سعي و خطا – مناسب براي محيط هاي پويا و با تعداد داده هاي آموزشي كم • كارآيي به صورت پاداش در طول زمان قابل اندازه گيري است • مزيت كاوشگر يادگيري تقويتي بر كاوشگر متمركز معمولي • امكان در نظر گرفتن پاداش هاي آينده يك ابرپيوند در اولويت كاوش آن

نگاشت كاوش متمركز به يادگيري تقويتي • توابع T و R مشخص هستند • پاداشهاي آني (R: Reward Function) • سند مرتبط حاصل از كليك كردن ابرپيوند • پاداشهاي آينده (V: Value function) • سند (اسناد) مرتبط حاصل از تعقيب ابرپيوند در چند سطح بعدتر • “عمل”:تعقيب (پيمايش) يك ابرپيوند خاص (A: set of actions) • تعداد اعمال در اختيار، پويا و بزرگ • "حالت" شامل (S: set of states) • مجموعه اسناد هدفي است كه بايد کاوش شوند. • مجموعه‌ پيوندهايي كه يافته شده‌اند.

نگاشت كاوش متمركز به يادگيري تقويتي (ادامه) • مشكلات • فضاي حالات بسيار بزرگ است. • تعداد اعمال در اختيار هم بسيار زياد است • فرض هاي كاوشگر يادگيري تقويتي Cora براي سادگي و تعميم مساله: • "حالت" مستقل از اينست كه كدام اسناد هدف تابحال ديده ‌شده‌اند. • تبديلتمامي حالات به يک حالت • ميزان ربط اعمال (ابرپيوندها) به موضوع (هدف) مي‌تواند با كلمات "در همسايگي"ابرپيوند متناظر با هر عمل مشخص شود. • مي‌توان بين ابرپيوندها تعميم انجام داد و آنها را بوسيله متن اطرافشان با هم مقايسه كرد.

طراحي كاوشگر متمركز يادگيري تقويتي • امكان يادگيري برخط • طراحي كاوشگر يادگيري تقويتي در اين پروژه • فاز آمادهسازي بستر آزمايش و پيشپردازش • فاز يادگيري • فاز آزمايش

مشخصات بستر آزمايش • عدم امكان استفاده از پايگاه هاي وب ايراني • بستر آزمايش • پايگاه هاي وب بخش هاي علوم كامپيوتر چهار دانشگاه • Boston، Brown، Pitt و UCDavis

طراحي كاوشگر يادگيري تقويتي(معماري بخش آمادهسازي بستر آزمايش و پيشپردازش ) تعداد مقالات در سطوح هر URL پيشپردازش نتيجه كاوش ليست مقالات • URL مقاله ليست URLهاي پايگاه پايگاه داده "درهمسازي" URL/ صفحهHTML پردازش سند مولفه تنظيمات اوليه • URL/ صفحه وب • URLپدر/URL • URL وب كاوشگر "اول-سطح" • URL شروع • L:تعداد سطوح كاوش صفحه وب

طراحي كاوشگر يادگيري تقويتي(معماري بخشيادگيري) مقدار-Q هر URL • روش محاسبه مولفه تنظيمات اوليه محاسبه مقدار-Q هر URL تعداد مقالات در سطوح هر URL پايگاه داده "درهمسازي" • URL كاوشگر "اول-سطح" • نوع متن همسايگي صفحهوب تعداد دستهها • متن ابرپيوند و همسايگي آن / مقدار- Q زوجهاي "مجموعه كلمات/مقدار Q-" براي هر آدرس" دستهبندي بر اساس مقدار-Q يادگيرنده (دستهبندي كننده) دستههاي آموزشي

دسته بندي كننده هاي متن • دسته بندي كننده بيز ساده (مورد استفاده در Cora) • روش آماري براي دسته بندي متن (احتمال تعلق يك متن به هر دسته) • از روش بيز استفاده مي كند و كلمه “ساده” به اين معني است كه احتمال رخداد كلمات در هر دسته و سند را مستقل از هم در نظر مي گيرد. • روش شناخته شده و پر كاربرد براي دسته بندي متن • دسته بندي كننده ماشينهاي بردار پشتيبان (SVMs) • بر اصل "حداقلسازي خطاي ساختاري" در نظريه يادگيري محاسباتي تكيه دارد • يافتن قضيه h كه حداقل خطاي مطلق را تضمين ميكند، معادل يافتن چند سطحي است كه داراي حداكثر حاشيه با بردارهاي پشتيبان در دادههاي آموزشي است

دسته بندي كننده هاي متن(دسته بندي كننده SVMs) • دلايل تناسب ماشينهاي بردار پشتيبان براي دسته بندي متن • ابعاد زياد فضاي ورودي– راه حل SVMsبه تعداد ويژگيها (صفات) بستگي ندارد. • تعداد كم ويژگيهاي غير مرتبط • تُنك بودن بردارهاي اسناد • ماشينهاي بردار پشتيبان Transductive • روش TSVMSيك نوع خاص از SVMsاست كه هدفش يادگيري از تعداد معدودي داده آموزشي است • در دستهبندي متن نسبت به الگوريتم SVMsبه كارآيي بهتري دست يافته است • دستاورد استنتاج Transductive به جاي استقراء (Induction) استفاده ميكند • در استقرا، يادگيرنده سعي ميكند تا به طريقه استقراء يك تابع تصميم را نتيجه بگيرد كه داراي نرخ خطاي پاييني در تمامي توزيعهاي داده هاي آموزشي و آزمايشي براي يك يادگيري خاص باشد. در بسياري از موقعيتها مي خواهيم يك مجموعه از مثالها (مجموعه آموزشي) را با كمترين خطاي ممكن دستهبندي كنيم. اين مساله، هدف استنتاج Transductive است.

روشهاي محاسبه Q در اين پروژه • روشهاي توسعه يافته از Cora • روش آني (2 دسته) • روش فاصله • روش آينده (3 دسته) • آينده (4 دسته) • آينده (5 دسته) • آينده (موازي) • تعداد مقالات تحقيقي • روشهاي جديد • روش برش مقدار • تغيير خط مشي • روش مكاشفهاي Immediate(Two classes): – std. FC If the link is a paper its Q value is 1 else 0. Distance: • Calculates Q values as gamma ^ (distance to the nearest reward) Future (Three classes): • Calculate Q values for three classes - immediate, future, none. Score = 1 for immediate, gamma for future, zero for none. Future (Four classes): Calculates Q values for four classes - immediate, one-step, two-step, none.Score = 1 for immediate, gamma for one-step, gamma^2 for two-steps, zero for none Future (Five classes): Calculates Q values for four classes - immediate, one-step, two-step, three-step, none. Score = 1 for immediate, gamma for one-step, gamma^2 for two-steps, gamma^3 for three-steps, zero for none. Future (Parallel): Calculates Q values as future reward, ∑Num(reward) * (gamma ^ distance) Papers: Calculates Q values as number of papers available from link. Cutoff: Calculates according to path, if value < $cutoff, gives value of 0. Number of traversed links leads to increase in exponent of gamma my $count = 0; for (my $i=0; $i < 10; $i++) { # Bonus reward for each item at this level for (my $j=0; $j < $depth[$i]; $j++) { $score_cutt += $gamma ** $count; • $count++ • } • # link to move to next level $count++; } $score_cutt = 0 if ($score_cutt < $cutoff);

طراحي كاوشگر يادگيري تقويتي(فازآزمايش ) دستهبندي كننده (بيز ساده يا ماشينهاي بردار پشتيبان) محاسبه مقدار-Q URL/ مقدار-Q احتمالات تعلق صف اولويت URL با بيشترين مقدار-Q URL / متن همسايگي ليست مقالات نتيجه كاوش پايگاه داده "درهم سازي" مولفه تنظيمات اوليه كاوشگر يادگيري تقويتي URL آدرس شروع صفحه وب

پياده سازي كاوشگر يادگيري تقويتي • شرايط سخت افزاري • پنتيوم IV با پردازنده MHz6/1 و با مقدار Ramبرابر 512 مگابايت و ديسك سخت40 گيگابايت • سيستم عامل و زبان برنامه نويسي • سيستم عامل لينوكس و زبانهاي Perlو C تحت اين سيستم عامل • مولفههاي آماده مورد استفاده • Webget • Rainbow–Text Processing Package (‍Classification,…) • Naïve Bayes Classifier • Support Vector Machines Classifier • كدهاي غير تجاري Cora

پياده سازي كاوشگر يادگيري تقويتي(تعداد آزمايشات انجام شده) • تعداد آزمايشها با تمامي تركيب ها: 1200 آزمايش • تعداد آزمايش انجام شده در اين پروژه • 852 = 4 * 213 • روشهاي جديد: 30 آزمايش

پياده سازي كاوشگر يادگيري تقويتي(اجراي خودكار كاوشگر) • مدير اجرا Get Test Name Construct training data... Create index model...; Make average of Q-Values of each class ...; Train naïve bayes classifier (Rainbow) and install it in port 1823... Run the test using naïvebayes classifier Train SVMs classifier (rainbow with) in different port (1824) Run the test using SVMs classifier

پياده سازي كاوشگر يادگيري تقويتي(برنامه تحليل نتايج و توليد نمودارها)

نتايج پياده سازي(مقايسه دستهبندي كنندههاي NB و SVMs در بستر آزمايش)

پارامترهاي ارزيابي كارآيي كاوشگرهاي يادگيري تقويتي • معيار اول: درصد مقالات يافته شده به درصد صفحات كاوش شده • معيار دوم: ميزان پاداش دريافتي در طول اجرا توسط كاوشگر • معيار سوم: تعداد مقالات تحقيقي كاوش شده تا درصد خاصي از كاوش Integral_Sum = 0// Calculating integral (space above curve) For index = 0 to Paper_number do If (index/Paper_Number <= Percent) Integral_Sum = Integral_Sum + Link_Number[index] // Calculating integral of under curve Integral_Sum = Univ_Link_Number * Paper_Number – Integral_Sum // Calcultaing the percent of overall achieved reward Integral_Sum = Integral_Sum / (Univ_Link_Number * Paper_Number)

مقايسه تاثير دستهبندي كننده در كارآيي كاوشگر يادگيري تقويتي– معيار اول

مقايسه تاثير مقدار گاما در كارآيي كاوشگر يادگيري تقويتي– معيار دوم

مقايسه تاثير مقدار گاما در كارآيي كاوشگر يادگيري تقويتي- ادامه

مقايسه تاثير تعداد دستهها در كارآيي كاوشگر يادگيري تقويتي

مقايسه تاثير متن همسايگي در كارآيي كاوشگر يادگيري تقويتي

مقايسه كارآيي كاوشگرهاي يادگيري تقويتي با جميع پارامترها

مقايسه كارآيي كاوشگرهاي يادگيري تقويتي با جميع پارامترها-ادامه

روش مكاشفهاي براي بهبود كارآيي كاوشگر يادگيري تقويتي

روش مكاشفهاي براي بهبود كارآيي كاوشگر يادگيري تقويتي- ادامه

بهبود كارآيي كاوشگر يادگيري تقويتي با تغيير خط مشي

مقايسه كاوشگرهاي يادگيري تقويتي، متمركز و اول-سطح

توسعه مكانيسم هاي پرس و جوي وب در كاوشگرهاي متمركز • مشاهده واقعيت ها و كمبودهاي زير • تطابق دقيق كلمات كليدي در يافتن جواب پرس و جوي كاربران • عدم استفاده از دانش حوزه مورد جستجوي كاربر جواب دادن به پرس و جوي كاربران • عدم استفاده از دانش علايق و پيش زمينه هاي كاري و علمي كاربر • راه حل پيشنهادي • توسعه پرس و جوي كاربران با استفاده از يك سلسله مراتب مفهومي با دامنه خاص • مزاياي راه حل پيشنهادي • فرآيند توسعه پرس و جو يك فرآيند خودكار است • كاربر نيازي به فراهم آوردن اسناد مرتبط به موضوع به عنوان ورودي سيستم ندارد. • سلسله مراتب مفهومي با دامنه خاص از طريق يك فرآيند آماري بر روي متن ياد گرفته مي شود

سلسله مراتب مفهومي با دامنه خاص • سلسله مراتب مفهومي (CH) چيست؟ • CH مجموعه اي از گره هاي مفهوماٌ مرتبط است كه در يك ترتيب جزيي مرتب شده اند. • سلسله مراتب مفهومي با دامنه خاص • نوعي از سلسله مراتب مفهومي كه شامل لغات فني يك دامنه خاص ا ست • دستاورد اين پروژه در اين زمينه • طراحي و پياده سازي الگوريتم مبتني بر يادگيري براي ساخت خودكار DSCH

Computer Science ... Information Retrieval Human-Computer Interface Operating Systems Hardware & Architecture Artificial Intelligence Term1 Term2 …. ... Retrieval Filtering Term1 Term2 …. Term1 Term2 …. ... Machine Learning Natural Language Processing Planning Robotics Term1 Term2 …. ... Neural Network Reinforcement Learning Term1 Term2 …. Term1 Term2 …. DSCH - مثال

Crawling and Pre-Processing Cawling the selected Hierarchy and Pre-Processing the documents Second Process Finding highly co-occurrence weighted Words First Process Finding highly weighted words (TFIDF) Third Process Finding Terms instead of separated Words مراحل الگوريتم ساخت خودكار DSCH TFIDF: Term Frequency Inverse Document Frequency

مرحله كاوش و پيش پردازش • كاوش سلسله مراتب انتخابي (Cora) و كپي كردن اسناد آموزشي • حذف بخشهاي ثابت (سرآيند و زير نويس) و نام مولفان براي مقالات (“Author”, “References”, …words) • بستر آزمايش • 100 سند آموزشي از هر گره Cora كپي و به عنوان مجموعه آموزشي استفاده شد • هر سند اطلاعاتي راجع به يك مقاله در موضوع گره (نام، چكيده، نام مراجع و مقالاتي كه به اين مقاله اشاره كرده اند)

اولين پردازش (يافتن كلمات با بيشترين وزن TFIDF در مجموعه اسناد آموزشي گره) تعداد 25=N كلمه با بالاترين وزن TFIDFبراي دسته “data Mining”

دومين پردازش (يافتن زوج كلمات با بيشترين وزن رخداد همزمان) تعداد 25=Nزوج كلمه با بيشترين وزن رخداد همزمان در گره “data mining”

سومين فرآيند (يافتن عبارات به جاي كلمات) تعداد25=N عبارت دو كلمه اي با بالاترين احتمال رخداد در گره “data mining”

سومين فرآيند (يافتن عبارات به جاي كلمات)- ادامه تعداد 25=Nعبارت سه كلمه اي با بالاترين احتمال رخداد در گره “data mining”

معماريAKU-CS User Interface Query Expansion Component User's Query (Itemized) Domain Specific Concept Hierarchy Results Expanded Query (Itemized) Query Expander AKU-CS Middleware Original User's Query Focused Crawler (Cora) Query Manager Re-Ranking Component Results Index Database

آزمايشات پرس و جو در معماري AKU-CS • ارائه پرس و جوي “Reinforcement Learning Introduction” بدون توسعه پرس و جو • توسعه پرس و جو با استفاده از DSCH • 300 نتيجه اول برگردانده شده انتخاب و بر اساس ميزان شباهت با جستجوي توسعه يافته دوباره رتبه بندي گرديد • سند فوق در رتبه بندي مجدد با پرس و جوهاي مشابه با فوق در 5 نتيجه اول بود

استدلال بر پايه موارد (CBR) • ‍CBR چيست؟ • CBR نوعي از استدلال بر پايه استفاده مجدد از تجربه هاي گذشته كه مورد ناميده مي شوند براي حل مسائل جديد مشابه با موارد • عناصر مورد در CBR • Problem, Solution and Outcome (P, S, O) • اجزا يك سيستم CBR • معيارهاي تشابه • حافظه (پايگاه داده) موارد • دانش تطبيق موارد قبلي بر مورد جديد

CBR براي موتورهاي جستجوي با دامنه خاص (DSSE) • اهداف استقاده از ‍CBR در DSSE • اجتناب از جستجوهاي مجدد براي پرس و جوهاي مشابه • يادگيري از جستجوهاي گذشته براي افزايش دقت نتايج موتور جستجو به جستجوهاي مشابه با جستجوهاي قبلي • چرا در DSSE قابل استفاده از است؟ • دو مطالعه مجزا بر روي موتورهاي جستجوي َAltavista و Excite بخش قابل توجهي از پرس و جوها بر روي موضوعات مشخص و مشابهي رخ مي دهند. • در موتورهاي جستجوي همه منظوره پرس و جو ها مي توانند بر روي هر موضوعي ارسال شوند. • مطالعات پرس و جوهاي از لحاظ مفهومي مرتبط را در نظر نگرفته اند. • بر اساس يك تحليل كيفي مي توان انتظار داشت تعداد پرس و جوهاي مشابه در موتورهاي جستجوي با دامنه خاص قابل توجه باشد.

1 Query Expansion Component Natural Language Parser User Interface Query (Question) + Category Domain Specific Concept Hierarchy Modified Query 2 5 Query Expander Results Keywords & Concepts & Category. 3 4 Case Based Reasoning Component Focused Crawler Case Databases Reasoning Unit Index DB معماري يكپارچه براي موتورهاي جستجوي با دامنه خاص (AKUSearchEngine) • User Query User Response WWW

CBR براي موتورهاي جستجوي با دامنه خاص (DSSE) • پايگاه داده موارد شامل • پرس و جوي كاربر • دسته متناظر پرس و جو در DSCH • URL هاي نتايج در صورت وجود • امتياز صفحه (دريافت شده از موتور جستجوي اصلي) • معيار تشابه موارد Sim(New_Case, Old_Case) = w1  Query_Similarity + w2  Class_Similarity w1+ w2 =1

دانشجو: حميدرضا مطهري نژاد استاد راهنما: دكتر عبداله زاده بارفروش

دانشجو: حميدرضا مطهري نژاد استاد راهنما: دكتر عبداله زاده بارفروش

Presentation Transcript