340 likes | 609 Vues
شاخص گذاری RDF گزارش سمینار کارشناسی ارشد. فاطمه عبیری استاد راهنما: دکتر محسن کاهانی پاییز 1391. فهرست مطالب. مقدمه شاخص گذاری RDF شمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی RDF شمای شاخص گذاری مبتنی بر ساختار گرافی RDF سیستم های ذخیره سازی شاخص های RDF نتیجه گیری
E N D
شاخص گذاریRDF گزارش سمینار کارشناسی ارشد فاطمه عبیری استاد راهنما: دکتر محسن کاهانی پاییز 1391
فهرست مطالب • مقدمه • شاخص گذاری RDF • شمای شاخص گذاری مبتنی بر ساختار سه/چهارتایی RDF • شمای شاخص گذاری مبتنی بر ساختار گرافی RDF • سیستم های ذخیره سازی شاخص های RDF • نتیجه گیری • جداول ارزیابی
مقدمه • حجم روزافزون منابع اطلاعاتی و نیاز به مدیریت آنها جهت بازیابی سریع • بازیابی اطلاعات • شاخص گذاری • سازماندهی داده ها به نحوی که بتوان امکان دسترسی به منابع اطلاعاتی را با سرعت بالا برای کاربران فراهم آورد.
شاخص گذاری RDF • مدل داده RDF • نمایش گراف داده ها در قالب عناصر سه/چهارتایی • (Subject,Predicate,Objet,Concept) • چالش ها • نوع پرس جوی مورد پشتیبانی روی گراف های داده • پرس جوی مبتنی بر مسیر، مبتنی بر ستاره ای(موجودیت)و... • قدرت الحاق عناصر جهت استخراج روابط بین آنها • هزینه به روزرسانی • مقیاس پذیری پردازشی • اندازه شاخص • روش دسترسی به شاخصها از حافظه اصلی( مستقیم، درخت Btree، ...) • و...
انواع شمای شاخص گذاری • شماهای مبتنی بر ساختار گرافی RDF • ایجاد شاخص در دو مرحله: 1-تحلیل گراف جهت استخراج روابط بین نودها 2-ذخیره سازی به صورت گرافی یا بر اساس نودهای گراف (s,p,o,c) • پشتیبانی از پرس جوهای مبتنی بر گراف با هزینه الحاق پایین • مقیاس پذیری پردازشی پایین در پرس جو های پیچیده • شماهای مبتنی بر ساختار سه/چهارتایی RDF • ذخیره سازی بر اساس عناصر سه/چهار تایی(s,p,o,c) • پشتیبانی از پرس و جوهای مبتنی بر گراف با الحاق زیاد روی جداول • مقیاس پذیری پردازشی بالا با افزایش داده ها و پرس جوهای پیچیده
شمای بخش بندی مبتنی بر predicateهای مشترک[wil06] • استفاده از الگوریتمی جهت گروه بندی Subject ها بر اساس صفات مشترک آنها • بازیابی یک موجودیت با هزینه پایین جدول ویژگی Property Table Index Schema
شمای بخش بندی مبتنی بر ساختار[Tha12] • گروه بندی سه گانه ها با ساختار مشترک(مانند E2) • ذخیره داده ها هم گروه در کنار هم • ایجاد یک گراف از شاخص E4 b1 b2 p3 n1 E3 p1 n2 E2 p3 s2 p1 p2 s1 a1 E5 p2 a2 Structure Oriented Partitioning Index Schema
شمای بخش بندی مبتنی بر ساختار[Tha12] ... • تطبیق ساختار پرس جو با گراف شاخص • بازیابی داده های مرتبط با ساختار پرس جو • کاهش هزینه I/O(عدم بازیابی داده های نامربوط) 1 یک گراف شاخص 2 Structure Oriented Partitioning Index Schema
شمای شاخص گذاری یکپارچه[Neu10] • ذخیره سه گانه ها در یک جدول با سه/چهار ستون (S1,P1,O1,C1) Monotonic Index Schema
شمای شاخص گذاری یکپارچه. . . • پوشش الگوهای دسترسی متفاوت با استفاده از شاخص چند گانه • شش شاخص برای پوشش 16 الگوی دسترسی به سه گانه ها [Har05] پوشش الگوهای دسترسی به چهارگانه ها Monotonic Index Schema
شمای مبتنی بر بخش بندی عمودی بر اساس predicate[Aba07] جدول بخش بندی مبتنی برPredicate Vertical Partitioning Index Schema
شمای مبتنی بر برچسب گذاری گره [Del10] • موجودیت، واحد اصلی اطلاعات مورد جستجو • گراف ستاره ای، ساده ترین فرم یک گره موجودیت مفهوم موجودیت Node Labeled Index Schema
شمای مبتنی بر برچسب گذاری گره[Del10]... • پرچسب گذاری نودهای درخت • نگهداری مسیر از ریشه تا گره مورد نظر برای هر گره C (S,P,O,C) S P O درخت برچسب گذاری Node Labeled Index Schema
شمای مبتنی بر برچسب گذاری گره[Del10]... Entity file Object file Predicate file Block of file Node Labeled Index Schema
پایگاه دادههای بومی • ساخت پایگاه داده ای مخصوص شاخص های RDF از ابتدا • انتخاب ساختمان داده و الگوریتم مناسب همان داده به جای پشتیبانی از روشهای مختلف • کم شدن سربار سیستم • بهینه سازی سیستم داخلی سادهتر • خود انطباقی سیستم نسبت به تغییرات محیط بیشتر • RDF3x، Jena TDB، HexaStore، Sindice، SWSE و...
پایگاه دادههای NoSQL • SQL را به عنوان زبان دسترسی اولیه خود پشتیبانی نمی کند • معمولا توزیع شدهاند • مقیاس پذیری جداول از نظر افقی و عمودی • کد باز • ACID نیستند(سازگاری پایین قربانی عملکرد بالا) • الحاقهای متفاوت با پایگاه دادههای رابطهای • عدم تحمیل شمای ثابتی • پایگاه داده اسناد همچون MongDB • پایگاه داده ستونهای خانواده (جدولی)همچون Hbase • پایگاه دادهای از گراف همچون AllegroGraph • و... • Jena_Hbase
پایگاه دادههای رابطه ای • استفاده از مزیتهای چندین ساله این نوع ذخیرهسازی • نیاز به لایهی تبدیل SPARQL به SQL • ارائه شماهای ثابت (وجود ستونهای ثابت ) • مقیاس پذیری کمتر نسبت به پایگاه هایNoSQl • jena، Sesame، Jena SDB و ...
نتیجه گیری • عملکرد شاخص گذاری RDF وابسته به شما و سیستم ذخیره سازی شاخص • شماهای مبتنی بر ساختارسه/چهارگانه • مقیاس پذیری پردازشی بالا • الحاق های زیاد در پاسخگویی به پرس جو ها • به کارگیری سیستم با عملکرد بالا در پردازش پرس جو و الحاق داده ها • تقویت پردازش پرس جو ها همچون شاخص گذاری الحاق ها جهت دسترسی سریع به مسیر های پر تکرار • حمایت از پرس وجوهای خاص مثل موجودیت و ... • شماهای مبتنی بر گر اف • کاهش الحاق ها در پاسخگویی به پرس جو ها • مقیاس پذیری پردازشی پایین • طراحی الگوریتم های قدرتمند جهت تحلیل گراف و پرس جو • بالا بودن اندازه شاخص و در نتیجه هزینه به روز رسانی بالا در هر دو نوع شما • سیستم های ذخیره سازی شاخص از نوع بومی، رابطه ای مبتنی بر ستون و NoSQL مناسب تر و رایج تر و مقیاس پذیر ترند.
منابع • [Agg10] C. Aggarwal, H. Wang. “Graph Indexing,” in Managing and Mining Graph Data, 1nd ed., vol. 40, Ed. New York: Springer, 2010, pp. 161-178. • [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis ,National University of Ireland, Ireland, 2010. • [Hog11]A. Hogan, A. Harth, u. Umbrich, S. Kinsella, A. Polleres, S. Decker, “Searching and Browsing Linked Data with SWSE: the Semantic Web Search Engine. ” , The International Journal on Web Semantics: Science, Services and Agents on the World Wide Web, Elsevier Science, vol. 9, pp. 365-401, Des. 2011. • [Neu10]T. Neumann and G. Weikum. “The rdf-3x engine for scalable management of rdf data. ” TheInternational Journal on Very Large Data Bases, vol. 19, pp. 91-113, Feb. 2010. • [ Tha12]T. Tran, G. Ladwig, S. Rudolph, “RDF Data Data Partitioning and Query processing Using Structure Indexes, IEEE Trans. Knowledge and Data Engineering, 2012, to be published. • [Wei08] C. Weiss, P. Karras, and A. Bernstein. “Hexastore: sextuple indexing for semantic web data management.” TheInternational Journal on Very Large Data Bases, vol. 1, pp. 1008– 1019, 2008
منابع… • [Aba07] D. J. Abadi, A. Marcus, S. Madden, and K. J. Hollenbach, “Scalable semantic web data management using vertical partitioning,” in proc. Very Large Data Bases , 2007, pp. 1-12. • [Har05]A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81. • [Mat05]A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103. • [Owe08] A. Owens, A. Seab orne, N. Gibb ons, and M. Schraefel, “Clustered TDB: A clustered triple store for Jena,” Univ. Southampton, Tec. Rep ,2008 • [Udr07] O. Udrea, A. Pugliese, and V. Subrahmanian,"Grin: a graph based rdf index", AAI Conference of Artifical Inteligent , vol. 22, no. 2, 2007. • [Ber01] T. Berners-Lee, J. Hendler, O. Lassila, “The Semantic Web,” Scientific American, May 2001, pp. 35-34 • [Bro03] J. Broekstra, A. Kampman, F. Harmelen. Sesame: An architecture for storing and querying RDF data and schema information. Spinning the Semantic Web, 2003.
منابع… • [Del10] R. Delbru. “Searching Web Data: an Entity Retrieval Model.” Ph. D. thesis ,National University of Ireland, Ireland, 2010. • [Har05] A. Harth and S. Decker, “Optimized index structures for querying rdf from the web, " in Proc. of the Third Latin American Web Congress, 2005, pp. 71-81. • [Har07] A. Harth, J. Umbrich, A. Hogan, and S. Decker. “YARS2: A Federated pository for Searching and Querying Graph Structured Data,” in Proc. of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference,2007, pp. 211-224. • [Mat05] A. Matono, T. Amagasa, M. Yos hikawa, and S. Uemura. “path-based relational RDF database,” in Proc. of the 16th Australasian database conference, 2005 ,pp. 95-103. • [Mch97] J. McHugh, S. Abiteboul, R. Goldman, D. Quass, J. Wid. “Lore: A Database Management System for Semi-structured Data.” ACM SIGMOD Record,vol. 26, pp. 54 – 66, 1997. • [Mel01] S.Melink, S, Raghavan, B. Yang, H. Garcia-Molina. ” Building a distributed full-text index for the web. ” ACM Transactions on internet Technology, vol. 19, pp. 217-241, jul. 2001.
منابع… • [Nar09] A. Narang, V. Agarwal, M. Kedia, V.K. Garg. "Highly scalable algorithm for distributed real-time text indexing," in Proc. of HiPC IEEE , 2009, pp.332-341. • [Neu11] T. Neumann, A. Gubichev. “Path Query Processing on Very Large RDF Graphs,”in Proc. WebDB, 2011, pp. 1-6. • [Sun10] J. Sun, Q. Jin. “Scalable RDF Store Based on HBase and MapReduce,” in Proc. of Advanced Computer Theory and Engineering( ICACTE ), 2010, pp. 633-636. • [Wan10] X. Wang, S. Wang, P. Du, Z. Feng. “Storing and Indexing RDF Data in a Column-Oriented DBMS,” in Proc. of Database Technology and Applications (DBTA), 2010, pp. 1-4. • [Min08] E. Minack,L. Sauermann,G. Grimnes,C. Fluit, J. Broekstra, “The Sesame uceneSail: RDF Queries with Full-text Search,” Tech. Rep. Nepomuc, 2008. • [Wil03] K. Wilkinson, C. Sayers, H. A. Kuno, and D. Reynolds. “Efficient RDF Storage and Retrieval in Jena2,” in Proc. Semantic Web Data Bases, 2003, pp. 131-150. • [Kha12] V. Khadilkar, M. Kantarcioglu, B. Thuraisingham, “Jena-HBase: A Distributed, Scalable and Efficient RDF Triple Store,” Univ. Texas, Thech. Rep, 2012.
منابع… • [Wil06] K. Wilkinson, "Jena property table implementation", International workshop on Scalable Semantic Web Knowledge Base Systems (SSWS) at the International Semantic Web Conference(ISWC), 2006. • [Yan04] X. Yan, P. Yu, and J. Han. “Graph indexing: A frequent structurebased approach,” in Proc. of the the ACM SIGMOD international conference on Management of data , 2004, pp. 335-346.