تحقیق آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع

دسته بندي : دانش آموزی و دانشجویی » دانلود تحقیق
لینک دانلود و خرید پایین توضیحات
دسته بندی : وورد
نوع فایل :  word (..doc) ( قابل ويرايش و آماده پرينت )
تعداد صفحه : 44 صفحه

 قسمتی از متن word (..doc) : 
 

‏«‏آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع‏»
‏خلاصه:
‏در اين بخش، به گوگل خواهم پرداخت، يك نمونة اصلي از يك موتور جستجوي در مقياس وسيع كه استفاده وسيعي از ساختار اراده شده در فوق متني مي كند. گوگل براي جستجو و يافتن (Crawl)‏ و شاخص بندي وب به طور مؤثر و توليد نتايج هرچه رضايت بخش تر نسبت به سيستم هاي موجود طراحي شده است. اين نمونه اصلي با پايگاه داده اي متشكل متن و فوق پيوند كامل 24 ميليون صفحه در http://google.standard.edi/‏ موجود مي باشد. مهندسي يك موتور جستجو يك وظيفة چالش آور است. موتورهاي جستجو دهها تا صدها ميليون صفحه وب متشكل از تعداد قابل ملاحظه اي موضوعهاي متفاوت را شاخص بندي مي كنند و پاسخ گوي دهها ميليون پرس و جو به صورت روزانه هستند. بر خلاف اهميت بالاي موتورهاي جستجوي برروي وب تحقيقات آكادميك بسيار اندكي برروي آنها صورت گرفته است (در كشور عزيز ما دقيقاً هيچ مطالعه و تحقيقي صورت نگرفته است). علاوه بر اين به دليل سرعت پيشرفت تكنولوژي وب، امروزه ساخت يك موتور جستجو مسبت به سه سال پيش بسيار متفاوت است. اين بخش به بررسي و توصيف عمقي اين موتور جستجوي وب در مقياس وسيع مي پردازد. جداي از مشكلات تغيير مقياس تكنيكهاي جستجوي قديمي داده با اين وسعت، چالشهاي تكنيكي جديدي در زمينه استفاده از اطلاعات اضافي ارائه شده در فوق متن براي توليد نتايج جستجوي بوجود آمده است. اين بخش به اين كه چگونه مي توان يك سيستم در مقياس وسيع عملي كه بتواند اطلاعات اضافي ارائه شده در فقو متن را استخراج كند را توليد كرد، پاسخ خواهد گفت. همچنين ما به اين مشكل كه چگونه مي توان با مجموعه هاي فوق متن كنترل نشده (هر كسي مي تواند هر چه خواست بنيسد) كنار آمد، نيز دقت خواهيم كرد.
‏«‏آناتومي يك موتور جستجو وب فوق متني در مقياس وسيع‏»
‏خلاصه:
‏در اين بخش، به گوگل خواهم پرداخت، يك نمونة اصلي از يك موتور جستجوي در مقياس وسيع كه استفاده وسيعي از ساختار اراده شده در فوق متني مي كند. گوگل براي جستجو و يافتن (Crawl)‏ و شاخص بندي وب به طور مؤثر و توليد نتايج هرچه رضايت بخش تر نسبت به سيستم هاي موجود طراحي شده است. اين نمونه اصلي با پايگاه داده اي متشكل متن و فوق پيوند كامل 24 ميليون صفحه در http://google.standard.edi/‏ موجود مي باشد. مهندسي يك موتور جستجو يك وظيفة چالش آور است. موتورهاي جستجو دهها تا صدها ميليون صفحه وب متشكل از تعداد قابل ملاحظه اي موضوعهاي متفاوت را شاخص بندي مي كنند و پاسخ گوي دهها ميليون پرس و جو به صورت روزانه هستند. بر خلاف اهميت بالاي موتورهاي جستجوي برروي وب تحقيقات آكادميك بسيار اندكي برروي آنها صورت گرفته است (در كشور عزيز ما دقيقاً هيچ مطالعه و تحقيقي صورت نگرفته است). علاوه بر اين به دليل سرعت پيشرفت تكنولوژي وب، امروزه ساخت يك موتور جستجو مسبت به سه سال پيش بسيار متفاوت است. اين بخش به بررسي و توصيف عمقي اين موتور جستجوي وب در مقياس وسيع مي پردازد. جداي از مشكلات تغيير مقياس تكنيكهاي جستجوي قديمي داده با اين وسعت، چالشهاي تكنيكي جديدي در زمينه استفاده از اطلاعات اضافي ارائه شده در فوق متن براي توليد نتايج جستجوي بوجود آمده است. اين بخش به اين كه چگونه مي توان يك سيستم در مقياس وسيع عملي كه بتواند اطلاعات اضافي ارائه شده در فقو متن را استخراج كند را توليد كرد، پاسخ خواهد گفت. همچنين ما به اين مشكل كه چگونه مي توان با مجموعه هاي فوق متن كنترل نشده (هر كسي مي تواند هر چه خواست بنيسد) كنار آمد، نيز دقت خواهيم كرد.
1‏. معرفي
‏وب چالشهاي جديدي براي بازيابي اطلاعات ايجاد مي كند. حجم اطلاعات موجود برروي وب به سرعت در حال افزايش است و به همان نسبت تعداد كاربران جديد كه در جستجوي وب بي تجربه هستند افزايش مي يابد. مردمي كه احتمالاً وب را از طريق گراف پيوند آن مرور مي كنند، اغلب كار خود را با شاخصهاي ذخيره شده با كيفيت بالاي انساني مانند ياهو! يا موتورهاي جستجو شروع مي كنند. ليتهاس ذخيره و نگهداري شده توسط انساني موضوعهاي معروف را به طور موثري پوشش مي دهند اما شخصي بودن، گران و پرهزينه بودن براي ساخت و نگهداري، كندي در پيشرفت و ناتواني در پوشش موضوعهاي مبهم و پيچيده از عيبتهاي عمده آنها محسوب مي شود. موتورهاي جستجو بر پاية هم خواني كلمات كليدي معمولاً نتيج را با كيفيت بسيار پايين برمي گرداند. براي بهتر شدن شرايط، بعضي شركتهاي تبليغاتاي تلاش وسيعي براي بدست آوردن نظر مردم از طريق گمراه كردن موتورهاي جستجوي اتوماتيك مي كنند. اقايان سرگي برين و لاورنس پيج موتور جستجوي در مقياس وسيعي ساخته اند كه به تعداد زيادي از مشكلات سيستم هاي موجود پرداخته است. و آن استفاده وسيعي از اين ساختمام ارائه شده در فوق متن مي كند به منظور فراهم كردن نتايج جستجوي با كيفيت بالاتر، اسيم اين سيستم، گوگل، انتخاب شده است. زيرا گوگل تلفظ معمول
googol‏ يا 10‏100‏ است و بسيار مناسب هدف ما براي ساختن يك موتور جستجوي بسيار در مقياس وسيع است.
‏موتورهاي جستجوي وب ‏–‏ گسترش يافتن: 1994-2001
‏تكنولوژي موتورهاي جستجو بايد به ميزان زيادي تغيير پيدا مي كرد تا بتواند هماهنگي خود را با گسترش وب حفظ كند. در 1994‏، يكي از اولين موتورهاي جستجوي وب يعمي كرم وب گسترة جهاني (WWWW)‏ شاخصي از‏
‏000/110 صفحه وب و اسناد در دسترس وب داشت. از نوامبر 1998‏ موتورهاي جستجوي برتر ادعاي شاخص بندي از 2 ميليون

 
دسته بندی: دانش آموزی و دانشجویی » دانلود تحقیق

تعداد مشاهده: 4111 مشاهده

فرمت فایل دانلودی:.zip

فرمت فایل اصلی: .doc

تعداد صفحات: 44

حجم فایل:29 کیلوبایت

 قیمت: 8,000 تومان
پس از پرداخت، لینک دانلود فایل برای شما نشان داده می شود.   پرداخت و دریافت فایل