نحوه کار موتور های جستجو

موتورهای جستجو به دو دسته کلی تقسیم می‌شوند:

1. موتورهای جستجوی پیمایشی

2. فهرستهای تکمیل دستی.

هر کدام از آنها برای تکمیل فهرست خود از روشهای متفاوتی استفاده می‌کنند که هر یک را بطور جداگانه مورد بررسی قرار می‌دهیم:

موتورهای جستجوی پیمایشی یا Crawler-Based Search Engines:
موتورهای جستجوی پیمایشی مانند Google لیست خود را بصورت خودکار تشکیل می‌دهند. آنها وب را پیمایش کرده و سپس کاربران آنچه را که می‌خواهند از میانشان جستجو می‌کنند. اگر شما در صفحه وب خود تغییراتی را اعمال نمایید، موتورهای جستجوی پیمایشی آنها را به خودی خود می‌یابند و سپس این تغییرات لیست خواهند شد. عنوان، متن و دیگر عناصر صفحه، همگی شامل این لیست خواهند بود.

فهرستهای تکمیل دستی یا Human-Powered Directories:
یک فهرست تکمیل دستی مانند یک Open Directory مثل Dmoz وابسته به کاربرانی است که آنرا تکمیل می‌کنند. شما صفحه مورد نظر را به همراه توضیحی مختصر در فهرست ثبت می‌کنید یا این کار توسط ویراستارهایی که برای آن فهرست در نظر گرفته شده انجام می‌شود.

عمل جستجو در این حالت تنها بر روی توضیحات ثبت شده صورت می‌گیرد و در صورت تغییر روی صفحه وب، روی فهرست تغییری بوجود نخواهد آورد. چیزهایی که برای بهبود یک فهرست‌بندی در یک موتور جستجو مفید هستند، تاثیری بر بهبود فهرست‌بندی یک دایرکتوری ندارند. تنها استثناء این است که یک سایت خوب با پایگاه داده‌ای با محتوای خوب شانس بیشتری به نسبت یک سایت با پایگاه داده ضعیف دارد.

موتورهای جستجوی ترکیبی با نتایج مختلط:
به موتورهایی اطلاق می‌شود که هر دو حالت را در کنار هم نمایش می‌دهند. غالبا، یک موتور جستوی ترکیبی در صورت نمایش نتیجه جستجو از هر یک از دسته‌های فوق، نتایج حاصل از دسته دیگر را هم مورد توجه قرار می‌دهد. مثلا موتور جستجوی MSN بیشتر نتایج حاصل از فهرستهای تکمیل دستی را نشان می‌دهد اما در کنار آن نیم نگاهی هم به نتایج حاصل از جستجوی پیمایشی دارد.

بررسی یک موتور جستجوی پیمایشی:
موتورهای جستجوی پیمایشی شامل سه عنصر اصلی هستند. اولی در اصطلاح عنکبوت (Spider) است که پیمایشگر (Crawler) هم نامیده می‌شود. پیمایشگر همینکه به یک صفحه می‌رسد، آنرا می‌خواند و سپس لینکهای آن به صفحات دیگر را دنبال می‌نماید. این چیزیست که برای یک سایت پیمایش‌شده (Crawled) اتفاق افتاده است. پیمایشگر با یک روال منظم، مثلا یک یا دو بار در ماه به سایت مراجعه می‌کند تا تغییرات موجود در آنرا بیابد. هر چیزی که پیمایشگر بیابد به عنصر دوم یک موتور جستجو یعنی فهرست انتقال پیدا می کند. فهرست اغلب به کاتالوگی بزرگ اطلاق می‌شود که شامل لیستی از آنچه است که پیمایشگر یافته است. مانند کتاب عظیمی که فهرستی را از آنچه که پیمایشگرها از صفحات وب یافته‌اند، شامل شده است. هرگاه سایتی دچار تغییر شود، این فهرست نیز به روز خواهد شد.

از زمانی که تغییری در صفحه‌ای از سایت ایجاد شده تا هنگامیکه آن تغییر در فهرست موتور جستجو ثبت شود مدت زمانی طول خواهد کشید. پس ممکن است که یک سایت پیمایش‌شده باشد اما فهرست‌شده نباشد. تا زمانیکه این فهرست‌بندی برای آن تغییر ثبت نشده باشد، نمی‌توان انتظار داشت که در نتایج جستجو آن تغییر را ببینیم. نرم‌افزار موتور جستجو، سومین عنصر یک موتور جستجو است و به برنامه‌ای اطلاق می‌شود که بصورت هوشمندانه‌ای داده‌های موجود در فهرست را دسته‌بندی کرده و آنها را بر اساس اهمیت طبقه‌بندی می‌کند تا نتیجه جستجو با کلمه‌های درخواست شده هر چه بیشتر منطبق و مربوط باشد.

چگونه موتورهای جستجو صفحات وب را رتبه‌بندی می‌کنند؟
وقتی شما از موتورهای جستجوی پیمایشی چیزی را برای جستجو درخواست می‌نمایید، تقریبا بلافاصله این جستجو از میان میلیونها صفحه صورت گرفته و مرتب می‌شود بطوریکه مربوط‌ترین آنها نسبت به موضوع مورد درخواست شما رتبه بالاتری را احراز نماید.

البته باید در نظر داشته باشید که موتورهای جستجو همواره نتایج درستی را به شما ارائه نخواهند داد و مسلما صفحات نامربوطی را هم در نتیجه جستجو دریافت می‌کنید و گاهی اوقات مجبور هستید که جستجوی دقیقتری را برای آنچه که می‌خواهید انجام دهید اما موتورهای جستجو کار حیرت‌انگیز دیگری نیز انجام می‌دهند.

فرض کنید که شما به یک کتابدار مراجعه می کنید و از وی درباره «سفر» کتابی می خواهید. او برای اینکه جواب درستی به شما بدهد و کتاب مفیدی را به شما ارائه نماید با پرسیدن سوؤالاتی از شما و با استفاده از تجارب خود کتاب مورد نظرتان را به شما تحویل خواهد داد. موتورهای جستجو همچنین توانایی ندارند اما به نوعی آنها را شبیه‌سازی می‌کنند.

پس موتورهای جستجوی پیمایشی چگونه به جواب مورد نظرتان از میان میلیونها صفحه وب می‌رسند؟ آنها یک مجموعه از قوانین را دارند که الگوریتم نامیده می‌شود. الگوریتمهای مورد نظر برای هر موتور جستجویی خاص و تقریبا سری هستند اما به هر حال از قوانین زیر پیروی می‌کنند:

1. مکان و تکرار
یکی از قوانین اصلی در الگوریتمهای رتبه‌بندی موقعیت و تعداد تکرار کلماتی است که در صفحه مورد استفاده قرار گرفته‌اند که بطور خلاصه روش مکان - تکرار (Location/Frequency Methode) نامیده میشود.
کتابدار مذکور را به خاطر می‌آورِد؟ لازم است که او کتابهای در رابطه با کلمه «سفر» را طبق درخواست شما بیابد. او در وحله اول احساس می‌کند که شما به دنبال کتابهایی هستید که در نامشان کلمه «سفر» را شامل شوند. موتورهای جستجو هم دقیقا همان کار را انجام می‌دهند. آنها هم صفحاتی را برایتان لیست میکنند که در برچسب Title موجود در کد HTML حاوی کلمه «سفر» باشند.
موتورهای جستجو همچنین به دنبال کلمه مورد نظر در بالای صفحات و یا در ابتدای پاراگرافها هستند. آنها فرض می‌کنند که صفحاتی که حاوی آن کلمه در بالای خود و یا در ابتدای پاراگرافها و عناوین باشند به نتیجه مورد نظر شما مربوط تر هستند. تکرار یا Frequesncy عامل بزرگ و مهم دیگری است که موتورهای جستجو از طریق آن صفحات مربوط را شناسایی می‌نمایند. موتورهای جستجو صفحات را تجزیه کرده و با توجه به تکرار کلمه‌ای در صفحه متوجه می‌شوند که آن کلمه نسبت به دیگر کلمات اهمیت بیشتری در آن صفحه دارد و آن صفحه را در درجه بالاتری نسبت به صفحات دیگر قرار می‌دهند.

2. دستور آشپزی
خب آشپزی چه ربطی به موتورهای جستجو دارد؟ رابطه در اینجاست. همانطور که آشپزهای حرفه‌ای دستورات آشپزی خود را در لفافه نگه می‌دارند و مقدار و چگونگی ادویه‌های افزودنی به غذاهای خود را افشا نمی‌کنند، چگونگی کارکرد دقیق موتورهای جستجو درباره روشهایی از قبیل مکان-تکرار فاش نمی‌شود و هر موتور جستجویی روش خود را دنبال می‌کند. به همین دلیل است که وقتی شما کلمات واحدی را در موتورهای متفاوت جستجو می‌کنید، به نتایج متفاوتی می‌رسید.
برخی موتورهای جستجو نسبت به برخی دیگر صفحات بیشتری را فهرست کرده‌اند. نتیجه این خواهد شد که هیچ موتور جستجویی نتیجه جستجوی مشترکی با موتور دیگر نخواهد داشت و شما نتایج متفاوتی را از آنها دریافت می‌کنید. موتورهای جستجو همچنین ممکن است که برخی از صفحات را از فهرست خود حذف کنند البته به شرطی که آن صفحات با Spam شدن سعی در گول زدن موتورهای جستجوگر داشته باشند. Spamming روشی است که برخی از صفحات برای احراز رتبه بالاتر در موتورهای جستجو در پیش می‌گیرند و آن به این صورت است که با تکرار بیش از حد کلمات بطور عمدی سعی در بر هم زدن تعادل و در نتیجه فریب موتورهای جستجو دارند. آنها سعی دارند که با افزایش عامل تکرار، در رتبه بالاتری قرار بگیرند. موتورهای جستجو راههای متنوعی برای جلوگیری از Spamming دارند و در این راه از گزارشهای کاربران خود نیز بهره می‌برند.

3. عوامل خارج از صفحه
موتورهای جستجوی پیمایشی اکنون تجربه فراوانی در رابطه با وب مسترهایی دارند که صفحات خود را برای کسب رتبه بهتر مرتبا بازنویسی می‌کنند. بعضی از وب مسترهای خبره حتی ممکن است به سمت روشهایی مانند مهندسی معکوس برای کشف چگونگی روشهای مکان-تکرار بروند. به همین دلیل، تمامی موتورهای جستجوی معروف از روشهای امتیازبندی «خارج از صفحه» استفاده می‌کنند. عوامل خارج از صفحه عواملی هستند که از تیررس وب‌مسترها خارجند و آنها نمی‌توانند در آن دخالت کنند و مساله مهم در آن تحلیل ارتباطات و لینکهاست. بوسیله تجزیه صفحات، موتورهای جستجو لینکها را بررسی کرده و از محبوبیت آنها می‌فهمند که آن صفحات مهم بوده و شایسته ترفیع رتبه هستند. بعلاوه تکنیکهای پیشرفته به گونه‌ای است که از ایجاد لینکهای مصتوعی توسط وب‌مسترها برای فریب موتورهای جستجو جلوگیری می‌نماید. علاوه بر آن موتورهای جستجو بررسی می‌کنند که کدام صفحه توسط یک کاربر که کلمه‌ای را جستجو کرده انتخاب می‌شود و سپس با توجه به تعداد انتخابها، رتبه صفحه مورد نظر را تعیین کرده و مقام آنرا در نتیجه جستجو جابجا می‌نمایند.