खोज इंजन का काम

कई नौसिखिए वेबमास्टरों और इंटरनेट सर्फिंग के प्रशंसकों के सवाल से चिंतित हैं: खोज इंजन कैसे काम करते हैं? खोज इंजन के बुनियादी सिद्धांत आज परिषदों के देश पर विचार करेंगे।

आधुनिक खोज इंजन एक संपूर्ण जटिल है जिसमें सबसे जटिल प्रोग्राम और एल्गोरिदम शामिल हैं जो अद्भुत गति से काम करते हैं। कल्पना करो, नया खोज एल्गोरिथम Google से कैफीन केवल 1 सेकेंड में 3 कि.मी. ए 4 शीट के समतुल्य जानकारी को प्रोसेस करने में सक्षम है!

सभी खोज इंजनों में, सॉफ़्टवेयर घटकों को पांच मुख्य समूहों में बांटा जा सकता है:

"मकड़ियों"

"यात्रा मकड़ियों"

indexers

डेटाबेस

परिणाम सिस्टम

कार्यक्रम मकड़ी - मकड़ियों (मकड़ियों) - उनके काम के एल्गोरिथ्म द्वारा ब्राउज़रों के समान है, लेकिन किसी भी दृश्य घटक नहीं है। मकड़ी एचपी प्रोटोकॉल का उपयोग कर पेज के एचटीएमएल कोड को लोड करता है।

सर्वर के लिए एक रोबोट अनुरोध में एक आदेश शामिल है"जाओ / पथ / दस्तावेज़" और कुछ अन्य HTTP अनुरोध आदेश इस अनुरोध के लिए, स्पाइडर को सर्वर से एक टेक्स्ट स्ट्रीम के रूप में एक प्रतिक्रिया प्राप्त होती है जिसमें दस्तावेज के बारे में सेवा की जानकारी होती है और दस्तावेज़ स्वयं। स्पाइडर खोज इंजन के लिए अनुक्रमण मॉड्यूल का एक हिस्सा है।

"यात्रा स्पाइडर" - क्रॉलर - एक अन्य घटक हैअनुक्रमण मॉड्यूल क्रॉलर स्वचालित रूप से सभी हाइपरलिंक के माध्यम से नेविगेट करता है जो मकड़ी के पृष्ठ पर पाए गए थे और इस तरह उन दस्तावेजों की खोज करते हैं जो अभी तक खोज इंजन के लिए नहीं ज्ञात हैं।

रोबोट इंडेक्सर (इंडेक्सर) स्पाइडर रोबोट द्वारा लोड किए गए पृष्ठों की सामग्री के साथ सीधे काम करता है। इंडेक्सर पृष्ठों के एक आकारिकी, वाक्पटु विश्लेषण का संचालन करता है, उन्हें अलग-अलग हिस्सों में तोड़ता है।

डेटाबेस (डाटाबेस) विशिष्ट सॉफ्टवेयर जो घटकों द्वारा एकत्र और अनुक्रमित अनुक्रमित दस्तावेजों को संग्रहीत करने के लिए डिज़ाइन किया गया है।

खोज इंजन परिणाम इंजन - परिणाम जारी करने की प्रणाली सबसे महत्वपूर्ण में से एक हैखोज इंजन के घटकों यह आउटपुट सिस्टम के साथ है जो अंतिम उपयोगकर्ता काम कर रहा है, जो क्वेरी को खोज स्ट्रिंग में प्रवेश करता है। दो सौ से अधिक विभिन्न मानदंडों के आधार पर परिणामों के उत्पादन की प्रणाली प्रदर्शन उद्देश्यों को संतुष्ट करने के परिणामों का चयन करती है।

इस तरह के चयन के एल्गोरिथ्म को आमतौर पर एक एल्गोरिथम कहा जाता है या रैंकिंग तंत्र। जारी करने के परिणामों को प्रभावित करने के लिए वेबमास्टर्स की ओर से धोखाधड़ी से बचने के लिए, सटीक रैंकिंग एल्गोरिथ्म खोज इंजन को सख्त गोपनीयता में रखा जाता है।

फिर भी, कई ज्ञात मानदंड हैं जो खोज इंजन के काम में शामिल किए गए हैं, अनुकूलन जो वेबमास्टर खोज परिणामों पर "कानूनी तौर पर" प्रभाव डाल सकता है। उदाहरण के लिए, पृष्ठ का विश्लेषण करते समय खोज इंजन खाते में ले जाता है:

क्या पृष्ठ के शीर्षक में एक शीर्षक है (शीर्षक)

क्या कीवर्ड पृष्ठ के यूआरएल में दिखाई देता है?

चाहे हेडर्स एच 1-एच 6 में एक कीवर्ड है, टैग, मजबूत, बी, ईएम, आई

पृष्ठ पर खोजशब्दों की घनत्व क्या है (घनत्व)

क्या मेटा टैग में कीवर्ड मौजूद है: कीवर्ड, विवरण

क्या पृष्ठ पर आंतरिक और बाहरी लिंक हैं?

उपयोगकर्ता खोज इंजन के माध्यम से खोज इंजन के साथ इंटरैक्ट करता है। उपयोगकर्ता से प्राप्त खोज क्वेरीसर्वर प्रक्रियाओं और पैरामीटर के इनपुट के रूप में रैंकिंग मॉड्यूल गुजरता है। बदले में, मॉड्यूल दस्तावेजों के संसाधनों का संचालन करता है, जिसके बारे में जानकारी खोज प्रणाली के डेटाबेस में संग्रहीत है, और उपयोगकर्ता के अनुरोध के अनुसार पृष्ठों का मूल्यांकन करता है।

इसके बाद, सिस्टम स्निपेट-टेक्स्ट सूचना जे एसईआरपी (सर्च इंजन परिणाम पृष्ठ) के रूप में उपयोगकर्ता को प्रदर्शित किया जाता है - उत्पन्न करता है - खोज परिणाम पृष्ठों.

इस प्रकार, यहां तक कि मुख्य का संक्षिप्त विवरण भीखोज सिस्टम के काम के सिद्धांत से पता चलता है कि प्रणाली के सभी सॉफ़्टवेयर घटकों को एक-दूसरे के साथ एक दूसरे से जुड़े होते हैं और खोज इंजन को कितनी अच्छी तरह काम करना चाहिए और स्पष्ट रूप से उपयोगकर्ता को अपनी खोज क्वेरी पर सबसे तेज़ और सबसे विश्वसनीय जानकारी प्रदान करने के लिए कार्य करना चाहिए।