Пошукові системи складаються з п'яти окремих програмних компонентів:
1. spider (павук): браузерна програма, яка завантажує веб-сторінки.
2. crawler: «мандрівний» павук, який автоматично йде за всіма посиланнями, знайденими на сторінці.
3. indexer (індексатор): "сліпа" програма, яка аналізує веб-сторінки, завантажені павуками.
4. the database (база даних): сховище завантажених та оброблених сторінок.
5. search engine results engine (система видачі результатів): отримує результати пошуку з даних.
Spider: Павук – це програма, яка завантажує веб-сторінки. Він працює як ваш браузер, коли ви з'єднуєтеся з веб-сайтом і завантажуєте сторінку. Павук не має жодних візуальних компонентів. Таку ж дію (завантаження) ви можете спостерігати, коли переглядаєте деяку сторінку і коли вибираєте "перегляд HTML-коду" у своєму браузері.
Crawler: Як і павук завантажує сторінки, він може "роздягнути" сторінку і знайти всі посилання. Це його завдання – визначати, куди далі має йти павук, спираючись на посилання або виходячи із заздалегідь заданого списку адрес.
Indexer: Індексатор розбирає сторінку на різні її частини та аналізує їх. Елементи типу заголовків сторінок, заголовків, посилань, тексту, структурних елементів, елементів BOLD, ITALIC та інших стильових частин сторінки виокремлюються та аналізуються.
Database: База даних – це сховище всіх даних, які пошукова система завантажує та аналізує. Це часто потребує величезних ресурсів.
Search Engine Results Engine: О, саме серце звіра. Саме система видачі результатів вирішує, які сторінки задовольняють запит користувача. Це та частина пошукової системи, з якою ви маєте справу, здійснюючи пошук.
Коли користувач вводить ключове слово і робить пошук, пошукова система відбирає результати на підставі мінливих критеріїв. Алгоритмом називається метод, яким вона приймає рішення. Професійні оптимізатори (SEO) іноді вживають термін "algos" - це і є те, про що ми говоримо.
Незважаючи на те, що пошукові системи сильно змінилися, більшість досі відбирають результати пошуку на підставі таких критеріїв:
• Title (заголовок): Чи є ключове слово в заголовку?
• Domain/URL (Домен/адреса): Чи є ключове слово в імені домену або в адресі сторінки?
• Style (стиль): Жирний (STRONG або B), Курсив (EM або I), Заголовки HEAD: якщо місце на сторінці, де ключове слово використане у жирних, курсивних чи Hx (H1, H2,…) текстових заголовках?
• Density (Щільність): Як часто використовується ключове слово на сторінці? Кількість ключових слів щодо тексту сторінки називається щільністю ключового слова.
• MetaInformation (мета дані): Хоча багато хто заперечує, деякі пошукові системи досі читають мета ключові слова (meta keywords) і мета опису (meta description).
• Outbound Links (посилання назовні): На кого є посилання на сторінці і чи є ключове слово в тесті посилання?
• Inbound Links (Зовнішні посилання): Хто ще в Інтернеті має посилання на цей сайт? Яким є текст посилання? Це називається "позасторінковий" критерій, тому що автор сторінки не завжди може ним керувати.
• Insite Links (посилання всередині сторінки): На які сторінки цього сайту містить посилання ця сторінка?
Як бачите, пошуковій системі необхідно робити безліч уточнюючих запитів, використовуючи скачувану сторінку повністю.
Це скорочений опис функціонування пошукової системи.