Πώς λειτουργει η αναζητηση της Google;

Πώς λειτουργει η αναζητηση της Google;

Πως λειτουργεί η μηχανη αναζήτησης της GoogleΠώς λειτουργει η αναζητηση της Google; Τι συμβαίνει όταν πληκτρολογείτε ένα ερώτημα αναζήτησης στο σχετικό πεδίο αναζήτησης του google search;

Η βελτιστοποίηση των ιστοσελίδων για τις μηχανές αναζήτησης (SEO – Search Engine Optimization), προκειμένου να εμφανίζονται ψηλά στην κατάταξη των αποτελεσμάτων (και όταν λέμε ψηλά εννοούμε στην πρώτη σελίδα της google) είναι πλέον απαραίτητος.

Αλλά καλό θα ήταν να μάθουμε πρώτα πώς λειτουργει η αναζητηση της Google προτού προχωρήσουμε παρακάτω.

Επειδή το θέμα είναι πολύπλοκο, σε αυτό το άρθρο θα σας δώσουμε απάντηση με δυο τρόπους: Μια σύντομη και μια λίγο μεγαλύτερη για όσους αναζητούν κάτι παραπάνω.

Πώς λειτουργει η αναζητηση της Google (σύντομη εκδοχή)

Ξεκινάμε με την σύντομη εκδοχή.

Παρακολουθείστε το παρακάτω βίντεο, στο οποίο ο  Matt Cutts (πρώην επικεφαλής της web spam team και της search quality team της Google) εξηγεί πώς λειτουργει η αναζητηση της google και θα πάρετε μια ιδέα όσον αφορά στα πολύ βασικά της μηχανής αναζήτησης (για να βοηθήσουμε προσθέσαμε από κάτω και την απομαγνητοφώνηση του βίντεο).

«Είμαι ο Matt Cutts. Είμαι μηχανικός στην ομάδα ποιότητας της Google και θα ήθελα να σας πω τι συμβαίνει όταν κάνετε μια αναζήτηση στον ιστό.

»Αρχικά πρέπει να καταλάβετε ότι όταν κάνετε μια αναζήτηση Google, δεν ψάχνετε στον ιστό, αλλά στον κατάλογο για τον ιστό της Google ή ό,τι μπορούμε να βρούμε από αυτόν.

»Αυτό γίνεται με προγράμματα που ονομάζονται spider. Αυτά ανακτούν ορισμένες ιστοσελίδες, έπειτα ακολουθούν τους συνδέσμους αυτών των σελίδων και ανακτούν τις σελίδες τους, ακολουθούν όλους τους συνδέσμους αυτών των σελίδων και ανακτούν τις σελίδες τους κ.ο.κ., μέχρι να ευρετηριάσουμε ένα μεγάλο τμήμα του ιστού. Δισεκατομμύρια σελίδες, αποθηκευμένες σε χιλιάδες μηχανήματα.

»Ας πούμε ότι θέλω να μάθω πόσο γρήγορα τρέχει ένα τσιτάχ. Πληκτρολογώ τσιτάχ ταχύτητα τρεξίματος και πατάω enter. Το λογισμικό αναζητά στον κατάλογο όλες τις σελίδες που περιλαμβάνουν τους όρους αναζήτησης. Σε αυτήν την περίπτωση υπάρχουν εκατοντάδες χιλιάδες αποτελέσματα.

»Πώς αποφασίζει το Google ποια θέλω; Κάνοντας πάνω από 200 ερωτήσεις. Πόσες φορές περιέχει η σελίδα τις λέξεις-κλειδιά; Οι λέξεις-κλειδιά εμφανίζονται στον τίτλο, στη διεύθυνση URL ή δίπλα; Η σελίδα περιλαμβάνει συνώνυμα των λέξεων; Προέρχεται από ποιοτικό ιστότοπο, είναι χαμηλής ποιότητας ή μήπως ανεπιθύμητη;

»Ποια είναι η Κατάταξη της σελίδας; Αυτός είναι ένας τύπος που ανακάλυψαν οι ιδρυτές Larry Page και SergeyBrin που αξιολογεί τη σημασία μιας ιστοσελίδας με βάση τον αριθμό των εξωτερικών συνδέσμων που οδηγούν σε αυτήν, καθώς και πόσο σημαντικοί είναι αυτοί οι σύνδεσμοι.

»Τέλος, συνδυάζουμε όλα τα στοιχεία για να βγάλουμε τη συνολική βαθμολογία της σελίδας και εμφανίζουμε αποτελέσματα, μισό δευτερόλεπτο μετά την αναζήτησή σας. Στην Google παίρνουμε την προβολή χρήσιμων και αμερόληπτων αποτελεσμάτων πολύ σοβαρά. Δεν δεχόμαστε πληρωμές για να προσθέσουμε ιστότοπο στον κατάλογό μας, για να τον ενημερώνουμε συχνά ή για να βελτιώσουμε την κατάταξή του.

Ας δούμε τα αποτελέσματά μου. Όλα περιλαμβάνουν τίτλο, διεύθυνση URL και ένα απόσπασμα κειμένου για να με βοηθήσουν να διαπιστώσω αν η σελίδα είναι αυτή που θέλω.

πώς λειτουργει η αναζήτηση της google-how search works

»Βλέπω επίσης συνδέσμους σε παρόμοιες σελίδες, την αποθηκευμένη έκδοση της σελίδας από τη Google και σχετικές αναζητήσεις, που ίσως θέλω να δοκιμάσω. Πολλές φορές, στα δεξιά και στο επάνω μέρος, εμφανίζονται διαφημίσεις.

»Παίρνουμε τις διαφημίσεις πολύ σοβαρά γιατί θέλουμε να παρέχουμε το καλύτερο κοινό για τους διαφημιζόμενους και να δείχνουμε σε εσάς μόνο τις διαφημίσεις που θέλετε. Ξεχωρίζουμε προσεκτικά τις διαφημίσεις από τα αποτελέσματα και δεν πρόκειται να σας δείξουμε κάποια διαφήμιση αν δεν μπορούμε να βρούμε μία που θα σας βοηθήσει να βρείτε αυτό που θέλετε. Εδώ, η μέγιστη ταχύτητα του τσιτάχ είναι 60 μίλια την ώρα. Ευχαριστώ για το χρόνο σας, ελπίζω να καταλάβατε λίγο καλύτερα τη λειτουργία του Google».

Αυτή ήταν η σύντομη εκδοχή.

Αν δεν σας κάλυψε, ακολουθεί η LONG VERSION εκδοχή της απάντησης για το πώς λειτουργει η αναζητηση της Google.

Πώς δουλεύουν οι μηχανές αναζήτησης: Crawling, Indexing, Ranking

Η μηχανή αναζήτησης της Google είναι τεχνικά πολύπλοκη.

Υπάρχουν εκατοντάδες (αρκετοί λένε χιλιάδες) διαφορετικοί παράγοντες που λαμβάνονται υπόψη, ώστε η μηχανή αναζήτησης να μπορεί να καταλάβει τι αποτελέσματα να δείξει σε ένα ερώτημα αναζήτησης.

Ωστόσο, οι μηχανές αναζήτησης είναι στην πραγματικότητα αρκετά εύκολα κατανοητές ακόμη κι αν δεν γνωρίζουμε όλους τους παράγοντες.

how search engines work

1. Ανίχνευση του Ιστού

Η πρώτη δουλειά της Google είναι να «ανιχνεύσει» τον ιστό με «αράχνες» (Crawling).

Τα spiders είναι αυτοματοποιημένα προγράμματα ή bots που ανιχνεύουν τον ιστό και «σκανάρουν» τις ιστοσελίδες καταγράφοντας τους τίτλους και όλο το περιεχόμενο των σελίδων σας για να μάθουν περισσότερα για το ποιος είστε, τι κάνετε, τι γράφετε και ποιος μπορεί να ενδιαφέρετε να σας βρει.

Όπως αναφέρει η Google:»Προτού αναζητήσετε κάτι, οι ανιχνευτές ιστού συλλέγουν πληροφορίες από εκατοντάδες δισεκατομμύρια ιστοσελίδες και τις οργανώνουν στο ευρετήριο της Αναζήτησης. Η διαδικασία ανίχνευσης αρχίζει με μια λίστα διευθύνσεων ιστού από προηγούμενες ανιχνεύσεις και χάρτες ιστοτόπων που παρέχονται από τους κατόχους ιστοτόπων».

Οι ανιχνευτές ιστού δίνουν προσοχή σε νέους ιστότοπους, στις αλλαγές σε υπάρχοντες ιστοτόπους αλλά και σε ανενεργούς συνδέσμους. «Υπάρχουν προγράμματα υπολογιστή που καθορίζουν ποιοι ιστότοποι πρέπει να ανιχνευθούν, πόσο συχνά και πόσες σελίδες πρέπει να ανακτηθούν από κάθε ιστότοπο».

Αυτό μπορεί να ακούγεται απλό, αλλά δεν είναι, με δεδομένο ότι δημιουργούνται 300-500 νέες ιστοσελίδες κάθε λεπτό της ημέρας.

2. Οργάνωση πληροφοριών μέσω ευρετηρίασης

Όταν τα googlebot εντοπίζουν μια ιστοσελίδα, τα συστήματά της Google σημειώνουν τα βασικά χαρακτηριστικά ταυτοποίησης (από τις λέξεις-κλειδιά μέχρι την κατάσταση ενημέρωσης του ιστοτόπου) και τα παρακολουθούν στο ευρετήριο της Αναζήτησης (indexing).

Το ευρετήριο της Αναζήτησης Google περιέχει εκατοντάδες δισεκατομμύρια ιστοσελίδες και έχει μέγεθος πάνω από 100.000.000 gigabyte.

«Όταν ευρετηριάζουμε μια ιστοσελίδα, την προσθέτουμε στις καταχωρίσεις για όλες τις λέξεις που περιέχει», σημειωνει η google.

3. Κατάταξη σελίδων

Η επόμενη δουλειά της Google είναι να υπολογίσει πώς να «σερβίρει», πως να κατατάξει τα καλύτερα αποτελέσματα από την βάση δεδομένων της όταν κάποιος πληκτρολογεί ένα ερώτημα αναζήτησης (ranking).

«Όταν κάνετε μια αναζήτηση, στο πιο βασικό επίπεδο, οι αλγόριθμοί μας αναζητούν τους όρους αναζήτησης στο ευρετήριο για να βρουν τις κατάλληλες σελίδες. Αναλύουν πόσο συχνά και πού εμφανίζονται αυτές οι λέξεις-κλειδιά σε μια σελίδα, είτε σε τίτλους είτε σε επικεφαλίδες ή στο σώμα του κειμένου.

»Επιπλέον της αντιστοίχισης λέξεων-κλειδιών, οι αλγόριθμοι αναζητούν ενδείξεις για να μετρήσουν τον βαθμό στον οποίο διάφορα δυνητικά αποτελέσματα αναζήτησης προσφέρουν στους χρήστες αυτό που αναζητούν» τονίζει η Google, όσον αφορά στην αντιστοίχιση της αναζήτησής.

Και προσθέτει: «Για ένα τυπικό ερώτημα, υπάρχουν χιλιάδες, ακόμη και εκατομμύρια, ιστοσελίδες με πιθανές συναφείς πληροφορίες. Επομένως, για να κατατάξουμε πρώτες τις καλύτερες σελίδες, συντάσσουμε επίσης αλγορίθμους που αξιολογούν πόσο χρήσιμες είναι αυτές οι ιστοσελίδες.»

Οι αλγόριθμοι  της Google αναλύουν εκατοντάδες διαφορετικούς παράγοντες (για παράδειγμα πόσο φρέσκο είναι το περιεχόμενο, πόσες φορές αναφέρονται οι όροι αναζήτησης, αν προσφέρει καλή εμπειρία χρήστη) για να εντοπίσουν τις καλύτερες πληροφορίες.

πως δουλευει η αναζητηση της google

Προκειμένου δε να εκτιμηθεί η αξιοπιστία και η εγκυρότητα σχετικά με το αντικείμενό τους, αναζητά ιστότοπους που φαίνεται να προτιμούν πολλοί χρήστες για παρόμοια ερωτήματα.

«Αν άλλοι γνωστοί ιστότοποι με το συγκεκριμένο αντικείμενο παραπέμπουν με συνδέσμους στη σελίδα, αυτό είναι ένα καλό σημάδι ότι οι πληροφορίες είναι υψηλής ποιότητας», λέει η Google.

Και με αυτήν την αφορμή, ας μιλήσουμε λίγο για τα backlinks.

H σημασία των backlinks και πως ξεκίνησαν όλα

Η Google επεξεργάζεται σήμερα πάνω από δύο τρισεκατομμύρια αναζητήσεις σε ένα έτος.

Επομένως, οι πληροφορίες της βάσης δεδομένων της πρέπει να ταξινομηθούν σωστά, να αναδιαμορφωθούν και να εμφανιστούν σε λιγότερο από ένα δευτερόλεπτο μετά την συμπλήρωση του ερωτήματος αναζήτησης (search query) στο σχετικό πεδίο από κάποιον.

Η Google κέρδισε τον «αγώνα» στον ανταγωνισμό που είχε παλιότερα  στις μηχανές αναζήτησης επειδή ήταν σε θέση να:

1. Βρίσκει και να καταγράφει περισσότερες πληροφορίες

2. Παρέχει πιο ακριβή αποτελέσματα

3. Εκτελεί τα δύο προαναφερθέντα ταχύτερα από οποιαδήποτε άλλη μηχανή

Όταν πληκτρολογείτε κάτι στο Google search, περιμένετε μια απάντηση. Θα μπορούσε να είναι μια απλή απάντηση, όπως ο «καιρός στην πόλη σας», ή ίσως λίγο πιο περίπλοκο, όπως «πώς λειτουργει η αναζητηση της Google;»

Τα αποτελέσματα της Google, σε σύγκριση με άλλες εναλλακτικές λύσεις μηχανών αναζήτησης που ανταγωνίζονταν την google παλιότερα, έδιναν καλύτερες απαντήσεις σε αυτά τα ερωτήματα.

Και αυτό προήλθε από μια αρχική θεωρία πάνω στην οποία εργάστηκαν οι συνιδρυτές της Google στο κολλέγιο.

Οι συνιδρυτές της Google ήταν στο Στάνφορντ το 1998, όταν κυκλοφόρησαν ένα έγγραφο με τίτλο «The PageRank Citation Ranking: Bringing Order to the Web».

PageRank Citation Ranking-google

Η ανακάλυψη του PageRank ήταν απλή. Τα ακαδημαϊκά έγγραφα συχνά κατατάσσονταν με τον αριθμό των παραπομπών -αναφορων (citations) που αποκτούσαν. Όσες περισσότερες είχαν, τόσο πιο έγκυρα ήταν.

Οι συνιδρυτές της Google, Larry Page και Sergey Brin, ήθελαν να εφαρμόσουν το ίδιο σύστημα ταξινόμησης στις πληροφορίες του ιστού.

Πως το έκαναν;

Χρησιμοποίησαν τα backlinks ως ψήφο εμπιστοσύνης.

Όσους περισσότερους συνδέσμους  μια σελίδα λάμβανε από άλλες ιστοσελίδες, τόσο πιο έγκυρη ήταν όσον αφορά στο θέμα με το οποίο ασχολούνταν.

backlinks

Πηγή:moz.com

Φυσικά, δεν έβλεπαν μόνο τον αριθμό των συνδέσμων.

Λάμβαναν επίσης υπόψη την ποιότητα του backlink, εξετάζοντας την πηγή από την οποία ερχόταν ο σύνδεσμος.

Εάν υπήρχαν δύο σύνδεσμοι, για παράδειγμα, από δύο διαφορετικούς ιστότοπους, ο τομέας με το υψηλότερο domain authority θα άξιζε περισσότερο.

Συνάφεια σελίδας

Θεώρησαν επίσης ότι η συνάφεια της σελίδας από την οποία προέρχονταν ο σύνδεσμος, θα βοηθούσε στην καλύτερη μέτρηση της «ποιότητας» ενός συνδέσμου.

Για παράδειγμα, εάν το site σας αναφέρεται σε «τρόφιμα για γάτες», οι συνδέσεις από άλλες σελίδες ή ιστότοπους που μιλάνε για πράγματα που σχετίζονται με «γάτες» ή «τρόφιμα για γάτες» αξίζουν περισσότερο από έναν σύνδεσμο που έρχεται από ιστότοπο που ασχολείται με «είδη κομμωτηρίου».

Κάπως έτσι, λοιπόν, είχε δημιουργηθεί ο αλγόριθμος στο ξεκίνημα του, με το PageRank να βρίσκεται στο προσκήνιο για χρόνια.

Αλλά πλέον δεν έχει την ίδια σημασία καθώς  η google εχει εξελιχθεί από τότε.

Για αυτό και δεν θα αναφερθούμε  καθόλου σε αυτό, αλλά θα κάνουμε μια σύντομη αναφορά στο RankBrain, για το οποίο έχουμε γράψει ήδη.

Η εξέλιξη: Τι είναι το RankBrain και πώς λειτουργεί;

Το RankBrain είναι ένας αλγόριθμος μηχανικής μάθησης (AI), τον οποίο χρησιμοποιεί η Google για να ταξινομήσει τα αποτελέσματα αναζήτησης.

Αναγνωρίστηκε για πρώτη φορά πριν από λίγα χρόνια από τον μηχανικό της Google Greg Corrado και σήμερα αποτελεί έναν απο τους 3 επιβεβαιωμένους – απο την Google – παράγοντες για την κατατάξη  των ιστοσελίδων στα αποτελέσματα της μηχανής αναζήτησης.

Η Google έχει ασχοληθεί με αυτήν την τεχνολογία τα τελευταία πέντε χρόνια για να βοηθήσει τη μηχανή αναζήτησης να ανταπεξέλθει στην τεράστια αύξηση του όγκου των ερωτημάτων αναζήτησης τα τελευταία χρόνια προκείμενου να μην σταματήσει να προσφέρει τα καλύτερα αποτελέσματα.

Γι΄αυτό και το RankBrain χρησιμοποιεί τεχνητή νοημοσύνη για να μαθαίνει συνεχώς πώς να βελτιώνεται.

Τα 10.000 «σήματα» του αλγόριθμου

Για παράδειγμα, ο αλγόριθμος της Google «μπορεί να έχει έως και 10.000 παραλλαγές ή δευτερεύοντα σήματα», σύμφωνα με το Search Engine Land (αυτό προκύπτει από απάντηση του Μatt Cutts ο οποίος είχε δηλώσει οτι χρησιμοποιούν 200 σήματα (παράγοντες κατάταξης) με το καθένα από αυτά να έχει περίπου 50 δευτερεύοντα σήματα).

Όπως γίνεται εύκολα κατανοητό η διαχείριση όλων αυτών είναι εξαιρετικά δύσκολη (αν όχι αδύνατη) και γι’ αυτό η κρίθηκε αναγκαία η δημιουργία του RankBrain.