Questo sito utilizza cookies solo per scopi di autenticazione sul sito e nient'altro. Nessuna informazione personale viene tracciata. Leggi l'informativa sui cookies.
Username: Password: oppure
PHP - Come funziona il bot di google?
Forum - PHP - Come funziona il bot di google?

Avatar
Vicar (Normal User)
Pro


Messaggi: 96
Iscritto: 25/02/2010

Segnala al moderatore
Postato alle 23:20
Mercoledì, 30/06/2010
Ciao ragazzi, come da titolo, dovrei creare un motore di ricerca simile a google, ovviamente non voglio combatterlo poichè è praticamente impossibile.. Come posso fare a crearlo?

PM Quote
Avatar
fabriziorocca (Normal User)
Guru


Messaggi: 1162
Iscritto: 22/03/2009

Segnala al moderatore
Postato alle 23:24
Mercoledì, 30/06/2010
Devi creare un programma che gira e visita tutti i siti web di tutto il mondo, stabilisce i risultati più importanti, cerca tutti i link, ...

Insomma all'inizio potrebbe sembrare semplice, ma non lo è affatto.

PM Quote
Avatar
Vicar (Normal User)
Pro


Messaggi: 96
Iscritto: 25/02/2010

Segnala al moderatore
Postato alle 23:31
Mercoledì, 30/06/2010
Tranquillo, so che sarebbe un programmone, ma in che linguaggio sarebeb da fare?

PM Quote
Avatar
pierotofy (Admin)
Guru^2


Messaggi: 6230
Iscritto: 04/12/2003

Segnala al moderatore
Postato alle 1:55
Giovedì, 01/07/2010
Python, Ruby... ma penso qualsiasi linguaggio potenzialmente può fare quello che chiedi. Sceglierei quei due perchè sono multipiattaforma, hanno le regex e sono facili da imparare. Ma ripeto... tanti altri andrebbero bene comunque.


Il mio blog: https://piero.dev
PM Quote
Avatar
Thejuster (Admin)
Guru^2


Messaggi: 2305
Iscritto: 04/05/2008

Segnala al moderatore
Postato alle 8:56
Giovedì, 01/07/2010
Si quoto piero.

L'idea di un crawler, e quella di tenere una pagina web, con tantissimi link,
che man mano li visita tutti e poi puoi scegliere quali garbano di più alle tue esigenze,
tipo verificare il Rank di una pagina,
o se contiene un qualche keyword che vuoi escludere.

in'oltre, in alcuni siti, nella root dell'host e presente un file robots.txt, i bot hanno la facoltà di leggere il contenuto di quel file e indirizzarsi automaticamente nei link presenti in quei file. ma non è obbligatorio.

difatti quando non trovano questo file, continuano ugualmente la loro ricerca.

tipo se provi a scaricare il cms NukeEvolution, hai anche la possibilità di decidere quali pagine impostare nel robots.txt.

cmq non è un passeggiata, servono tantissimi algoritmi e tanta matematica.
comunque sia, Buona Fortuna :k:


https://mire.forumfree.it/ - Mire Engine
C# UI Designer
PM Quote
Avatar
Fatal_Error (Ex-Member)
Newbie


Messaggi: 11
Iscritto: 30/06/2010

Segnala al moderatore
Postato alle 11:54
Venerdì, 02/07/2010
E quanto già detto è il minimo: il lavoro grosso consiste nel trasformare uno studio avanzato di analisi del testo in un software capace di comprendere le tematiche di un argomento, di isolare le keyword sensate e di capire la pertinenza del documento con la ricerca effettuata.  

Almeno, se vogliamo emulare google in minima parte :-|

PM Quote