Questo sito utilizza cookies solo per scopi di autenticazione sul sito e nient'altro. Nessuna informazione personale viene tracciata. Leggi l'informativa sui cookies.
Username: Password: oppure
Java - Motore di ricerca e indicizzazione testo java
Forum - Java - Motore di ricerca e indicizzazione testo java

Avatar
exels (Normal User)
Newbie


Messaggi: 2
Iscritto: 08/05/2007

Segnala al moderatore
Postato alle 23:43
Martedė, 08/05/2007
Salve a tutti, sono un giovane studente e sto cercando di implementare un'indicizzatore del testo contenuto in un sito web.Le ricerche dovrei farle tramite query e stampare a video i documenti in ordine di pertinenza.

Qualcuno di voi ha qualche dritta da darmi? magari se ci sono dei metodi particolari per la ricerca di stringhe o altro... o meglio se avete qualche tutorial... Diciamo che sono motlo newb di java.

A Presto e grazie

PM Quote
Avatar
Macrosoft (Normal User)
Newbie


Messaggi: 7
Iscritto: 16/01/2007

Segnala al moderatore
Postato alle 17:13
Martedė, 15/05/2007
Spero di aver capito bene cmq...
Oggi ho trovato uno script che permette di eseguire la stessa operazione di apertura della pagina che fa telnet con la sintassi open www.google.it 80
Mi spiego meglio. Im programma stampa in un terminale la sintassi della pagina html del sito. Per cambiare sito, ovvio, basta cambiare l'host applicato al Socket... ecco il codice( c'era qualche errore, spero di averli tolti tutti).

Codice sorgente - presumibilmente Java

  1. //codice copiato da:http://www.extremebit.it
  2.    1. import java.io.*;  
  3.    2. import java.net.*;  
  4.    3.  
  5.    4. public class ClientTest{  
  6.    5.  
  7.    6.        public static void main(String[] args) {  
  8.    7.            try {  
  9.    8.                     Socket s = new Socket("www.extremebit.it",80);  
  10.    9.                     PrintWriter out = new PrintWriter (s.getOutputStream(),true);  
  11.   10.                     BufferedReader in = new BufferedReader (new InputStreamReader(s.getInputStream()));  
  12.   11.                     out.println ("GET / HTTP/1.0");  
  13.   12.                     out.println ();  
  14.   13.                     boolean more = true;  
  15.   14.  
  16.   15.                    while(more) {  
  17.   16.                           String line = in.readLine();  
  18.   17.                           if (line == null)  
  19.   18.                                 more = false;  
  20.   19.                           else System.out.println(line);  
  21.   20.                    }  
  22.   21.                    in.close(); out.close();
  23.  s.close(); // chiusura stream e socket  
  24.   22.                  } catch (IOException e)  
  25.   23.                      {  
  26.   24.                        System.out.println("Error"+e);  
  27.   25.                      }  
  28.   26.       }//main  
  29.   27. }//ClientTest



basta che fai un convertitore che legge solo le stringhe che ti interessano. Se il sito rispetta la w3c nn devi aver problemi a fare questo, visto che basta copiare il testo compreso ad esempio tra <p> e </p> o <div>e</div>...).

Inoltre, se vuoi approfondire l'argomento Socket e le reti con Java ti consiglio questa pagina per iniziare:http://www.extremebit.it/forum/viewtopic.php?t=2872

Spero di essere stato chiaro. Ciao

PM Quote