Questo sito utilizza cookies solo per scopi di autenticazione sul sito e nient'altro. Nessuna informazione personale viene tracciata. Leggi l'informativa sui cookies.
Username: Password: oppure
Java - Link web Java
Forum - Java - Link web Java

Avatar
maniscalco (Normal User)
Newbie


Messaggi: 3
Iscritto: 22/04/2009

Segnala al moderatore
Postato alle 12:08
Venerdì, 12/06/2009
Ciao a tutti,
       anzitutto complimenti per il sito che è veramente molto utile, vi scrivo per porvervi un problema che mi affligge da un po. Ho realizzato un web spider in java che come penso tutti sanno mi consente di scaricare interi siti dal web ora il mio problema è : c'è un modo per modificare i link contenuti all interno di una pagina scaricata ? mi spiego meglio quando scarico un link non posso tenere un link del tipo
http://www.pierotofy.it/pages/extras/forum/newpost.php?typ ...=
poiche i ? e altri caratteri sono "illegali "nel sistema operativo quindi dato che nel mio programmino gia realizzo diversi metodi che eliminano questi caratteri nel momento in cui si scarica una pagina vorrei sapere se è possibile modificare anche i link contenuti in quella pagina in modo da eliminare i caratteri illegali e poter usare, finalmente, le pagine scaricate in maniera offline.
Ringrazio sin da subito chi si interessera al mio problema.
:rotfl::rotfl:

PM Quote
Avatar
netarrow (Admin)
Guru^2


Messaggi: 2502
Iscritto: 12/05/2004

Segnala al moderatore
Postato alle 13:17
Venerdì, 12/06/2009
quei link inviano al web server informazioni che vengono poi elaborate dagli script php generando una pagina html dinamicamente.

quindi se vuoi scaricare un intero sito dinamico sul tuo PC devi salvarti un particolare stato.

potresti richiedere la home e salvarti la pagina html da qualche parte (cosa che già fai immagino).
a quel punto ricorsivamente con le regex ti cerchi dentro la pagina html tutti i link, fai la richiesta e in questo modo ottieni la pagina html generata, la salvi da qualche parte e fai un replace dell'url con un normale link alla pagina statica prima salvata.

PM Quote
Avatar
maniscalco (Normal User)
Newbie


Messaggi: 3
Iscritto: 22/04/2009

Segnala al moderatore
Postato alle 13:35
Venerdì, 12/06/2009
Innanzi tutto grazie mille per la risposta netarrow,
per quanto riguarda ciò che hai detto non credo di aver proprio colto tutto.....:asd:
Ti spiego meglio: io il sito web o le singole pagine web che siano html php asp ecc ecc le salvo ricreando sul mio hdd l albero del sito.. ora ho provato a scrivere delle classi che mi riparsavano le pagine salvate per poterne poi cambiare i link ma il problema è che non so come dire al writer di rimpiazzare i link con quelli presenti nella pagina e oltretutto quando va a riscrivere la pagina va a vuoto......... Ora ho capito il tuo consiglio di usare le regex ma poi come faccio a rimpiazzare il testo nella pagina...????:-?:-?

PM Quote
Avatar
netarrow (Admin)
Guru^2


Messaggi: 2502
Iscritto: 12/05/2004

Segnala al moderatore
Postato alle 15:14
Venerdì, 12/06/2009
mano a mano potresti salvarti l'url della pagina dinamica e mettere magari in una hashtable il nome e il path del risultato statico che hai scaricato, e poi alla fine del processo di download, fai un semplice replace, mettendo il path della tua pagina statica al posto dell'url della pagina dinamica.

PM Quote