Edgar's Internet Tools: Webscanner 4.0.6

mercoledì 4 giugno 2008

Webscanner 4.0.6

Le modifiche apportate al codice della pagina del motore di ricerca utilizzato dal tool Webscanner nelle precedenti versioni, per risolvere il reverse IP, hanno richiesto un profondo aggiornamento del tool che ha comportato la riscrittura completa del codice con la sostanziale modifica dell'uso di Curl come motore di scansione delle pagine anziche' di Wget.

Vediamo le modifiche piu' importanti apportate a Webscanner.

1) riscrittura totale del codice che consente di catturare indirizzi url in maniera piu' veloce e tramite Curl l'acquisizione anche di sorgenti di pagine che in precedenza Wget non riusciva a downloadare.
2) Possibilita' di eseguire una scansione del range IP generando solo la lista dei siti presenti senza il download del codice sorgente.
3) Eliminata la ricerca di stringhe di testo al momento della acquisizione del codice.
Infatti, dopo l'esperienza delle precedenti versioni, e visto che il sorgente di una pagina consiste in pochi se non un solo K byte di dati, e' piu' conveniente scaricare tutte le pagine in lista e poi, offline, ricercare le occorrenze di codici pericolosi con un programma freeware di ricerca testo.(ne esistono decine e tutti ottimi)
Questo comporta anche il vantaggio di poter generare report dettagliati sui contenuti dei files scaricati e dei relativi siti coinvolti.
4) Adesso Webscanner, nell'uso della opzione file di testo che contiene le URLS delle pagine da caricare, accetta, sempre una url per riga txt, ma compatibile come struttura a quella ottenuta facendo copia e incolla dalle pagine dei piu diffusi motori di ricerca di reverse IP.
5) Presenza di una opzione denominata “force homepage” che filtra la lista delle urls, carica le pagine cercando di evitare di effettuare il download di sotto pagine (ad es.www.dddd.it/ssss.htm viene filtrato come www.dddd.it ) ed inoltre elimina eventuali doppioni di urls contenuti nel file lista.

Ed ecco un primo test utilizzando la possibilita' di forzare il nome di una pagina htm o php da caricare in aggiunta ad una lista di urls.

La pagina dal nome index.php e' stata inserita nell'apposito form e quindi Webscanner ha aggiunto la stringa /index.php alle urls in lista, caricato le pagine nascoste index.php, e salvato i codici sorgente
Da questi abbiamo ottenuto per ricerca diretta un report

che ci evidenzia la presenza di di siti che contengono la pagina nascosta di hacking

Dato che le pagine generate dal motore di ricerca, come ormai consuetudine, modificano il loro layout a seconda della lingua impostata di default sul sistema usato ed anche a seconda dell'IP di provenienza di chi interroga il sito di ricerca potrebbero esserci problemi per Webscanner ad acquisire la pagina, per sistemi settati con differenti linguaggi al di fuori dell'inglese.
Webscanner comunque forza la richiesta delle pagine in modalita' lingua US ma, visto che mi trovo in Thailandia, ho potuto solo verificare che la configurazione del tool funzionasse correttamente sul mio pc e quindi non escludo qualche problema su sistemi settati per differenti linguaggi al di fuori di quello inglese.

Aggiornamento
Inserita nel file .ini la possibilita' di selezionare la variabile che definisce la lingua usata per le pagine dei risultati di ricerca e il relativo tag (che varia a seconda del linguaggio usato) e che indica se alla pagina attuale segue altra pagina. (es se lingua usata IT tag = >successiva< , se lingua impostata ENG tag = >next<)

La versione beta del programma e' disponibile qui

Edgar

10 commenti:

Juninho85 ha detto...: grazie edgar ;); 5 giugno 2008 alle ore 15:47
Juninho85 ha detto...: sto provando ad armeggiarci però ho notato un qualcosa che penso sia anomalo:il caso in questione riguarda l'IP 213.156.44.204(penso ti sia ormai familiare visto che la dentro ci trovi datasport.it....)
In questo ip puoi trovare altri 7 domini registrati...con webscanner l'unico modo per far si che se ne accorga è spuntare la voce "get page source"...altri ottieni risultati pari a 0.
Per caso mi sfugge qualcosa?; 6 giugno 2008 alle ore 03:01
Edgar Bangkok ha detto...: La spunta su 'get page... fa' in modo che vengano scaricati i sorgenti delle pagine , se non spunti l opzione. webscanner genera solo la lista di quello che il motore di ricerca gli restituisce a quell ip.
Quindi se vuoi scaricare le pagine spunta l'opzione
Comunque penso che aggiungero' la possibilita' di forzare diverse lingue nella ricerca perche' ho visto che il numero dei risultati restituiti varia in maniera notevole tra passare la pagina di ricerca in italiano o in inglese
Edgar; 6 giugno 2008 alle ore 07:20
Juninho85 ha detto...: il problema è che se non seleziono la voce "get page source" webscanner non trova nulla di ciò che è contenuto in un determinato IP; 7 giugno 2008 alle ore 03:54
Edgar Bangkok ha detto...: Hai provato a vedere all'interno del folder dove dovrebbe salvare i files sorgenti es. scan1 scan2 scan3 .... se c''e una lista di files ????
Qui da me genera la lista e la salva nel folder impostato dalle opzioni...
Comunque poi verifico meglio; 7 giugno 2008 alle ore 08:06
Juninho85 ha detto...: si i file li genera però son vuoti perchè appunto non trova nulla.
a proposito...è normale che se provo a scansionare un range intero viene generato un file di log per ogni IP a esso collegato?
come mai hai escluso la funzione di ricerca di una o più parole nel codice sorgente del sito?; 8 giugno 2008 alle ore 04:10
Edgar Bangkok ha detto...: Per il fatto della ricerca lo spiego al punto 3) di questo post "..3) Eliminata la ricerca di stringhe di testo al momento della acquisizione del codice.
Infatti, dopo l'esperienza delle precedenti versioni, e visto che il sorgente di una pagina consiste in pochi se non un solo K byte di dati, e' piu' conveniente scaricare tutte le pagine in lista e poi, offline, ricercare le occorrenze di codici pericolosi con un programma freeware di ricerca testo.(ne esistono decine e tutti ottimi)
Questo comporta anche il vantaggio di poter generare report dettagliati sui contenuti dei files scaricati e dei relativi siti coinvolti......."

per i files vuoti verifico meglio ma mi pare che qui da me li generi ...mentre per il numero dei files generati ne crea uno per ogni ip ...; 8 giugno 2008 alle ore 07:49
Edgar Bangkok ha detto...: ho verificato e , almeno qui da me, funziona correttamente ma mi viene il dubbio che tu veda un file oltre a quello con il nome che e' formato da ip da te e ora della scansione, che si chiama listurls.txt
Quello e' un file vuoto che io metto nel folder per poterlo riempire con un copia e incolla con i dati presi da una pagina di reverse ip.
I file di report generati dal programma sono sempre solo con ip data e ora e non con nome listurls.
Comunque puoi provare a cancellare completamente il contenuto del folder dove vuoi salvare report e files e poi vedere cosa succede quando fai la scansione
i casi dovrebbero essere 2 : o trovi solo il file o i files con ip data e ora oppure i files ip data ora piu' i sorgenti scaricati.; 8 giugno 2008 alle ore 08:03
Juninho85 ha detto...: effettivamente eseguire la ricerca con i log salvati in locale è meglio,non ci avevo pensato ;)
ti posto uno screen per capire la questione del numero dei file di log,il range analizzato è 212.25.179.4-5....son stati creati
1)un file con tutti i risultati del range
2)un file con il contenuto dell'ip 212.25.179.4
3)un file con il contenuto dell'ip 212.25.179.5
4)un file di log per ogni dominio trovato
http://img72.imageshack.us/img72/8481/webscanneroc9.jpg; 8 giugno 2008 alle ore 16:48
Edgar Bangkok ha detto...: Direi che e' lo stesso che risulta a me
ricapitolando WS a me genera
212_25_179_4_08062008_2124_from_se.txt
212_25_179_5_08062008_2125_from_se.txt
che sono i file che contengono divisi per ip i siti trovati dal motore di ricerca (1 file per ogni IP)
un file
212.25.179.4_5_08062008_2124_allscan.txt
con la scritta allscan che e' un riassunto generato quando webscanner legge i sorgenti
e poi tutti i files sorgenti caricati da webscanner

Se non spunto la casella get source webscanner propone solo le due liste divise per ip e chiaramente non scrive il file allscan e i singoli sources delle pagine.
Quindi mi pare tutto OK. i files ci sono tutti :); 8 giugno 2008 alle ore 21:37

Posta un commento