Come creare un bot Web
I motori di ricerca, come Google o Yahoo!, estraggono le pagine Web nei risultati di ricerca utilizzando Web bot (a volte chiamati anche spider o crawler), che sono programmi che scansionano Internet e indicizzano i siti Web in un database. I Web bot possono essere realizzati utilizzando la maggior parte dei linguaggi di programmazione, inclusi C, Perl, Python e PHP, che consentono agli ingegneri del software di scrivere script che eseguono attività procedurali, come la scansione e l'indicizzazione del Web.
Passaggio 1
Apri un'applicazione di modifica del testo normale, come Blocco note, incluso in Microsoft Windows, o TextEdit di Mac OS X, dove creerai un'applicazione Web bot Python.
Passaggio 2
Avvia lo script Python includendo le seguenti righe di codice e sostituendo l'URL di esempio con l'URL del sito Web che desideri scansionare e il nome del database di esempio con il database che memorizzerà i risultati:
import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'
Passaggio 3
Includere le seguenti righe di codice per definire la sequenza di operazioni che il Web bot seguirà:
def uniq(seq):set ={} map(set.setitem , seq, []) restituisce set.keys()
Passaggio 4
Ottieni gli URL nella struttura del sito web utilizzando le seguenti righe di codice:
def geturls(url):items =[] request =urllib2.Request(url) request.add.header('User', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', contenuto) urls =[] URL di ritorno
Passaggio 5
Definisci il database che utilizzerà il Web bot e specifica quali informazioni deve archiviare per completare la creazione del Web bot:
db =open(db_name, 'a') allurls =uniq(geturls(enter_point))
Passaggio 6
Salva il documento di testo e caricalo su un server o un computer con una connessione Internet dove puoi eseguire lo script e iniziare la scansione delle pagine web.