5. Documentation Utilisateur

5.1. Lancement du Crawler

Le crawler ne peut pas être démarré à partir d'une page HTML car le serveur JSP n'a pas pu être installé sur le serveur lenteja. Il n'est pas apparu de solutions valables de remplacement (Utilisation de Java dans PHP, utilisation de RMI pour l'exécution de commandes sur lenteja).

Avant toute opération, il est nécessaire d'effectuer une commande permettant de définir les classpaths nécessaires à l'exécution :

source bash_init

Le crawler doit donc être démarré à partir d'une session ouverte sur lenteja (la session sur lenteja permet de pouvoir accéder à la base de données Oracle). Il doit être démarré avec les commandes suivante :

java Crawler <options>

Les options acceptées par le crawler sont :

--init : Initialise la base de données et effectue un parcours simple de l'arborescence de l'URI de base

--mail : Parcours de l'arborescence de l'URI en prenant en compte les adresses e-mail.

--img : Parcours de l'arborescence de l'URI en prenant en compte les images.

--cond : Met à jour la base de données.

Il est possible de changer les paramètres du crawler en exécutant l'utilitaire CrawlerConfig. La commande est :

java CrawlerConfig

L'utilitaire demande alors d'abord l'URI de base puis la profondeur maximale du parcours. Pour une exécution sur lenteja, il est recommandé de ne pas dépasser une profondeur de 3 sur des sites contenant beaucoup de pages (ex. : http://www.sun.com, ...). Ensuite l'utilitaire affiche une liste des modules d'enregistrement disponibles avec une courte description de leurs fonctionnalités. Il est conseillé d'inclure le module permettant l'enregistrement dans la base de données.

Exemple d'utilisation

-- Configuration du crawler --
URI de base : http://www.sun.com

Profondeur : 2

Recuperation des descriptions des modules...OK
0 -> Enregistrement de l'activite dans un fichier.
(report.logfile.LogfileReport)
1 -> [TEST] Stockage des liens avec pagerank.
(report.pagerank.PagerankListener)
2 -> Enregistrement de statistiques.
(report.stat.ActivityReport)
3 -> Stockage dans base de donnees.
(report.sqlreport.SqlReport)
Liste des modules voulus (chiffres separes par ;) : 0;3

Crawler configure.

 

5.2. Utilisation du moteur de recherche