Configuration
Crawtext se configure à deux niveaux:
- Environnement
- Projet
Environnement par défaut
Crawtext propose un fichier de configuration par défaut: config/settings.json
Ce fichier définit l'environnement de fonctionnement du crawler:
-
l'utilisateur du crawler: c'est dans un dossier à son nom que se trouveront tous les crawls et leur résultats
-
la base de données en back-end qui gère les paramêtres des crawls et leur récurrence
-
l'environnement dans lequel seront stockés tous les dossiers de tous les utilisateurs
-
l'url où sont exposés l'avancement du crawl et ses paramêtres(TO DO)
Le fichier disponible ici se présente sous cette forme
{
"user":{
"username": "user@cortext.net",
"password": "keepitsecret"
},
"db": {
"provider": "mongo",
"host": "localhost",
"port": 27017,
"password": "",
"db_name": "demo_crawtext",
"collection": "projects"
},
"env": {
"directory": "",
"name": "crawtext"
},
"website":{
"host": "localhost",
"port": 8080
}
}
Il suffit d'en modifier les valeurs et Crawtext met à jour la configuration et le paramêtrage à chaque lancement d'un crawl. Il est recommandé pour les débutants de ne changer que le username Voir le fichier de configuration
Paramétrage d'un projet
La création ou mise à jour d'un projet se fait via un fichier au format json de parametrages du projet
Un example de parametrage est donné dans config/example.json
définir son projet.
Le détail des valeurs et leur fonctions est expliqué dans le tutoriel et plus en détail dans l'API et le glossaire
{
#definir le nom du projet de crawl
"name": "COP21",
#activer les filtres en mettant "active":true
"filters": {
#profondeur maximale
"depth":{
"active": true,
"depth": 5
},
#filtre de langue
"lang":{
"active": false,
"lang": "en"
},
# expression de recherche
"query":{
"active": false,
"query": "(COP 21) OR (COP21)"
}
},
#fréquence du crawl
"scheduler": {
"active": true,
"days": 7
},
#point de départ du crawl (seeds)
"seeds": {
"url":{
"active": false,
"url": "http://www.lefigaro.fr"
},
"file":{
"active": false,
"file": "./config/sources.txt"
},
"search": {
"active": true,
"key": "APIKeyGivenByBing",
"nb": 100
}
}
}