Optimisation de code
d'un classifieur à base de M-SVM pour la catégorisation de
documents.
La catégorisation de documents consiste à
déterminer automatiquement la classe d'un document parmi un
ensemble connu de classes possibles. Les classifieurs à base de
SVM (Support Vector Machine) se sont montrés efficaces pour résoudre
de nombreux problèmes de classification, et notamment ils sont
particulièrement performants pour la catégorisation de
documents. Cependant, ils n'opposent que deux catégories à la
fois puis recombinent les résultats selon diverses méthodes.
Les M-SVM (Multiclass-SVM) ont apporté une
solution mathématiquement prouvée afin de classifier
directement avec toutes les classes. Mais cette méthode n'a pas
encore été appliquée à la catégorisation de documents
essentiellement pour deux raisons :
- les M-SVM sont une méthode très récente,
- le nombre de classes du problème de la catégorisation
est très grand.
Expérimenter les SVM et M-SVM afin d'en
comparer les résultats dans le domaine de la catégorisation de
documents.
1. Télécharger les programmes de SVM et M-SVM,
qui relèvent du domaine public (ces programmes sont écrits en
langage C). Faire tourner ces programmes sur des "exemples
jouets". Une documentation est disponible avec les package
des programmes.
2. Spécialiser le programme des M-SVM au
problème de la catégorisation de documents. En effet, le
programme disponible peut résoudre tout type de problème de
classification, il faudra donc optimiser le code afin de réduire
l'espace mémoire utilisé et ainsi pouvoir augmenter le nombre
de classes. Eventuellement, s'il s'avérait que le programme nécessite
des changements majeurs, nous pouvons envisager de le
reprogrammer, auquel cas l'étudiant pourra utiliser le langage
de programmation de son choix (ADA, C++, lisp, etc).
3. Expérimenter les deux programmes pour la
catégorisation de documents.
Le problème de la catégorisation de
documents peut également être résolu par de nombreuses autres
méthodes dont les programmes relèvent également du domaine
public (réseaux de neuronnes, méthodes bayésiennes, etc). Par
ailleurs, une nouvelle méthode est en cours de développement
dans l'équipe... L'ensemble de ces méthodes pourront alors être
comparées.
Accueil au laboratoire CLIPS-IMAG (sur le domaine
universitaire au 220 rue de la chimie).
Suivi de stage : Brigitte
BIGI (Chargée de Recherche au CNRS)