Sujet magistere

Sujet :

Optimisation de code d'un classifieur à base de M-SVM pour la catégorisation de documents.

Domaire de recherche / Problématique :

    La catégorisation de documents consiste à déterminer automatiquement la classe d'un document parmi un ensemble connu de classes possibles. Les classifieurs à base de SVM (Support Vector Machine) se sont montrés efficaces pour résoudre de nombreux problèmes de classification, et notamment ils sont particulièrement performants pour la catégorisation de documents. Cependant, ils n'opposent que deux catégories à la fois puis recombinent les résultats selon diverses méthodes.
    Les M-SVM (Multiclass-SVM) ont apporté une solution mathématiquement prouvée afin de classifier directement avec toutes les classes. Mais cette méthode n'a pas encore été appliquée à la catégorisation de documents essentiellement pour deux raisons :
    - les M-SVM sont une méthode très récente,
    - le nombre de classes du problème de la catégorisation est très grand.

Objectifs de recherche :

Expérimenter les SVM et M-SVM afin d'en comparer les résultats dans le domaine de la catégorisation de documents.

Travail à faire :

    1. Télécharger les programmes de SVM et M-SVM, qui relèvent du domaine public (ces programmes sont écrits en langage C). Faire tourner ces programmes sur des "exemples jouets". Une documentation est disponible avec les package des programmes.
    2. Spécialiser le programme des M-SVM au problème de la catégorisation de documents. En effet, le programme disponible peut résoudre tout type de problème de classification, il faudra donc optimiser le code afin de réduire l'espace mémoire utilisé et ainsi pouvoir augmenter le nombre de classes. Eventuellement, s'il s'avérait que le programme nécessite des changements majeurs, nous pouvons envisager de le reprogrammer, auquel cas l'étudiant pourra utiliser le langage de programmation de son choix (ADA, C++, lisp, etc).
    3. Expérimenter les deux programmes pour la catégorisation de documents.

Extension possible :

Le problème de la catégorisation de documents peut également être résolu par de nombreuses autres méthodes dont les programmes relèvent également du domaine public (réseaux de neuronnes, méthodes bayésiennes, etc). Par ailleurs, une nouvelle méthode est en cours de développement dans l'équipe... L'ensemble de ces méthodes pourront alors être comparées.

Encadrement :

Accueil au laboratoire CLIPS-IMAG (sur le domaine universitaire au 220 rue de la chimie).
Suivi de stage : Brigitte BIGI (Chargée de Recherche au CNRS)