Veuillez utiliser cette adresse pour citer ce document :
http://dspace.univ-tiaret.dz:80/handle/123456789/792
Titre: | Méthodes à noyau pour l'apprentissage dans le cas des données non structurées. |
Auteur(s): | BENMESSAOUD, Abdelkader |
Mots-clés: | SVM, noyaux de séquences, classi cation de textes, langue arabe, transducteurs. |
Date de publication: | 2014 |
Editeur: | Université Ibn Khaldoun -Tiaret- |
Résumé: | Les machines à vecteurs de support (SVM ) représentent la méthode la plus répandue dans la littérature des méthodes connues sous le nom des méthodes à noyau qui connaissent un énorme succès depuis quelques années. Ce succès est dû principalement à l'indépendance de ces méthodes vis-à-vis de la haute dimensionnalité de l'espace d'attributs ou de représentation des données et à la exibilité dans l'utilisation des fonctions noyaux. La classi cation de textes a été parmi les premiers domaines d'application de cette méthode où leurs performances ont supplanté les algorithmes classiques. L'atout majeur des SVM est la exibilité dans le choix des noyaux appropriées pour la nature des données et de leurs utilisation sur des données de type complexe (Graphes, Arbres,. . .). Pour les données textuelles, di érents noyaux ont été introduits (noyau P-spectre, toutessous-séquences, sous-séquence avec pénalité sur l'écart, . . .) permettant une amélioration dans les performances globales d'un système de classi cation de textes. Concernant la classi cation de textes en langue arabe, di érentes approches ont été mises en ÷uvre dans quelques travaux. La plupart de ces travaux ont été menés sur des corpus non standards et de taille moyenne. Quant aux SVM, elles étaient adoptées dans quelques travaux sur la base d'une représentation vectorielles des données négligeant ainsi les aspects ordre et cooccurrence des termes. Encore, mise à part les noyaux usuels, aucune étude n'a encore exploité d'autres noyaux, notamment ceux adaptés aux données textuelles. Dans ce mémoire, nous avons opté pour une représentation des documents sous forme de transducteur. Une telle représentation permet, non seulement la prise en charge des aspects liés à l'ordre et la cooccurrence des éléments d'un texte mais aussi une implémentation e cace des noyaux de séquences. Dans ce contexte, nous avons réalisé un système de classi cation de textes combinant les SVM avec ces noyaux. Une étude empirique de ce système a été menée pour l'évaluation de ce dernier. Les résultats rapportés montrent une amélioration par rapport à l'approche sac de mots de la Précision de classi cation mais au détriment du Rappel. Une séquence de termes d'une longueur modérée est convenable pour les systèmes de classi cation de textes en langue arabe visant à augmenter la Précision. |
URI/URL: | http://dspace.univ-tiaret.dz:8080/jspui/handle/123456789/792 |
Collection(s) : | Magister |
Fichier(s) constituant ce document :
Fichier | Description | Taille | Format | |
---|---|---|---|---|
MAGISTER INFO BENMESSAOUD ABDELKADER -2014.pdf | 2,7 MB | Adobe PDF | Voir/Ouvrir |
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.