IUT - Algorithmes de classification de dépêches
Implémentation et optimisation d'algorithmes de classification de textes

Contexte
Projet réalisé en collaboration avec Manu Thuillier lors du premier semestre de BUT Informatique. L’objectif était d’implémenter et d’optimiser des algorithmes de classification automatique de dépêches selon 5 catégories : politique, culture, environnement/technologie, économie et sport.
Implémentation
1. Classification par poids
Première approche basée sur une table de poids attribuant des scores par catégorie pour chaque mot. La catégorie ayant le score total le plus élevé est sélectionnée.
Optimisations réalisées :
- Normalisation des mots (casse, pluriels, voyelles)
- Recherche dichotomique pour améliorer les performances
- Filtrage des mots trop communs
2. Classification KNN
Seconde approche utilisant la méthode des k plus proches voisins. Les articles sont représentés comme des vecteurs de poids permettant de calculer des distances. La catégorie est déterminée par vote majoritaire des k voisins les plus proches.
Résultats
Les performances des deux approches ont été analysées dans le rapport joint :
- Approche par poids : ~65% de précision
- Approche KNN : ~75% de précision avec k=5
- Complexité optimisée de O(n log n)