Données non structurés (Unstructured Data) & TextMining

Posté par wissemhabboub le 2 mai 2008

La combinaison des composants SSIS de texte mining et de traitement des données non structurées : file import, Fuzzy groupping, fuzzy lookup, term extraction et term lookup et les algorithmes de DataMining offrent une maniabilité et un traitement des données non structuré impressionnante. Dans ce qui suit, je vais introduire quelques scénarios d’utilisation de données non structurées. 

Supposant que vous avez des données textes stockés dans des fichiers différents rapatriés à partir des sites internet ou à partir des données d’un call center sur un thème données (commentaires sur un produit, Assistance Clientèle,…), et vous désirez analyser ces données. 

Nettoyage de données : 

L’utilisation de Fuzzy groupping pour nettoyer vos données et trouver des lignes canonique (exemple: si vous avez une table contenant des lignes en double mais avec quelque différence et vous voulez avoir une table nettoyée) 

Association des fichiers à des entités métiers : 

Utiliser File import pour importer les fichiers dans une colonne de table pour pouvoir bénéficier des traitements possibles sur les tables et associer vos fichiers texte à des entités métiers (produits, client,….) : chaque fichier texte peut correspondre un produit ou autre entité métier. 

Utilisation des dictionnaires métiers : 

Si vous avez des dictionnaires métier, vous pouvez utiliser le composant recherche de terme (term lookup) pour chercher la fréquence d’apparition des termes du dictionnaire dans votre colonne texte (exemple: analyser le contenu de vos fichiers textes pour évaluer l’appréciation des clients sur des produits en utilisant un dictionnaire contenant les noms les termes utilisés pour apprécier ou non un produit). 

Création de dictionnaire /Extraire des noms, phrases,… : 

Si vous ne possédez pas des dictionnaires métiers et vous voulez en créer ou si vous voulez extraire des noms, des phrases,… a partir du texte utilisez extraction de terme (Term extraction). 

Recherche des correspondances non exactes (Recherche floue) : 

L’utilisation de Fuzzy lookup pour trouver la correspondance non exacte entre une colonne texte dans une table et une autre dans une table de référence en utilisant la logique floue avec degré de similitude (exemple: a partir d’une table contenant les noms de vos produits saisie d’une manière non homogène, on veut faire le mappage avec la table produit de notre BDD; fuzzy lookup reconnait les noms de produits même s’ils ne sont pas écrit exactement de la même manière tel que :micro ordinateur & ordinateur par exemple, Fuzzy Lookup offre la possibilité aussi de paramétrer le degré de similitude entre le texte à mapper et le texte de référence). 

La combinaison de ces composants avec les algorithmes de datamining de SQL server Analysis services clustering pour faire la segmentation (classer les appels d’un call center par fréquence de répétition de certain de termes) ou l’association pour trouver les phrases/ les mots qui se répètent souvent ensemble qui peuvent être utiles pour améliorer les performances des agents d’un call center par exemple. 

Liens utiles: 

http://www.microsoft.com/technet/prodtechnol/sql/2005/intro2is.mspx
http://msdn.microsoft.com/fr-fr/library/ms141809.aspx
http://msdn.microsoft.com/fr-fr/library/ms137850.aspx 

 

 

2 Réponses à “Données non structurés (Unstructured Data) & TextMining”

  1. albert dit :

    Salut
    merci pour vos articles que je trouve intéréssants.

    juste une question concernant le traitement des données non strcuturées, j’ai pas bien compris comment peut on se connecter aux fichier textes/pages html avec SSIS?

    merci

  2. wissemhabboub dit :

    salut albert,
    en faite SSIS ne possède pas de composant permettant une connexion directe aux fichiers html par contre des composants de connexion directe aux fichiers plats et XML sont disponibles, ainsi que le composant script qui permet de personaliser l’accès aux source de données par programation VB.net.
    et si vous avez des fichiers textes que vous voulez les traiter le composant File Import permet de préparer votre traitement en important vos fichiers textes dans les enregistrement d’une table BDD.

Laisser un commentaire

 

Mémoire Professionnel : L'a... |
nxtisi |
Cours informatique PC |
Unblog.fr | Créer un blog | Annuaire | Signaler un abus | Affichage exterieur
| club informatique Gessien
| Les Hackers de Sherwood !*!*!