Les neuf algorithmes datamining existant dans SQL server

Posté par wissemhabboub le 2 janvier 2012

SQL Server Analysis services comprend neuf algorithmes. En outre, SSIS comprend deux transformations de text mining. la liste ci-dessous résument les algorithmes SSAS neuf et leur usage commun.

Arbres de décision : est l’algorithme de DM le plus populaire, il est utilisé pour prédire les variables discrètes et continues. Les résultats sont très faciles à comprendre, c’est la principale raison qui rend l’algorithme si populaire. Si vous souhaitez prédire des variables continues, vous obtenez des de morceaux formule de régression linéaire multiple avec une formule distincte dans chaque nœud d’arbre. L’algorithme utilise les variables d’entrée discrètes pour décomposer l’arbre en nœuds. Un arbre qui prédit les variables continues est un arbre de régression.

Régression linéaire : La Régression linéaire prédit des variables continues seulement, à l’aide d’une seule formule de régression linéaire multiple. Ainsi, les variables d’entrée doivent être continues. La Régression linéaire est un cas simple d’un arbre de régression, mais c’est un arbre sans  fractionnements.

Naive Bayes : Compte tenu de chaque État de l’attribut prévisible, l’algorithme Naive Bayes calcule les probabilités pour chaque État possible de l’attribut d’entrée. Vous pouvez par la suite utiliser ces probabilités pour prédire l’issue de l’attribut cible que vous prédisent basé sur les attributs d’entrée connus. Parce que cet algorithme est assez simple, il construit des modèles très rapidement. Par conséquent, vous pouvez utiliser cet algorithme comme point de départ dans votre tâche de prédiction. L’algorithme Naive Bayes ne supporte pas les attributs continus.

Réseau de neurone: L’algorithme Neural Network vient de l’intelligence artificielle. Vous pouvez utiliser cet algorithme pour les prédictions ainsi. Les Réseaux de neurone recherche des dépendances fonctionnels non linéaires. Ils effectuent des transformations non linéaires sur les données dans les couches, provenant de la couche d’entrée grâce à des couches cachées vers la couche de sortie. Parce qu’ils sont difficiles à interpréter que les algorithmes linéaires comme les arbres de décision, les réseaux de neurone ne sont pas utilisés habituellement en affaires comme le sont les algorithmes linéaires.

Régression logistique : Comme une régression linéaire qui est un arbre de régression simple, une régression logistique est un réseau de neurone sans les couches cachées.

Clustering : L’algorithme de Clustering regroupe des cas un DataSet en groupes contenant des caractéristiques similaires. En utilisant ces groupes, vous pouvez explorer les données et en apprendre davantage sur les relations entre vos cas. En outre, vous pouvez créer des prédictions du modèle clustering créé par l’algorithme. Vous pouvez utiliser la méthode de Clustering pour vos clients de groupe pour votre application de gestion de la relation client (CRM), par exemple. En outre, vous pouvez utiliser Clustering pour rechercher des anomalies dans vos données. Un cas qui n’est pas partie d’un cluster est un cas qui mérite davantage d’inspection. Ceci est utile pour la détection de la fraude ; une opération qui ne correspond pas à un cluster découvert pourrait être une transaction frauduleuse.

Sequence Clustering : L’algorithme Sequence Clustering recherche des groupes basés sur un modèle, plutôt que sur la similitude des cas. Il construit des modèles à partir de séquences d’événements à l’aide de chaînes de Markov. Vous pouvez utiliser cet algorithme séquentiel de données. Utilisation typique serait une analyse de l’utilisation de site Web. de votre société

Règles d’association : L’algorithme de règles d’Association est conçu pour l’analyse de panier.L’algorithme définit un jeu d’éléments comme la combinaison d’éléments dans une seule opération. L’algorithme scanne le dataset et compte le nombre de fois où les Jeux d’éléments apparaît dans les transactions. Vous devez utiliser cet algorithme pour détecter les opportunités de vente croisée.

Séries chronologiques : L’algorithme de séries chronologiques est créé pour la prévision des variables continues. En interne, l’algorithme utilise les arbres régression sur les données transformées automatiquement ; Il est aussi appelé Auto-régression arbres (ART).

2 Réponses à “Les neuf algorithmes datamining existant dans SQL server”

  1. heny dit :

    Concernant l algorithme de classification est ce que vous pouvez indiquer le quel est utilisé par SSAS ?
    K-MEANS, CAH …?

  2. wissemhabboub dit :

    SSAS propose deux algorithmes K-means et Expectation maximization (EM),vous pouvez choisir laquelle utiliser via le parametre Clustering_method? Pour plus de details voici un lien detaiilant les options et les parametres relatives au clustering en Sql server: http://msdn.microsoft.com/en-us/library/cc280445.aspx

Laisser un commentaire

 

Mémoire Professionnel : L'a... |
nxtisi |
Cours informatique PC |
Unblog.fr | Créer un blog | Annuaire | Signaler un abus | Affichage exterieur
| club informatique Gessien
| Les Hackers de Sherwood !*!*!