Les termes data mining et data warehousing sont souvent confondus à la fois par le personnel commercial et technique. L’ensemble du domaine de la gestion des données a connu une croissance phénoménale avec la mise en œuvre de logiciels de collecte de données et la diminution du coût de la mémoire informatique . L’objectif principal de ces deux fonctions est de fournir les outils et les méthodologies pour explorer les modèles et la signification d’une grande quantité de données.

Les principales différences entre l’exploration de données et l’entreposage de données sont la conception du système, la méthodologie utilisée et l’objectif. L’exploration de données consiste à utiliser une logique de reconnaissance de formes pour identifier les tendances au sein d’un échantillon de données et extrapoler ces informations par rapport à un pool de données plus large. L’entreposage de données est le processus d’extraction et de stockage des données pour faciliter la création de rapports.

L’exploration de données est un terme général utilisé pour décrire une gamme de processus métier qui dérivent des modèles de données. En règle générale, un progiciel d’analyse statistique est utilisé pour identifier des modèles spécifiques, en fonction de l’ensemble de données et des requêtes générées par l’utilisateur final. Une utilisation typique de l’exploration de données consiste à créer des programmes de marketing ciblés, à identifier la fraude financière et à signaler des comportements inhabituels dans le cadre d’un examen de sécurité.

Un excellent exemple d’exploration de données est le processus utilisé par les compagnies de téléphone pour commercialiser des produits auprès des clients existants. La compagnie de téléphone utilise un logiciel d’exploration de données pour accéder à sa base de données d’informations sur les clients. Une requête est écrite pour identifier les clients qui ont souscrit au forfait téléphonique de base et au service Internet sur une période de temps spécifique. Une fois cet ensemble de données sélectionné, une autre requête est écrite pour déterminer combien de ces clients ont profité de fonctionnalités téléphoniques supplémentaires gratuites lors d’une promotion d’ essai . Les résultats de cet exercice d’exploration de données révèlent des modèles de comportement qui peuvent conduire ou aider à affiner un plan marketing pour augmenter l’utilisation de services téléphoniques supplémentaires.

Il est important de noter que le but principal de l’exploration de données est de repérer des modèles dans les données. Les spécifications utilisées pour définir l’ensemble d’échantillons ont un impact énorme sur la pertinence de la sortie et la précision de l’analyse. Pour revenir à l’exemple ci-dessus, si l’ensemble de données est limité aux clients d’une zone géographique spécifique, les résultats et les modèles seront différents d’un ensemble de données plus large. Bien que l’exploration de données et l’entreposage de données fonctionnent avec de gros volumes d’informations, les processus utilisés sont assez différents.

Un entrepôt de données est un produit logiciel utilisé pour stocker de gros volumes de données et exécuter des requêtes et des rapports spécialement conçus. L’intelligence d’affaires est un domaine d’étude en pleine croissance qui se concentre sur l’entreposage de données et les fonctionnalités associées. Ces outils sont conçus pour extraire des données et les stocker dans une méthode conçue pour améliorer les performances du système. Une grande partie de la terminologie de l’exploration de données et de l’entreposage de données est la même, ce qui entraîne encore plus de confusion.