logo_epum.jpg
Ecole Polytechnique Universitaire de Marseille
Département Génie Industriel et Informatique
5 ième année – Option Informatique Décisionnelle
2010-2011

TITRE DU COURS : ENTREPOTS ET FOUILLE DE DONNEES – C 956

NOM DE L'INTERVENANT : Bernard ESPINASSE

OBJECTIFS VISES PAR LE COURS

Ce cours s’inscrit dans le domaine de « l'informatique décisionnelle (ID) » ou« Business Intelligence (BI) » en anglais. Il traite tout d’abord des entrepôts de données - ED (Data Warehouse) et ensuite fait une introduction à la fouille de données (Data Mining). Après avoir défini ce que recouvrait la DI/BI, est introduit le concept d’ED et l’analyse en ligne OLAP. On s’intéresse ensuite à la conception d’un ED tant à un niveau conceptuel qu’à un niveau logique. Les grandes approches d’implantation des ED sont présentées : l’approche ROLAP, l’approche MOLAP, et l’approche hybride HOLAP. Des langages informatiques permettant de faire de l’analyse OLAP d’ED sont introduits : des récentes extensions du langage SQL3, au langage MDX proposé par Microsoft. Dans l’introduction à la fouille de données est présenté le processus général de découverte d’information et de connaissance à partir de données, ainsi qu’introduites les principales méthodes permettant d'extraire des informations à partir de données brutes : des algorithmes de classification supervisée (arbres de décision, les plus proches voisins (k-NN), les réseaux de neurones), des algorithmes de groupement ou clustering (partitionnement par la méthode des k-moyennes), et enfin la recherche de règles d'association.

Un enseignement pratique (EP) complètera ce cours et permettra de réaliser un mini-projet en une semaine sur un entrepôt de données avec une suite logicielle de ID/BI


PROGRAMME (séances de 2 heures)

Séance 1 : Introduction à l’Informatique Décisionnelle (Business Intelligence)
-    Introduction à l’informatique décisionnelle (DI) et à la « business Intelligence (BI) »
-    Les outils de la DI et de la BI
-    Un exemple de l’ID dans l’entreprise : la relation client
Supports:
      Introduction à l'informatique décisionnelle

PARTIE 1 : ENTREPOTS DE DONNEES (DATA WAREHOUSE)

Séance 2 : Introduction aux entrepôts de données (ED)
-    Introduction et définition d’un ED
-    Architecture fonctionnelle d’un ED
-    Modélisation multidimensionnelle
-    Alimentation, stockage, gestion et exploitation d’un ED
-    Domaines d’application des ED et « succès stories »
Supports:
      Introduction aux entrepôts de données

Séance 3 : Analyse en ligne d’entrepôt : OLAP (On-Line Analytical Processing)
-    Introduction et problématique de l’OLAP
-    Entrepôt et OLAP, OLAP versus OLTP, exemple d’analyses d’un ED
-    Opérations élémentaires OLAP : opérations de restructuration (rotate, switch, split, nest, push, pull)
-    Opérations de granularité (roll-up, drill-down)
-    Opérations ensemblistes (slide, dice, jointure (drill-across), data cube
Supports:
         OLAP

Séance 4 : Modélisation et conception conceptuelle d’un ED
-    Le modèle « Dimensional Fact Model – DFM »
-    Concepts de bases et avancés du modèle DFM
-    Dérivation de schémas factuels conceptuels à partir du schéma relationnel d’une base de données opérationnelle
-    Exemples de modélisation conceptuelle d’entrepôts
Supports:
         DW Conceptual Design

Séance 5 : Approches d’implantation des ED : les systèmes OLAP
-    Introduction aux systèmes OLAP
-    Systèmes ROLAP : techniques d’indexation ROLAP,
      exécution de requêtes en ROLAP : précalcul des agrégats,
      sélection et matérialisation des vues, fragmentation
      quelques produits de technologie MOLAP, 
-    Systèmes MOLAP : techniques de stockage, densité et compression,
     agrégation et calcul des agrégats, coût MOLAP des opérations typiques,
     forces et faiblesses de la technologie MOLAP, quelques produits de technologie MOLAP, …
-    Systèmes HOLAP : technologie, quelques produits.
Supports:
         Systèmes OLAP

Séance 6 : Modélisation et conception logique d’un ED
-    Modélisation multidimensionnelle de base et avancée
-    Dérivation de schémas relationnels à partir de schémas factuels conceptuels
-    Exemples de modélisation logique d’ED
Supports:
        DW Logical Design

Séance 7 : Langages pour OLAP: Extensions SQL pour l’OLAP et introduction au langage MDX
-    Extension SQL 99 (SQL 3) pour l’OLAP (Rollup, Cube, Group by cube, Grouping sets, …)
-    OLAP dans divers systèmes (Oracle, Terradata, …)
-    Introduction au langage MDX
Supports:
        Extension de SQL à l'OLAP
        Le langage MDX pour l'OLAP
     
PARTIE 2 : FOUILLE DE DONNEES (DATA MINING)

Séance 8 : Processus de découverte d’information et de connaissance à partir de données (Data Mining)
-    Introduction à la fouille de données
-    Types de données exploitées et de connaissances extraites
-    Exemples d’applications de la fouille de données
-    Quelques logiciels de fouille de données
-    Grandes étapes d’un processus de découverte d’information :

Supports:
      Introduction à la fouille de données
      Processus de fouille de données

Séance 9 : Introduction aux méthodes de Fouille de données (1)
-    Typologies des méthodes de fouille de données
-    Segmentation par la méthode des k-moyennes
-    Méthodes des règles d’association : Objet de l’association, Méthode des règles d’association
-    Classification / Prédiction par les Arbres de décision
-    Classification par la méthode des k-plus proches voisins : Méthode des k-plus proches voisins

Supports:
      Introduction aux méthodes de fouille de données


Examen le …