85 pages

Propriétés et extensions de la classification de variables autour de composantes latentes: application en évaluation sensorielle [Elektronische Ressource] = Eigenschaften und Erweiterungen der Methode CLV zum Clustern von variablen: Anwendungen in der Sensometrie / par Karin Sahmer

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
85 pages
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Université Rennes II Universität DortmundHaute Bretagne Fachbereich StatistikLaboratoire de StatistiqueoN attribué par la bibliothèque :Thèse / Dissertationpour obtenir le grade deDocteur Doktorde l’Université Rennes II der NaturwissenschaftenDiscipline : Statistiqueprésentée et soutenue publiquementparKarin SAHMERle 30 octobre 2006Propriétés et extensions de la classification de variablesautour de composantes latentes. Application en évaluationsensorielle.Eigenschaften und Erweiterungen der Methode CLV zumClustern von Variablen. Anwendungen in der Sensometrie.Jury / Prüfungskommission :Jacques BENASSENI, professeur, Université Rennes II(Président / Vorsitzender)Pierre CAZES, professeur, Université Paris Dauphine(Rapporteur / Gutachter)El Mostafa QANNARI, professeur, ENITIAA / INRA Nantes(Rapporteur / Gutachter)Joachim KUNERT, professeur, Universität Dortmund(Directeur de thèse et rapporteur / Betreuer und Gutachter)Michel CARBON, professeur, Université Rennes II(Directeur de thèse / Betreuer)Claus WEIHS, professeur, Universität DortmundTable des matièresZusammenfassung ivRemerciements ixNotation x1 Introduction 12 Analyse en composantes principales et analyse en facteurs 32.1 L’analyse en composantes pr . . . . . . . . . . . . . . . . . . 32.2 L’analyse en facteurs communs et spécifiques . . . . . . . . . . . . . . 42.3 Comparaison de l’ACP et l’AFCS . . . . . . . . . . . . . . . . . . . .

Sujets

Informations

Publié par
Publié le 01 janvier 2006
Nombre de lectures 16

Extrait

N
Université Rennes II Haute Bretagne Laboratoire de Statistique
oattribué par la bibliothèque :
Universität Dortmund Fachbereich Statistik
Thèse / Dissertation pour obtenir le grade de
Docteur de l’Université Rennes II Discipline : Statistique
Doktor der Naturwissenschaften
présentée et soutenue publiquement par Karin SAHMER le 30 octobre 2006
Propriétés et extensions de la classification de variables autour de composantes latentes. Application en évaluation sensorielle.
Eigenschaften und Erweiterungen der Methode CLV zum Clustern von Variablen. Anwendungen in der Sensometrie.
Jury / Prüfungskommission :
Jacques BENASSENI, professeur, Université Rennes II (Président / Vorsitzender) Pierre CAZES, professeur, Université Paris Dauphine (Rapporteur / Gutachter) El Mostafa QANNARI, professeur, ENITIAA / INRA Nantes (Rapporteur / Gutachter) Joachim KUNERT, professeur, Universität Dortmund (Directeur de thèse et rapporteur / Betreuer und Gutachter) Michel CARBON, professeur, Université Rennes II (Directeur de thèse / Betreuer) Claus WEIHS, professeur, Universität Dortmund
3 3 4 6
1
. . .
2
. . .
. . .
29 29 30 34
. . .
17 17 17 20 24 25 27
4
. . . . . .
. . . . . .
. . .
. . .
Analyse en composantes principales et analyse en facteurs 2.1 L’analyse en composantes principales . . . . . . . . . . . . . . 2.2 L’analyse en facteurs communs et spécifiques . . . . . . . . . . 2.3 Comparaison de l’ACP et l’AFCS . . . . . . . . . . . . . . . .
. . .
Matrice de variance-covariance théorique 4.1 La classification hiérarchique . . . . . . . . . . . . . . . . . 4.1.1 Le critèreTetΔT. . . . . . . .. . . . . . . . . . 4.1.2 Le critèreTetΔT . . .sous un modèle factoriel . 4.2 L’algorithme de partitionnement . . . . . . . . . . . . . . . 4.2.1 La partition correcte comme partition initiale . . . 4.2.2 Une partition quelconque comme partition initiale .
3
Un modèle factoriel pour les données de profils sensoriels 3.1 Le modèle général . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Profil conventionnel . . . . . . . . . . . . . . . . . . . . . . . 3.3 Profil libre . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
8 8 11 13 14
. . . .
. . . .
. . . .
. . . .
matières
ii
Remerciements
Zusammenfassung
Table
des
iv
1
Introduction
Notation
5
Matrice de variance-covariance empirique ˆ 5.1 Espérance mathématique du critèreT. . . ˆ 5.2 Espérance mathématique du critèreΔT. . 5.3 Simulations . . . . . . . . . . . . . . . . .
ix
x
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
. . .
9
Bibliographie
Valeurs propres d’une matrice partitionnée
A
8
Conclusion
et
perspectives
DES
MATIÈRES
TABLE
iii
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
de
étude
Illustration des méthodes :
cas
. . . . .
. . . . .
38 38 39 39 41 45
6
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . .
. . . .
. . . .
. . . .
Comparaison avec d’autres méthodes 6.1 Méthodes . . . . . . . . . . . . . . . 6.2 Simulations . . . . . . . . . . . . . . 6.2.1 Structure des données . . . . 6.2.2 Résultats . . . . . . . . . . . 6.2.3 Conclusion . . . . . . . . . . .
7
Détermination du nombre de groupes 7.1 Méthodes . . . . . . . . . . . . . . . . . . . . . 7.1.1 Procédure de permutations . . . . . . . . 7.1.2Cluster tendencyetcluster validity tests 7.2 Comparaison par simulations . . . . . . . . . .
. . . .
. . . .
. . . .
47 47 47 51 52
. . . .
. . . .
. . . .
. . . .
. . . .
61
56
I
63
Zusammenfassung
Clustermethoden bieten eine Möglichkeit, Einblick in die Struktur von Daten zu gewinnen. Normalerweise dienen sie dazu, Gruppen von Beobachtungen zu bilden. In der Regel basieren sie auf der Analyse einer Distanzmatrix, zum Beispiel der euklidischen Distanz zwischen den Beobachtungen. Wenn sehr viele Variablen erhoben werden, kann es aber auch Ziel sein, Gruppen von Variablen zu bilden. Dies ist zum Beispiel der Fall in der sensorischen Profilprüfung, bei der verschiedene Produkte gemäß unterschiedlicher sensorischer Deskriptoren von mehreren Prüfpersonen beurteilt werden. Um eine umfassende sensorische Beschrei-bung der Produkte zu gewährleisten, sind zunächst möglichst viele Deskriptoren in die Studie einzubeziehen. Ein Clustern der Deskriptoren kann anschließend genutzt werden, um die Anzahl der Deskriptoren in zukünftigen Studien zu re-duzieren, indem aus jeder Gruppe nur ein oder zwei Deskriptoren verwendet werden.
Für das Clustern von Variablen ist es möglich, eine Distanz zwischen Variablen zu definieren und anschließend das Clustern anhand der resultierenden Distanzma-trix mit denselben Methoden wie beim Clustern von Beobachtungen durchzuführen. Es gibt aber auch Methoden, die direkt zum Clustern von Variablen entwickelt wurden. Zu nennen ist hier die Prozedur Varclus des Programmpaketes SAS. Als Alternative bietet sich die Methode CLV an, die von Vigneau und Qannari [22] und Vigneau et al. [23] entwickelt wurde. Die vorliegende Arbeit beinhaltet eine statistische Analyse der Methode CLV, um diese Methode besser zu verstehen, ihre Leistungsfähigkeit zu beurteilen und sie mit anderen Methoden zum Clustern von Variablen zu vergleichen.
Die Methode CLV verbindet ein agglomeratives hierarchisches Clustern mit ei-nem partitionierenden Algorithmus. Seienx1, . . . , xpdiepzu clusternden Variablen. Wir bezeichnen mitx(k)sich aus den Variablen zusammensetzt, dieden Vektor, der zur GruppeG(k)gehören, und mitΣ(k)die Kovarianzmatrix dieser Variablen. In jeder GruppeG(k),k= 1, . . . , K(wobeiKdie Anzahl der Gruppen bezeichnet), wird eine latente Variablec(k)definiert, die eine Linearkombinationd(k)0x(k)der Variablen dieser Gruppe ist. Es wird die Maximierung des Kriteriums K K T(K)=X XCov2xj, c(k)=Xd(k)0Σ(k)2d(k) k=1jG(k)k=1
iv
ZUSAMMENFASSUNG
unter der Nebenbedingung Varc(k)=d(k)0Σ(k)d(k)= 1
v
an e rebt ingjesdterGr.uFpüpreeailnseVgeekgtoerbedn(ke)trgarPuomirtizdenGö(1s)s,t.e.n. ,EiGg(eKn)trwiewrdλ(1Tk()Kv)nmaoΣx(ik)örienmrgee,htewnned Eigenvektor gewählt wird. Es ergibt sich
K T(K)=Xλ1. (k) k=1
Wenn zwei GruppenG(k)undG(l)vereinigt werden, verkleinert sich das Krite-riumTum (l) (G(k)G(l)) ΔT=λ(1k)+λ1λ1, wobeiλ1(G(k)G(l))der grösste Eigenwert der neu gebildeten Gruppe ist. Zu Beginn des Algorithmus bildet jede Variable eine eigene Gruppe. In jedem Schritt werden die beiden Gruppen vereinigt, die das kleinsteΔTerzeugen, bis schließlich alle Variablen in einer einzigen Gruppe zusammengefasst sind. Vigneau und Qannari [22] schlagen vor, die Entwicklung des KriteriumsΔTals Entscheidungshilfe für die Anzahl der Gruppen zu nutzen. Die Entscheidung fürKGruppen wird getroffen, wennΔTbeim Übergang vonKaufK1Gruppen bedeutend größer ist als in den vorangegangenen Schritten. Die sich aus dem hierarchischen Clustern ergebende Partition inKGruppen wird schließlich durch einen partitionierenden Algorithmus verbessert. Dieser Algorithmus verläuft in zwei Schritten : 1. Jede Variable wird der Gruppe zugeordnet, mit deren latenter Variable ihre quadrierte Kovarianz am grössten ist. 2. Neuberechnung der latenten Variablen in jeder Gruppe. Diese beiden Schritte werden so lange wiederholt, bis keine Variable mehr die Gruppe wechselt.
Für die Analyse der Methode CLV wird zunächst ein statistisches Modell formuliert. Die Methode CLV steht in enger Beziehung zur Hauptkomponenten-analyse, da die in jeder Gruppe definierte latente Variable proportionell zur ersten Hauptkomponente ist. Dennoch wurde ein faktorenanalytisches Modell bevorzugt, in dem sich jede Variable aus einem durch das Modell erklärten Term und einem Fehlerterm zusammensetzt und die Fehlerterme verschiedener Variablen unabhängig voneinander sind. Es ist möglich, dieses Modell der Analyse der Methode CLV zugrunde zu legen, weil die erste Hauptkomponente und der Faktor miteinander korreliert sind, falls ein faktorenanalytisches Modell mit einem Faktor vorliegt. Das formulierte Modell geht von der Existenz vonKVariablen-Gruppen aus. Die Variablen in jeder Gruppe wiederum folgen einem faktorenanalytischen Modell mit einem Faktor. Die sich aus dem Modell ergebende Kovarianzmatrix lässt sich
ZUSAMMENFASSUNG
schreiben als
wobei
Σ(1) Σ(12)0 Σ= Σ(1.K)0
Σ(12) Σ(2) . . . . . .
(1 . . .ΣK) . . .. ..Σ(K1,K) . Σ(K1,K)0Σ(K)
Σ(k)=b(k)b(k)0+ψ(k)I
vi
und Σ(kl)=φ(kl)b(k)b(l)0. Der Vektorb(k)enthält die Ladungen der Variablen der GruppeG(k)auf den Faktor der Gruppe,ψ(k)ist die Fehlervarianz der Variablen der GruppeG(k), und φ(kl)bezeichnet die Korrelation des Faktors der GruppeG(k)mit dem Faktor der GruppeG(l)wird gezeigt, dass dieses Modell sensorische Profildaten angemessen. Es darstellt, und zwar sowohl bei einer Prüfung mit fest vorgegebenen Deskriptoren als auch beim Free-Choice-Profiling.
Um den hierarchischen Algorithmus unter dem vorgeschlagenen Modell zu ana-lysieren, werden zunächst Gruppen mit unkorrelierten Faktoren (φ(kl)= 0für alle k6=l) betrachtet. Für diesen Fall ergibt sich, dassΔTgleich der Fehlervarianz ist, wenn zwei Teilmengen derselben GruppeG(k)vereinigt werden, also
ΔT=ψ(k).
Wenn zwei verschiedene GruppenG(k)undG(l)vereinigt werden, erhält man
ΔT= min(b(k)0b(k)+ψ(k),b(l)0b(l)+ψ(l)).
Hieraus ergibt sich, dass der Algorithmus zunächst Variablen derselben Gruppe vereinigt und dieKGruppen korrekt bildet, bevor unterschiedliche Gruppen zu-sammengefasst werden. Voraussetzung hierfür ist lediglich, dassψ(k)<b(l)0b(l)+ψ(l) für allek, l= 1, . . . , K.
Auch im Fall korrelierter Faktoren(φ(kl)6= 0)kann das KriteriumΔTmithilfe der Parameter des faktorenanalytischen Modells ausgedrückt werden. Im Spezialfall gleicher Fehlervarianzenψin den verschiedenen Gruppen ergibt sich
ψΔTmin(b(k)0b(k)+ψ,b(l)0b(l)+ψ).
Die Extremwerte dieser Abschätzung entsprechen den oben beschriebenen Er-gebnissen: Die untere Schranke wird angenommen, wenn|φ(kl)|= 1und somit zwei Teilmengen derselben Gruppe vereinigt werden. Die obere Schranke wird
ZUSAMMENFASSUNG
vii
angenommen, wennφ(kl)= 0und damit zwei Gruppen mit unkorrelierten Faktoren zusammengelegt werden.
Die Analyse des partitionierenden Algorithmus unterstreicht die Bedeutung einer geeigneten Initialisierung. Wenn bei Gruppen mit unkorrelierten Faktoren der Algorithmus ausgehend von einer guten Partition gestartet wird, genügt ein einziger Durchlauf, um die korrekte Gruppierung zu finden. Weicht die Anfangs-Partition jedoch zu stark von der wahren Partition ab, wird die korrekte Gruppierung überhaupt nicht gefunden.
Normalerweise ist die Populations-Kovarianzmatrix nicht bekannt. Das Clustern erfolgt basierend auf der empirischen Kovarianzmatrix. Die Werte der Cluster-ˆ ˆ Kriterien werden in diesem Fall mitTundΔTbezeichnet, da es sich um Schätzungen handelt. Zur Untersuchung der Eigenschaften der Methode CLV in ˆ ˆ diesem Fall wird zunächst die Verteilung vonTundΔTbetrachtet. Es stellt sich heraus, dass schon die Bestimmung des Erwartungswertes problematisch ist. ˆ ΔTist ein verzerrter Schätzer vonΔT. Die Verzerrung lässt sich zudem nicht hinreichend genau bestimmen. Unter diesem Gesichtspunkt und weil außerdem die ˆ Realisierungen vonΔTvon allen vorangegangenen Schritten des hierarchischen Algorithmus abhängen, ist es sinnvoller, die Leistungsfähigkeit der Methode CLV anhand einer Simulationsstudie zu untersuchen.
In dieser Simulationsstudie wird die Methode CLV mit anderen Methoden zum Clustern von Variablen verglichen. Es zeigt sich, dass die Leistungsfähigkeit der Methode CLV mit derjenigen von drei weiteren Methoden vergleichbar ist. Dabei handelt es sich um den Ward-Algorithmus auf der Basis von(1r2)als Abstandsmaß (wobeirdie Korrelation zwischen zwei Variablen bezeichnet), des weiteren die Prozedur Varclus des Programmpaketes SAS sowie eine Gruppierung der Variablen basierend auf den Ergebnissen einer Hauptkomponentenanalyse mit Varimax-Rotation. Es ist bemerken, dass bei all diesen Methoden in kleinen Stichproben (wie sie bei sensorischen Analysen häufig sind) nur mittelmäßige Ergebnisse zu erwarten sind.
Abschließend werden zwei Verfahren vorgeschlagen, die eine automatische Bestimmung der Gruppenanzahl erlauben. Diese beiden Verfahren werden mittels einer Simulationsstudie verglichen. Auch hier ist zu beachten, dass die Leistungsfä-higkeit bei kleinen Stichproben nicht zufriedenstellend ist. Aufgrund der Ergebnisse der Simulationsstudien kann man raten, bei sensorischen Profilprüfungen möglichst viele Produkte zu verwenden, falls die Analyse auch zur Auswahl von Deskriptoren für zukünftige Studien dienen soll.
Ein Vorteil der Methode CLV im Vergleich zu anderen Methoden zum Clustern von Variablen besteht in der Möglichkeit, externe Variablen in die Analyse einzube-
ZUSAMMENFASSUNG
viii
ziehen. Nachdem in dieser Arbeit die Gleichwertigkeit der Methode CLV mit bekann-ten Methoden festgestellt wurde, wäre eine sinnvolle Erweiterung eine statistische Analyse der externe Variablen zulassenden Optionen der Methode CLV.
Remerciements
Mes remerciements vont tout d’abord à mes directeurs de thèse de l’université de Rennes 2, le Professeur Michel Carbon, et de l’université de Dortmund, le Professeur Joachim Kunert. Je remercie ensuite l’équipe du laboratoire de sensométrie et de chimiométrie de l’ENITIAA / INRA Nantes qui m’a accueillie. Tout particulière-ment, je remercie les Professeurs El Mostafa Qannari et Evelyne Vigneau pour leur encadrement, et Mohamed Hanafi, Stéphanie Ledauphin et Véronique Cariou pour les multiples échanges et conseils.
ix
Notation
Dans tout le texte, les notations suivantes sont utilisées : p: le nombre de variables. K: le nombre de groupes. G(1), G(2), . . . , G(K): les groupes de variables. p(k): le nombre de variables du groupeG(k). n: le nombre d’individus.
` xj,j= 1, . . . , p: lajemevariable aléatoire. x= (x1, . . . , xp)0: le vecteur aléatoire. x(kj)k= 1 j, . . . , K,= 1, . . . , p(k): laje`mevariable du groupeG(k). x(k)=x1(k), . . . , x(kp(k))0: le vecteur aléatoire des variables du groupeG(k).
X(n×p): la matrice des données observées. xj: laj`emecolonne deX(lesnréalisations dexj). X(k)n×p(k): les colonnes deXqui correspondent aux variables du groupeG(k).
Σ: la matrice de variance-covariance. λ1: la plus grande valeur propre deΣ. Σ(k): la matrice de variance-covariance des variables du groupeG(k). λ1(k): la plus grande valeur propre de la matriceΣ(k). Σ(kl): la matrice des covariances des variables du groupeG(k)avec celles du groupe G(l).
S: la matrice de variance-covariance empirique. l1: la plus grande valeur propre deS. S(k)de variance-covariance empirique des variables du groupe: la matrice G(k). l1(k): la plus grande valeur propre de la matriceS(k). S(kl): la matrice des covariances empiriques des variables du groupeG(k)avec celles du groupeG(l).
Ip(ouIs’il n’y a pas d’ambiguïté sur la dimension deI) : matrice identité. 1p(ou1s’il n’y a pas d’ambiguïté sur la dimension de1) : vecteur formé de 1. 0p(ou0s’il n’y a pas d’ambiguïté sur la dimension de0) : vecteur formé de 0.
x
NOTATION
xi
0p×q(ou0s’il n’y a pas d’ambiguïté sur la dimension de0) : matrice formé de 0.
Paramètres du modèle factoriel : b: le vecteur des saturations. b(k): le vecteur des saturations des variables du groupeG(k). ψ: la variance de l’erreur. ψ(k): la variance de l’erreur des variables du groupeG(k). ξ(k): la variable latente du groupeG(k). φ(kl): la corrélation entreξ(k)etξ(l).
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents
Alternate Text