Contribution à l'étude de quelques mesures du contenu d'information des objets Vers une théorie multicruciale de l'information Gérard Pinson (manuscrit version 1.0) email : pinson.g@wanadoo.fr I / 2
Avant-propos La mesure du contenu d’information d’un message ou d’un objet peut s’effectuer à l’aide de grandeurs définies sous différents angles théoriques : quantité statistique d’information au sens de Shannon, entropie de Von Neumann en théorie quantique, complexités algorithmiques ou complexités de Kolmogorov de chaînes alphabétiques, profondeur logique au sens de Bennet, voire spectre de Fourier en analyse harmonique, etc. L'analyse comparée des quantités d'information statistique, quantique, algorithmiques, montre qu'il est nécessaire de préciser les notions qui sont à la base du concept de contenu d'information, en cherchant à dégager les invariants apparaissant dans les différentes théories mais aussi leurs dissemblances. Le concept de contenu d'information est une notion délicate à manier : de la confrontation entre les différentes théories on peut espérer dégager les caractéristiques et propriétés essentielles de cette notion telle qu'elle apparaît à l'analyse, et peut-être ainsi rejoindre ses caractères principaux tels qu'ils apparaissent à l'expérience. I / 3
Table des matières Liste des symboles Introduction Section 1 INTRODUCTION : CONTENU D'INFORMATION & CONTENU D'IDENTIFICATION 1.1. Analyse ternaire de l'information 1.2. Structure ternaire de ...
Contribution à l'étude dequelques mesures du contenu d'information des objetsVers une théorie multicruciale de l'informationGérard Pinson(manuscrit version 1.0)email : pinson.g@wanadoo.fr
Avant-propos2/ILa mesure du contenu d’information d’un message ou d’un objet peut s’effectuer à l’aide de grandeurs définies sous différents angles théoriques : quantité statistique d’information au sens de Shannon, entropie de Von Neumann en théorie quantique, complexités algorithmiques ou complexités de Kolmogorov de chaînes alphabétiques, profondeur logique au sens de Bennet, voire spectre de Fourier en analyse harmonique, etc. L'analyse comparée des quantités d'information statistique, quantique, algorithmiques, montre qu'il est nécessaire de préciser les notions qui sont à la base du concept de contenu d'information, en cherchant à dégager les invariants apparaissant dans les différentes théories mais aussi leurs dissemblances. Le concept de contenu d'information est une notion délicate à manier : de la confrontation entre les différentes théories on peut espérer dégager les caractéristiques et propriétés essentielles de cette notion telle qu'elle apparaît à l'analyse, et peut-être ainsi rejoindre ses caractères principaux tels qu'ils apparaissent à l'expérience.
Table des matièresListe des symbolesIntroductionSection 1INTRODUCTION : CONTENU D'INFORMATION & CONTENU D'IDENTIFICATION1.1. Analyse ternaire de l'information1.2. Structure ternaire de l'information et sémantique1.3. Information et compressibilité1.4. Résumé : caractéristiques de l'information et des processus informationnels1.5. Conclusion :vers une approche multicruciale du concept d'informationSection 2DÉFINITIONS2.1. Les objets2.2. Les symboles2.2.1. Du symbole au message2.2.2. Source symbolique2.3. Les mots2.4. Les textes2.4.1. La transcription alphabétique des messages en textes2.4.2. Source alphabétique2.4.3. Source lexicale2.4.4. Source faible2.4.5. Source préfixée2.4.6. Transcodage d'une source alphabétique vers une autre2.4.7. Multicrucialité des textes2.4.8. Résumé : classification des sources2.5.Extensions au continu de la théorie de l'information2.6. Conclusion : sources conjointesSection 3SOURCES SYMBOLIQUES CLASSIQUES3.1. Introduction 3.2. Entropie statistique d'une source unique 3.2.1. Approche intuitive3.2.2. Approche axiomatique3.2.3. Calcul approché3.2.4. Propriétés3.3. Entropies statistiques de sources conjointes3.3.1. Information composée 3/I
3.3.2. Information mutuelle3.3.3. Écart entropique3.4. Exemple : structure ternaire et théories de l'information3.4.1. Point de vue du récepteur : analyse statistique du message3.4.2. Point de vue de l'émetteur : construction algorithmique du message3.5. Conclusions3.5.1. Interprétation ensembliste3.5.2. Structure heuristique de la théorie statistique classique3.5.3. Résumé des propriétés de l'entropie discrète3.6. Extension au continu : entropie différentielle3.6.1. Source infinie discrète ou source dénombrable3.6.2. Entropie différentielle d'une source échantillonnée3.6.3. Entropies différentielles de sources échantillonnées conjointes3.6.4. Conclusions3.6.4.1. Quantification3.6.4.2. Résumé des propriétés de l'entropie différentielleSection 4SOURCES SYMBOLIQUES QUANTIQUES4.1. Introduction 4.1.1. Rappel succinct des axiomes de la mécanique quantique4.1.1.1. États4.1.1.2. Observables4.1.1.3. Mesure4.1.1.4. Dynamique4.1.2. Bit quantique4.1.3. Paires corrélées de bits quantiques 4.1.3.1. États quantiques d'une paire corrélée. Base de Bell4.1.3.2. Création d'une paire corrélée4.1.3.3. Exemple : photons corrélés4.2. Entropies quantiques d'une source unique4.2.1. Matrices de densité4.2.2. Entropie de Von Neumann4.2.3. Propriétés de l'entropie de Von Neumann4.2.4. Théorème de Holevo4.3. Sources symboliques quantiques : entropie classique quantique4.3.1. Exemple4.3.2. Structure heuristique de la théorie classique quantique4.4. Sources faibles quantiques : entropie quantique quantique4.4.1. Sources corrélées4.4.2. Entropies de Von Neumann de sources corrélées4.4.3. ExempleI4/
4.5. Conclusion : résumé des propriétés de l'entropie de Von NeumannSection 5SOURCES ALPHABÉTIQUES5.1. Introduction5.1.1. Source alphabétique lexicale5.1.1.1. Description5.1.1.2. Propriétés5.1.2. Source alphabétique préfixée5.1.2.1. Description5.1.2.2. Propriétés5.1.3. Transcodage d'une source lexicale vers une source préfixée : exemples5.2. Complexités algorithmiques des sources alphabétiques5.2.1. Présentation générale et classification5.2.2. Complexité simple d'une source lexicale5.2.2.1. Source unique5.2.2.2. Sources conjointes5.2.3. Complexité uniforme d'une source préfixée5.2.3.1. Source unique5.2.3.2. Sources conjointes5.2.4. Complexité préfixée d'une source lexicale5.2.4.1. Source unique5.2.4.2. Sources conjointes5.2.4.3. Complexité préfixée explicite d'une source lexicale5.2.5. Complexité monotone d'une source préfixée5.3. Extension au continu des complexités préfixées5.4. Résumé 5.4.1. Structure heuristique de la théorie algorithmique5.4.2. Résumé des propriétés des complexités algorithmiques5.5. Conclusion : énumérabilité du message et du contexte 5.5.1. Complexités des processus informationnels5.5.1.1. Problématique générale5.5.1.2. Exemple5.5.2. Trois classes de calculabilitéSection 6SOURCES ÉCHANTILLONNÉES6.1. Introduction : classification élémentaire de quelques formalismes du traitement de l'information6.1.1. Fini dénombrable6.1.1.1. Niveau primaire6.1.1.2. Niveau booléen6.1.2. Infini dénombrable5/I
6.1.2.1. Niveau arithmétique6.1.2.2. Niveau algorithmique6.1.3. Infini non dénombrable6.1.3.1. Niveau harmonique6.1.3.2. Niveau topologique6.1.4. Résumé6.2. Structure algébrique ( C, d, 1,*,.,,=)6.2.1 Restriction du formalisme harmonique au calcul booléen6.2.1.1. Échantillonnage et quantification : discussion préliminaire6.2.1.2. Calculs6.2.2. Extension du calcul booléen au formalisme harmonique6.2.2.1. Signe6.2.2.2. Position6.2.2.3. Précision6.2.3. ConclusionSection 7CONCLUSION GENERALEAnnexe 1 Annexe 2 BibliographieRésumé6/I
Liste des symboles(les notations mathématiques usuelles sont omises)ijkkC).(lmnoq,ps,rstw,vx, y, zA*ABCCCCKCFCGCE)..(Eindice (notamment : index de bibliothèque et d’alphabet)indice (notamment : index de mot)indice (notamment : index de message et de texte)complexité préfixée explicite (complexité de Chaitin)longueur d’une chaîne (i.e. nb de caractères)nombre de symboles dans un message = nombre de mots dans un textenombre de caractères dans un motélément d’un objet dénombrableélément d’un objet non dénombrableprobabilitétomchaîne inverse (l'ordre des caractères dans la chaîne est inversé)etxettomcaractère (variable de lettre) ; variable génériquealphabetvocabulairealphabet binaire {0,1}écriture binaire pondérée des nombres entierssource lexicalecomplexité simplecomplexité uniformecomplexité harmoniquecomplexité du graphe d'une fonction ensemble des nombres complexesémetteurencodageencodagetransformation de Fourier (TF)7/I
FFF1H)A(II(A,B)I(A:B)I(AΤB)IHKKCKKLLMNN+NOI,Ø).(QRRR).(S).(rrU,V XTF discrète (TFD)TFD numérique (FFT)FFT normalisée à 1entropie statistiquequantité (i.e. mesure du contenu) d'information d'un objet Acontenu d'information de AÈBcontenu d'information mutuel de AÇBcontenu d'information conditionnel de AsachantBinformation de Holevosource préfixéecomplexité préfixéecomplexité monotonelongueur moyenne des mots d’un langagelangageapplication de Nvers B* (encodage lexicographique)observable (opérateur de mesure)nombre d’éléments d’une bibliothèqueensemble des entiers naturelsensemble des entiers naturels > 0objet dénombrableobjet non dénombrablevaleurs booléennes 0, 1ensemble de partiesnombre d’éléments d’un alphabetrécepteurensemble des nombres réelsopérateur de rotationrotationsource alphabétiquetranscriptionvecteur dans Rnlettre8/I
Zp∃cdefg∃ m∃ shñjΤqrsirswn:1xñyΤF±ñFΤS∃GLX∃PQ*X±ñYΤ@..ñ|á..|áñ|ensemble des entiers relatifsysbmloedistribution de Diracchaîne videapplicationmessagevariable symboliquevecteur d’étatelgnamatrice de densitématrices de Paulivecteur de spinsuite des n premiers caractères d’une chaîne infiniesigne (variable symbolique)vecteur d’étatmachine de Turing, fonction récursive partiellebase de Bellsource symboliquenombre d’éléments d’un objetbibliothèque symboliquequantité totale d’information dans un messagedictionnairebase de Belleralitnodeocrrseopdnnaecetnercordre lexicographique croissantordre lexicographique décroissantproduit scalaireprojecteurahnîseetonbmersneitres/I9
étiladomeuqigolnoitagénnoitulovnocnoitalérrocleirosnettiudorpegadocnemodalitémarque élémentairepoint fixepeigne de Dirac de pas aconjugaison complexeàØa**ÄÄ&&ñ∃áI / 10
Introduction : résumé généralI / 11De même que l'énergie subit dans les processus physiques divers changements de forme, dans le schéma :objets®symboles®mots®textes-source®textes-codel'information apparaît sous différents états dont il convient d'analyser les transformations. En toute généralité, appelons processus informationnel de telles transformations (dont les processus communicants sont un cas particulier). Et, de même que les processus physiques s'appliquent à des systèmes physiques, convenons d'appeler sourcesles systèmes de traitement de l'information auxquels s'appliquent les processus informationnels.L'expérience montre que la discernabilité est une condition première de l'analyse de l'information, qui est une entité nécessairement "diacritique" [Oswald, 1986] c'est-à-dire distinguable (par un opérateur de disjonction). On considère donc tout d'abord un objetO en tant qu'ensemble fini ou infini dénombrable d'éléments discernables. A chaque élémenot ide l'objet on associe bijectivement un symbole ci. L'ensemble des symboles, discernables par définition, constitue une bibliothèque X = {c1,...,ci,...} avec N = card(X) si la bibliothèque est finie. Une source symbolique S lit ou écrit des suites finies de symbolesappelées messages ou chaînes :ms1 x1...xk...xm ; xkÎX ; sÎX , longueur l(s) = m. Une source alphabétique comprend une source symbolique et un alphabet fini A = {X1,...,XQ} de valence Q ; elle encode chaque symbole en une suite finie de caractères formant un mot :ns = x1...xj...xn ; xjÎA ;s ÎA , longueur l(s) = n,et chaque message en une suite finie de mots formant untexte : t = s1...sk...sm ; tÎvocabulaireA*1UAnn³1Si l'encodage est singulier (c'est-à-dire non injectif : un mot est associé à plus d'un symbole), la source alphabétique sera dite source faible. Sinon, un encodage régulier (i.e. injectif) est ou n'est pas déchiffrable. Dans la négative, la source produit des mots sans délimiteur, équivalents à des suites de nombres qu'il n'est pas possible de distinguer les uns