Méthode des moindres carrés/Note I

Traduction par Joseph Bertrand.
Mallet-Bachelier (p. 113-134).
NOTES.

NOTE I.
EXPOSITION DE LA MÉTHODE DES MOINDRES CARRÉS.
(Extrait du Theoria Motus Corporum cœlestium.)


1.

…… Abordons maintenant une recherche beaucoup plus générale et des plus fécondes dans toute application du calcul aux phénomènes naturels. Soient , , , etc., fonctions des inconnues , , , , etc., et supposons que des observations directes aient donné, pour ces fonctions, les valeurs

En général, le calcul de ces inconnues constituera un problème indéterminé, déterminé ou plus que déterminé, suivant que l’on aura

, ,ou [1].

Nous ne nous occuperons ici que du dernier cas, dans lequel évidemment il ne serait possible d’obtenir une représentation exacte de toutes les observations, que si ces observations n’étaient affectées d’aucune erreur. Mais comme cela n’a jamais lieu dans la nature, on devra regarder comme possible tout système de valeurs des inconnues , , , , etc., desquelles résultent, pour les fonctions , , , des valeurs qui ne surpassent pas les limites des erreurs que l’on peut commettre dans les observations, mais on ne doit pas regarder tous ces systèmes possibles comme jouissant du même degré de probabilité.

Supposons d’abord, dans toutes les observations, un état de choses tel, qu’il n’y ait pas lieu de regarder l’une d’elles comme plus exacte qu’une autre, c’est-à-dire, que l’on doive regarder des erreurs égales dans chacune d’elles comme également probables. La probabilité qu’une erreur soit commise dans l’une des observations sera une fonction de , que nous nommerons . Quoique cette fonction ne puisse être assignée d’une manière précise, on peut du moins affirmer qu’elle doit devenir maximum pour , avoir dans la plupart des cas la même valeur pour des valeurs de égales et de signes contraires, et, enfin, s’évanouir quand on donne à une valeur égale ou supérieure à l’erreur maximum ; doit donc, à proprement parler, être rapportée à la classe des fonctions discontinues, et, si nous nous permettons, pour la facilité du calcul, d’y substituer une fonction analytique, il faudra que cette dernière soit choisie de telle sorte qu’elle tende rapidement vers 0 à partir de deux valeurs de , l’une supérieure, l’autre inférieure à 0, et qu’en dehors de ces deux limites on puisse la considérer comme nulle. Or la probabilité que l’erreur soit comprise entre et une quantité qui en diffère infiniment peu, sera exprimée par , et, par suite, la probabilité que l’erreur est comprise entre et , par

Cette intégrale, prise depuis la plus grande valeur négative de jusqu’à sa plus grande valeur positive, ou plus généralement depuis jusqu’à , devra nécessairement être égale à 1. On aura donc

.

Supposons donc qu’on ait un système déterminé de valeurs des quantités , , , , etc. : la probabilité que l’observation donnera pour la valeur , sera exprimée par , après qu’on aura substitué dans les valeurs , , , , etc. ; de même , , etc., exprimeront les probabilités pour que les observations donnent aux fonctions , , etc., les valeurs , , etc. C’est pourquoi, tant qu’on pourra considérer toutes les observations comme des événements indépendants les uns des autres, le produit

exprimera la probabilité que toutes ces valeurs résulteront en même temps des observations.

2.

De même qu’en se donnant des valeurs quelconques des inconnues, il en résulte, avant toute observation, une probabilité déterminée pour un système de valeurs des fonctions , , , etc., de même, après que l’observation aura donné pour ces fonctions des valeurs déterminées, il en résultera pour chaque système de valeurs des inconnues qui en découleront, une probabilité déterminée : car il est clair qu’on devra considérer comme les plus probables les systèmes qui donnent à l’événement observé la plus grande probabilité. L’appréciation de cette probabilité peut s’obtenir par le théorème suivant :

Si, en adoptant une certaine hypothèse , la probabilité d’un événement déterminé est , mais qu’en adoptant une autre hypothèse , exclusive de la première et ayant à priori la même probabilité, la probabilité du même événement soit  : je dis que lorsque l’événement aura eu lieu, la probabilité que soit la vraie hypothèse sera à la probabilité que soit la vraie hypothèse comme est à .

Pour le démontrer et afin de distinguer toutes les circonstances d’où peut dépendre, soit que l’hypothèse ou , ou toute autre ait lieu, l’arrivée d’un événement ou d’un autre événement, formons un système des cas différents qui peuvent se présenter et que nous regarderons comme également probables à priori (c’est-à-dire tant qu’il y a doute si c’est l’événement ou un autre qui aura lieu). Ces cas peuvent être ainsi distribués :

nombre des cas. hypothèse
propre à ce cas.
événement
qui doit en résulter.
Différent de
Différent de
Différente de et de
Différente de et de Différent de

On aura d’après cela

Or, avant l’arrivée de l’événement, la probabilité de l’hypothèse était

Après l’événement qui exclut cas, parmi ceux qui sont possibles, cette probabilité sera

De même les probabilités de l’hypothèse avant et après l’événement sont respectivement

et

mais, comme on a supposé que les hypothèses et avaient avant l’événement la même probabilité, on aura

d’où résulte immédiatement la vérité du théorème.

Si maintenant on suppose qu’on n’a, pour déterminer les inconnues, que les observations

et que tous les systèmes de valeurs des inconnues étaient également probables avant ces observations, il est visible que la probabilité d’un certain système, après ces observations, sera proportionnelle à . C’est-à-dire que exprimera la probabilité que les valeurs des inconnues soient respectivement comprises dans les limites infiniment voisines et , et , et représentant une quantité indépendante de , , , , etc. ; et l’on aura évidemment

3.

De là résulte naturellement que le système le plus probable des valeurs de , , , , etc., correspondra au maximum de , et se tirera des équations

si l’on pose

, , , et ,

ces équations prendront la forme suivante :

De là résulte qu’on pourra obtenir par l’élimination une solution pleinement déterminée du problème, dès que la nature de la fonction sera connue. Mais comme cette fonction ne peut être définie à priori, abordons la question à un autre point de vue et cherchons une fonction acceptée tacitement comme base, en vertu d’un principe simple et généralement admis. Or on a coutume de regarder comme un axiome l’hypothèse que si une quantité a été obtenue par plusieurs observations immédiates, faites avec le même soin dans des circonstances semblables, la moyenne arithmétique des valeurs observées sera la valeur la plus probable de cette quantité, sinon en toute rigueur, du moins avec une grande approximation, de telle sorte que le plus sûr soit toujours de s’y arrêter. Si donc l’on pose

et

on devra avoir en général

pour toute valeur entière et positive de . Faisant ensuite

on aura généralement

d’où l’on tire facilement que doit être en général une constante . On aura donc

d’où

Or on voit facilement que la constante doit être négative, pour que puisse devenir maximum : posons donc

et comme, d’après un élégant théorème de Laplace, on a

notre fonction deviendra

4.

La fonction que nous venons de trouver ne peut pas exprimer, en toute rigueur, la probabilité des erreurs, puisque les erreurs possibles étant toujours renfermées entre certaines limites, la probabilité d’erreurs plus grandes devrait être toujours nulle, tandis que notre fonction a toujours une valeur finie. Cependant ce défaut, que présenterait également toute autre fonction analytique, n’a aucune importance dans les applications, parce que la valeur de notre fonction décroît si rapidement, pour peu que ait une valeur considérable, qu’on peut, en toute sûreté, la regarder alors comme équivalente à 0. D’ailleurs, la nature de la question ne permettra jamais d’assigner les limites des erreurs avec une rigueur absolue.

Au reste, la constante peut être regardée comme servant de mesure à la précision des observations. Si en effet la probabilité de l’erreur dans un système d’observations est exprimée par

et dans un autre système d’observations plus ou moins exactes que les premières par

la probabilité que dans une observation du premier système l’erreur soit comprise entre les limites et , sera exprimée par

et de même la probabilité que l’erreur d’une observation du second système soit comprise entre les limites et sera exprimée par

or ces intégrales sont manifestement égales lorsqu’on a

Si, par exemple, on a

une erreur double dans le premier système sera commise aussi facilement qu’une erreur simple dans le second, de sorte que les dernières observations, pour nous servir d’une expression consacrée par l’usage, jouissent d’un degré de précision deux fois plus grand.

5.

Voici maintenant quelques conséquences de cette loi. Il est clair qu’il faut, pour que le produit

devienne maximum, que la somme

devienne minimum. Donc le système de valeurs des inconnues , , , , etc., le plus probable correspond au cas où les carrés des différences entre les valeurs observées et les valeurs calculées des fonctions , , , etc., donnent la somme la plus petite possible, pourvu que toutes les observations soient également présumées précises.

Ce principe, qui est de la plus grande utilité dans toutes les applications des mathématiques à la philosophie naturelle, doit être regardé comme un axiome, au même titre que le principe qui nous fait adopter la moyenne arithmétique des valeurs observées d’une même quantité comme la valeur la plus probable de cette quantité.

Le principe s’étend sans peine au cas d’observations d’une précision inégale. Car si les précisions des observations par lesquelles on a trouvé

sont représentées respectivement par , , , etc., c’est-à-dire si l’on suppose que des erreurs réciproquement proportionnelles à ces quantités puissent être commises avec la même facilité, il est clair que cela revient au même que si, par des observations d’une égale précision (représentée par 1), les valeurs des fonctions , , , etc., avaient été trouvées égales à , , , etc. ; c’est pourquoi le système le plus probable de valeurs , , , , etc., sera celui où la somme

c’est-à-dire où la somme des carrés des différences entre

les valeurs observées et calculées, multipliés respectivement par les carrés des nombres qui expriment le degré de précision, devient un minimum. Par là, il n’est pas même nécessaire que les fonctions , , , etc., se rapportent à

des quantités homogènes, mais elles pourront représenter des quantités hétérogènes (par exemple des secondes d’arcs et de temps) ; pourvu que l’on puisse estimer le rapport des erreurs qui, dans chacune de ces grandeurs, peuvent être commises avec la même facilité.

6.

Le principe exposé dans l’article précédent se recommande aussi par cela qu’il réduit le calcul numérique des inconnues à un algorithme très-expéditif, quand les fonctions , , , etc., sont linéaires. Supposons

Posons

alors les équations de l’art. 3, qui déterminent les valeurs des inconnues, seront

si nous supposons les observations également bonnes, cas auquel nous pouvons ramener tous les autres, comme nous l’avons montré dans l’article précédent. On a ainsi autant d’équations linéaires que d’inconnues : on les résoudra par la méthode ordinaire.

^

Voyons maintenant si cette élimination est toujours possible ou si elle peut donner une valeur indéterminée ou impossible. Il résulte de la théorie de l’élimination que le second ou le troisième cas aura lieu si, en laissant de côté une des équations

on peut déduire des équations conservées une équation identique ou contradictoire à celle que l’on a omise, ou, ce qui revient au même, si l’on peut assigner une fonction linéaire

qui soit identiquement nulle ou qui ne contienne aucune des inconnues. Supposons donc que l’on ait

on a l’équation identique

Si l’on suppose qu’en faisant

les fonctions , , , etc., deviennent respectivement

on aura l’équation identique

et, par suite,

d’où résulte

et, par suite,

c’est-à-dire que les fonctions , , , etc., devraient ne pas changer si , , , , etc., reçoivent des accroissements quelconques proportionnels aux nombres , , , , etc. Un pareil cas, dans lequel la détermination des inconnues ne serait pas possible, même si l’on donnait les vraies valeurs des fonctions, n’appartient pas à notre sujet, comme nous en avons averti plus haut.

Au reste, on peut réduire facilement tous les cas à celui où les fonctions , , , etc., sont linéaires. Désignons par , , , , etc., des valeurs approchées des inconnues , , , , etc. (que nous obtiendrons en faisant usage de équations prises parmi les équations

et posons

il est clair que ces nouvelles inconnues seront si petites, que leurs carrés et leurs produits seront négligeables, et que les équations deviendront linéaires par suite des substitutions indiquées. Que si, à la fin du calcul, on trouve contre toute attente que les valeurs de , , , , etc., qu’on en tire soient trop considérables, et qu’il paraisse peu sûr de négliger leurs carrés et leurs produits, on remédiera à cet inconvénient en répétant la même opération (mais en prenant pour , , , , etc., les valeurs corrigées de , , , , etc.).

7.

Tant qu’on n’a qu’une seule inconnue , pour la détermination de laquelle on a trouvé que les fonctions

prenaient respectivement les valeurs

et cela par des observations également exactes, la valeur la plus probable de est

en posant

Pour apprécier le degré de précision qu’on doit attribuer à cette valeur, supposons que la probabilité d’une erreur , commise dans les observations, soit exprimée par

en résultera que la probabilité que la vraie valeur de soit , sera proportionnelle à la fonction

dans laquelle on aura fait

L’exposant de cette fonction peut être réduit à la forme

dans laquelle désigne une quantité indépendante de  : la fonction sera par suite proportionnelle à

On voit que le degré de précision qu’il faut attribuer à la valeur de est le même que si cette valeur avait été trouvée par une observation immédiate dont la précision serait à la précision des observations primitives comme

est à ,

ou comme

est à 1.
8.

Avant de rechercher, dans le cas de plusieurs inconnues, le degré de précision qu’on doit attribuer à chacune d’elles, il importe d’étudier plus attentivement la fonction

que nous désignerons par .

I. Posons

et

il en résulte évidemment

comme on a

on voit que la fonction sera indépendante de . Le coefficient

sera toujours évidemment une quantité positive.

II. De même, posons,

et

on aura

et

Donc la fonction est indépendante à la fois de et de . Ces circonstances n’auraient plus lieu si l’on pouvait avoir

Mais il est clair que se déduit de

en remplaçant dans , , , etc., la quantité par sa valeur tirée de l’équation

 :

donc sera la somme des coefficients de dans , , , etc., après cette substitution. Mais ces coefficients sont tous des carrés et ne peuvent s’évanouir tous à la fois, si ce n’est dans le cas, que nous excluons de nos recherches, où les inconnues seraient indéterminées ; donc doit être positive.

III. Si l’on pose, enfin,

et

on aura

et sera indépendant de , de et de . On prouvera comme plus haut que le coefficient doit être positif. On voit, en effet, facilement que est la somme des coefficients de dans , , , etc., après que les quantités et ont été éliminées de , , , etc., à l’aide des équations

IV. De la même manière en posant

on aura

sera indépendant de , , et , et une quantité positive.

V. S’il y a un plus grand nombre d’inconnues, on continuera de la même manière et l’on aura enfin

expression où , , , , etc., désignent des quantités positives.

VI. On a déjà vu que la probabilité d’un système de valeurs de , , , , etc., était proportionnelle à la fonction  : par conséquent, la valeur de restant indéterminée, la probabilité d’un certain système de valeurs de , , , etc., sera proportionnelle à l’intégrale

qui est égale, d’après le théorème de Laplace, à

et cette probabilité sera proportionnelle à la fonction

De même, si l’on considère de plus comme indéterminé, la probabilité d’un système de valeurs de , , etc., sera proportionnelle à

,

c’est-à-dire à

et, par suite, proportionnelle à . De même si est aussi regardée comme indéterminée, la probabilité d’un système de valeurs déterminées de , etc., sera proportionnelle à , et ainsi de suite. Supposons que le nombre des inconnues se réduise à quatre ; les conclusions seraient les mêmes dans le cas général. La valeur la plus probable de sera

et la probabilité qu’elle différera de de la véritable valeur sera proportionnelle à

d’où nous concluons que mesure la précision relative à cette détermination, en prenant pour unité la précision des observations primitives.

9.

Par la méthode du paragraphe précédent un certain degré de précision a été assigné à la seule inconnue qui, dans le travail de l’élimination, a été gardée la dernière. Pour éviter cet inconvénient, nous allons calculer d’une autre manière.

Des équations

on tire, en les résolvant par rapport à , , , ,

de sorte que , , , , , , sont des quantités déterminées. On aura donc (en restreignant à quatre le nombre des inconnues)

d’où résulte la conséquence suivante : Les valeurs des inconnues , , , , etc., que l’on doit tirer des équations

sont évidemment exprimées par des fonctions linéaires de , , , , etc., savoir :

Cela posé, les valeurs les plus probables de ces inconnues sont respectivement , , , etc. Les degrés de précision qui doivent être attribués à ces déterminations sont respectivement

en prenant pour unité la précision des observations primitives ; car ce que nous avons dit plus haut de l’inconnue (pour laquelle répond à ), s’applique aux autres inconnues par une simple permutation.

10.

Pour éclaircir par un exemple les recherches qui précèdent, supposons que par des observations pour lesquelles une égale précision doit être présumée, on ait trouvé :

mais que, par une observation à laquelle une précision égale à doit être attribuée, on ait trouvé

À cette dernière nous substituerons la suivante,

que nous supposerons provenir d’une observation aussi précise que les premières. De là on tire

et par l’élimination

Les valeurs les plus probables des inconnues seront donc

avec des degrés de précision égaux respectivement à

11.

Le sujet que nous avons traité jusqu’ici donnerait lieu à d’élégantes recherches, auxquelles nous ne nous arrêterons pas, pour ne pas trop nous écarter de notre objet principal. Par la même raison, nous réservons pour une autre occasion l’exposition des artifices qui permettent de réduire le calcul à un algorithme plus expéditif. Qu’on nous permette seulement d’ajouter une seule observation.

Lorsque le nombre des fonctions ou des équations proposées est considérable, le calcul est surtout rendu pénible par cette circonstance, que les coefficients par lesquels on doit multiplier les équations primitives pour obtenir , , , , etc., sont presque toujours des fractions décimales compliquées. Si l’on ne croit pas important dans ce cas de calculer ces produits avec le plus grand soin à l’aide des Tables de logarithmes, il suffira le plus souvent de leur substituer des nombres plus simples qui en diffèrent peu. Il ne peut en résulter d’erreurs notables qu’autant que la précision des inconnues devient moindre que la précision des observations primitives.

12.

Au reste, le principe d’après lequel la somme des carrés des différences entre les quantités observées et les quantités calculées doit être un minimum, peut encore s’établir sans recourir au calcul des probabilités, comme il suit.

Lorsque le nombre des inconnues est égal au nombre des observations, on peut déterminer les premières de manière qu’elles satisfassent aux secondes. Mais lorsque le premier nombre est le plus petit des deux, on ne peut obtenir un accord absolu lorsque les observations ne sont pas douées d’une précision absolue. Il faut donc dans ce cas chercher à établir l’accord le plus satisfaisant, c’est-à-dire à faire en sorte que les différences soient atténuées le plus possible. Mais cette idée a par elle-même quelque chose de vague. En effet, quoiqu’un système de valeurs des inconnues doive être sans aucun doute préféré à un autre système où toutes ces différences seraient respectivement plus grandes, le choix entre deux systèmes dans l’un desquels l’accord serait plus satisfaisant pour quelques-unes des observations, mais moins satisfaisant pour d’autres, est en quelque sorte arbitraire, et l’on peut évidemment proposer plusieurs principes par lesquels la première condition soit remplie. En désignant par , , , etc., les différences entre le calcul et les observations, on satisfera à cette condition, non-seulement si , devient un minimum (ce qui est notre principe), mais encore si , ou , ou généralement une somme de puissances paires, devient un minimum. Mais de tous ces principes le nôtre est le plus simple, tous les autres nous entraînant dans des calculs extrêmement compliqués. Au reste, ce principe, dont nous avons fait usage dès l’année 1793, a été donné dernièrement par Legendre dans ses Nouvelles méthodes pour la détermination des orbites des comètes, Paris, 1806 ; on trouvera dans cet ouvrage plusieurs conséquences que le désir d’abréger nous a fait omettre.

Si l’exposant de la puissance paire dont nous venons de parler était infini, nous serions ramené au système dans lequel les plus grandes erreurs sont moindres que dans tout autre système.

Laplace se sert, pour la résolution d’équations linéaires en nombre plus grand que les inconnues, d’un autre principe, proposé d’abord par Boscovich, savoir, que la somme des valeurs absolues des différences devienne minimum. On peut facilement démontrer que le système des valeurs des inconnues trouvé par ce seul principe doit nécessairement[2] satisfaire à autant d’équations, prises parmi les proposées, qu’il y a d’inconnues, de sorte que les autres équations ne sont employées que pour décider le choix que l’on doit faire.

Si, par exemple, l’équation est du nombre de celles qui ne sont pas satisfaites, le système des valeurs trouvées par le principe en question ne serait pas altéré si au lieu de on avait observé une autre valeur telle, que, étant la valeur calculée, les différences et fussent de même signe. Au reste, Laplace tempère en quelque sorte ce principe en y ajoutant cette nouvelle condition, que la somme des différences, prise avec leurs signes, soit nulle. Il en résulte que le nombre des équations satisfaites est moindre d’une unité que le nombre des inconnues : mais l’observation que nous venons de faire subsiste encore lorsqu’il n’y a que deux inconnues.


  1. Si, dans ce troisième cas, des fonctions , , , etc., pouvaient être regardées comme des fonctions de toutes les autres, le problème deviendrait plus que déterminé relativement à ces fonctions, mais indéterminé relativement à , , , , etc. On ne pourrait pas en déduire les valeurs de ces dernières, même si les valeurs des fonctions , , , etc., étaient d’une exactitude absolue : mais nous excluons ce cas particulier de nos recherches.
  2. Excepté quelques cas spéciaux où il y a indétermination.