Méthode des moindres carrés/Théorie de la combinaison des observations qui expose aux moindres erreurs

Traduction par Joseph Bertrand.
Mallet-Bachelier (p. 1-69).

THÉORIE
DE
LA COMBINAISON DES OBSERVATIONS
QUI EXPOSE AUX MOINDRES ERREURS,
Par Ch.-Frédéric GAUSS.

PREMIÈRE PARTIE,
PRÉSENTÉE À LA SOCIÉTÉ ROYALE DE GOTTINGUE, LE 15 FÉVRIER 1821.


1.

Quelque soin que l’on apporte aux observations qui concernent la mesure des grandeurs physiques, elles sont forcément soumises à des erreurs plus ou moins considérables. Ces erreurs, dans le plus grand nombre des cas, ne sont pas simples, mais découlent à la fois de plusieurs sources distinctes qu’il est bon de distinguer en deux classes.

Certaines causes d’erreurs dépendent, pour chaque observation, de circonstances variables et indépendantes du résultat que l’on obtient : les erreurs qui en proviennent sont nommées irrégulières ou fortuites, et de même que les circonstances qui les produisent, leur valeur n’est pas susceptible d’être soumise au calcul. Telles sont les erreurs qui naissent de l’imperfection de nos organes et toutes celles qui sont dues à des causes extérieures irrégulières, comme, par exemple, les trépidations de l’air qui rendent la vision moins nette ; quelques-unes des erreurs dues à l’imperfection inévitable des meilleurs instruments appartiennent à la même catégorie. Nous citerons, par exemple, la rugosité de la partie intérieure du niveau, le défaut de rigidité absolue, etc.

Il existe, au contraire, d’autres causes qui, dans toutes les observations de même nature, produisent une erreur identique, ou dépendant de circonstances essentiellement liées au résultat de l’observation. Nous appellerons les erreurs de cette catégorie, des erreurs constantes ou régulières.

Il est du reste évident que cette distinction est jusqu’à un certain point relative et dépend du sens plus ou moins large que l’on veut attacher à l’idée d’observations de même nature. Par exemple, si l’on répète indéfiniment la mesure d’un même angle, les erreurs provenant d’une division imparfaite du limbe appartiendront à la classe des erreurs constantes. Si, au contraire, on mesure successivement plusieurs angles différents, les erreurs dues à l’imperfection de la division seront regardées comme fortuites tant que l’on n’aura pas formé la table des erreurs relatives à chaque division.

2.

Nous excluons de nos recherches la considération des erreurs régulières. C’est à l’observateur qu’il appartient de rechercher avec soin les causes qui peuvent produire une erreur constante, pour les écarter s’il est possible, ou tout au moins apprécier leur effet, afin de le corriger sur chaque observation, qui donnera alors le même résultat que si la cause constante n’avait pas existé. Il en est tout autrement des erreurs irrégulières : celles-là, par leur nature, se refusent à tout calcul, et il faut bien les tolérer dans les observations. On peut cependant, par une combinaison habile des résultats, réduire autant que possible leur influence. C’est à cette question importante que sont consacrées les recherches suivantes.

3.

Les erreurs qui, dans des observations de même espèce, proviennent d’une cause simple et déterminée se trouvent renfermées entre certaines limites que l’on pourrait sans aucun doute assigner, si la nature de cette cause était elle-même parfaitement connue. Dans la plupart des cas, toutes les erreurs comprises entre ces limites extrêmes doivent être regardées comme possibles. Une connaissance approfondie de chaque cause apprendrait si toutes ces erreurs ont une facilité égale ou inégale, et, dans le second cas, quelle est la probabilité relative de chacune d’elles. La même remarque s’applique à l’erreur totale qui provient de la réunion de plusieurs erreurs simples. Cette erreur sera, elle aussi, renfermée entre deux limites dont l’une sera la somme des limites supérieures, l’autre celle des limites inférieures, correspondant aux erreurs simples. Toutes les erreurs comprises entre ces limites seront possibles, et chacune pourra résulter, d’une infinité de manières, de valeurs convenables attribuées aux erreurs partielles. On comprend néanmoins, en écartant les difficultés purement analytiques, qu’il y a possibilité d’apprécier la probabilité plus ou moins grande de chaque résultat, si l’on suppose connues les probabilités relatives à chacune des causes simples.

Certaines causes pourtant produisent des erreurs qui ne peuvent pas varier suivant une loi continue, mais qui, au contraire, sont susceptibles d’un nombre fini de valeurs : nous pouvons citer, comme exemple, les erreurs qui proviennent de la division imparfaite des instruments (si toutefois on veut les classer parmi les erreurs fortuites), car le nombre des divisions, dans un instrument donné, est essentiellement fini. Il est clair néanmoins que, si toutes les causes qui concourent à produire l’erreur totale ne sont pas supposées dans ce cas, leur somme formera une série soumise à la loi de continuité, ou, tout au moins, plusieurs séries distinctes, s’il arrive qu’en plaçant par ordre de grandeur toutes les valeurs possibles des erreurs discontinues, la différence entre deux termes consécutifs de la série soit moindre que la différence entre les limites extrêmes des erreurs soumises à la loi de continuité. Dans la pratique, un pareil cas ne se présentera presque jamais ; il supposerait des défauts trop grossiers dans la construction de l’instrument.

4.

Désignons par la notation la facilité relative d’une erreur  : on doit entendre par là, à cause de la continuité des erreurs, que est la probabilité que l’erreur soit comprise entre les limites et . Il n’est pas possible, en général, d’assigner la forme de la fonction , et l’on peut même affirmer que cette fonction ne sera jamais connue dans la pratique. On peut néanmoins établir plusieurs caractères généraux qu’elle doit nécessairement présenter : est évidemment une fonction discontinue ; elle s’annule pour toutes les valeurs de non comprises entre les erreurs extrêmes. Pour toute valeur comprise entre ces limites, la fonction est positive (en excluant le cas indiqué à la fin du paragraphe précédent) ; dans la plupart des cas, les erreurs égales et de signes contraires seront également probables, et l’on aura :

Enfin, comme les petites erreurs sont plus facilement commises que les grandes, sera en général maximum pour et diminuera sans cesse lorsque croîtra.

L’intégrale

exprime la probabilité pour que l’erreur, encore inconnue, tombe entre les limites et . On en conclut que la valeur de cette intégrale prise entre les limites extrêmes des erreurs possibles sera toujours égale à l’unité. Et comme est nulle pour les valeurs non comprises entre ces limites, on peut dire, dans tous les cas, que

.

5.

Considérons l’intégrale

et représentons sa valeur par . Si les causes d’erreur sont telles, qu’il n’y ait aucune raison pour que deux erreurs égales et de signes contraires aient des facilités inégales, on aura

,

et, par suite,

.

Nous en conclurons que, si ne s’évanouit pas et a, par exemple, une valeur positive, il existe nécessairement une cause d’erreur qui produit uniquement des erreurs positives ou qui, tout au moins, les produit plus facilement que les erreurs négatives. Cette quantité , qui est la moyenne de toutes les erreurs possibles, ou encore la valeur moyenne de , peut être désignée commodément sous le nom de partie constante de l’erreur. Du reste, on prouve facilement que la partie constante de l’erreur totale est la somme des parties constantes des erreurs simples qui la composent.

Si la quantité est supposée connue et qu’on la retranche du résultat de chaque observation, en désignant par l’erreur de l’observation ainsi corrigée, et la probabilité correspondante par , on aura

et, par suite,

en sorte que les erreurs des observations corrigées n’ont pas de partie constante. Ce qui, du reste, semble évident à priori.

6.

La valeur de l’intégrale

,

c’est-à-dire la valeur moyenne de , fait connaître l’existence ou la non-existence d’une erreur constante, ainsi que la valeur de cette erreur ; de même l’intégrale

,

c’est-à-dire la valeur moyenne de , paraît très-propre à définir et à mesurer, d’une manière générale, l’incertitude d’un système d’observations ; de telle sorte qu’entre deux systèmes d’observations inégalement précises, on devra regarder comme préférable celui qui donne à l’intégrale

une moindre valeur. Si l’on objecte que cette convention est arbitraire et ne semble pas nécessaire, nous en convenons volontiers. La question qui nous occupe a, dans sa nature même, quelque chose de vague et ne peut être bien précisée que par un principe jusqu’à un certain point arbitraire. La détermination d’une grandeur par l’observation peut se comparer, avec quelque justesse, à un jeu dans lequel il y aurait une perte à craindre et aucun gain à espérer : chaque erreur commise étant assimilée à une perte que l’on fait, la crainte relative à un pareil jeu doit s’exprimer par la perte probable, c’est-à-dire par la somme des produits des diverses pertes possibles par leurs probabilités respectives. Mais quelle perte doit-on assimiler à une erreur déterminée ? C’est ce qui n’est pas clair en soi ; cette détermination dépend en partie de notre volonté. Il est évident, d’abord, que la perte ne doit pas être regardée comme proportionnelle à l’erreur commise ; car, dans cette hypothèse, une erreur positive représentant une perte, l’erreur négative devrait être regardée comme un gain : la grandeur de la perte doit, au contraire, s’évaluer par une fonction de l’erreur dont la valeur soit toujours positive. Parmi le nombre infini de fonctions qui remplissent cette condition, il semble naturel de choisir la plus simple, qui est, sans contredit, le carré de l’erreur, et, de cette manière, nous sommes conduit au principe proposé plus haut.

Laplace a considéré la question d’une manière analogue, mais en adoptant, pour mesure de la perte, l’erreur elle-même prise positivement. Cette hypothèse, si nous ne nous faisons pas illusion, n’est pas moins arbitraire que la nôtre : faut-il, en effet, regarder une erreur double comme plus ou moins regrettable qu’une erreur simple répétée deux fois, et faut-il, par suite, lui assigner une importance double ou plus que double ? C’est une question qui n’est pas claire, et sur laquelle les arguments mathématiques n’ont aucune prise ; chacun doit la résoudre à son gré. On ne peut nier pourtant que l’hypothèse de Laplace ne s’écarte de la loi de continuité et ne soit, par conséquent, moins propre à une étude analytique ; la nôtre, au contraire, se recommande par la généralité et la simplicité de ses conséquences.

7.

Posons, en conservant les notations précédentes,

 :

nous appellerons l’erreur moyenne à craindre ou, simplement, l’erreur moyenne des observations considérées. Nous ne limitons pas, du reste, cette dénomination au résultat immédiat des observations, mais nous l’étendons, au contraire, à toute grandeur qui peut s’en déduire d’une manière quelconque. Il faut bien se garder de confondre cette erreur moyenne avec la moyenne arithmétique des erreurs, dont il est question dans l’art. 5

.

Si nous comparons plusieurs systèmes d’observations ou plusieurs grandeurs résultant d’observations auxquelles on n’accorde pas la même précision, nous regarderons leur poids relatif comme inversement proportionnel à , et leur précision comme inversement proportionnelle à . Afin de pouvoir représenter les poids par des nombres, on devra prendre, pour unité, le poids d’un certain système d’observations arbitrairement choisi.

8.

Si les erreurs des observations ont une partie constante, en la retranchant de chaque résultat obtenu, l’erreur moyenne diminue, le poids et la précision augmentent. En conservant les notations de l’art. 5, et désignant par l’erreur moyenne des observations corrigées, on aura en effet

Si, au lieu de retrancher de chaque observation le nombre , on retranchait un autre nombre , le carré de l’erreur moyenne deviendrait

9.

Soient un coefficient déterminé et la valeur de l’intégrale

,

sera la probabilité que l’erreur d’une certaine observation soit moindre que en valeur absolue ; sera, au contraire, la probabilité que cette erreur surpasse . Si, pour , a la valeur , il y aura probabilités égales pour que l’erreur soit plus petite ou plus grande que  : pourra donc être appelé l’erreur probable. La relation qui existe entre et dépend de la nature de la fonction , qui est inconnue dans la plupart des cas. Il est intéressant d’étudier cette relation dans quelques cas particuliers.

I. Si les limites extrêmes des erreurs possibles sont et , et si, entre ces limites, toutes les erreurs sont également probables, la fonction sera constante entre ces mêmes limites, et, par conséquent, égale à Par suite, on aura

tant que sera inférieur ou égal à ; enfin,

0,8660254,

et la probabilité pour que l’erreur ne surpasse pas l’erreur moyenne est

0,5773503.

II. Si et sont encore les limites des erreurs possibles, si l’on suppose, de plus, que la probabilité de ces mêmes erreurs aille en décroissant à partir de l’erreur 0

comme les termes d’une progression arithmétique, on aura

pour les valeurs de comprises entre 0 et , et

pour les valeurs comprises entre 0 et  : de là on déduit

tant que est compris entre 0 et  ;

tant que est compris entre 0 et 1 ; et, enfin,

0,7174389.

Dans ce cas, la probabilité que l’erreur restera inférieure à l’erreur moyenne sera

0,6498299.

III. Si nous supposons la fonction proportionnelle à [ce qui, en réalité, n’est vrai qu’approximativement[1]], elle devra être égale à

on en conclut

(voir Disquisitiones generales circa seriem infinitam, art. 28, Mémoires de Gottingue, tome II).

Si l’on désigne par la valeur de l’intégrale

,

on aura

.

Le tableau suivant donne quelques valeurs de cette quantité :

0,6744897 0,5000000
0,8416213 0,6000000
1,0000000 0,6826895
1,0364334 0,7000000
1,2815517 0,8000000
1,6448537 0,9000000
2,5758293 0,9900000
3,2918301 0,9990000
3,8905940 0,9999000
1000
10.

Quoique la relation qui lie à dépende de la nature de la fonction , on peut cependant établir quelques résultats généraux, qui s’appliquent à tous les cas dans lesquels cette fonction ne sera pas croissante avec la valeur absolue de la variable  ; alors on aura les théorèmes suivants :

ne dépassera pas toutes les fois que sera inférieur à  ;

ne dépassera pas toutes les fois que surpassera

Lorsque , les deux limites coïncident et ne peut pas être supérieur à

Pour démontrer ce théorème remarquable, représentons par la valeur de l’intégrale

 ;

alors sera la probabilité pour qu’une erreur soit comprise entre et .

Posons

,  ,  ,
on aura
,  et   ;

on en conclut, en ayant égard aux hypothèses qui ont été faites, que, depuis jusqu’à , est toujours croissant, ou du moins n’est pas décroissant, et que, par suite, est toujours positif, ou du moins n’est pas négatif. Or nous avons

,
par suite,
 ;

a donc une valeur constamment positive, ou du moins cette expression ne sera jamais négative. Il suit de là que sera toujours positif et moindre que l’unité. Soit la valeur de cette différence pour  ; à cause de , on a

,

d’où l’on conclut

Cela posé, considérons la fonction

,

que nous désignerons par , et posons

 ;

on aura évidemment

Or, puisque croît continuellement (ou du moins ne décroît pas, car c’est ainsi qu’on doit toujours l’entendre) lorsque croît, et que, d’un autre côté, est constant, la différence

sera positive pour toutes les valeurs de plus grandes que , et négative pour les valeurs de plus petites que . On en conclut que la différence est toujours positive, et, par suite, sera certainement plus grand que en valeur absolue, tant que la fonction sera positive, c’est-à-dire depuis jusqu’à . La valeur de l’intégrale

sera donc inférieure à celle de l’intégrale

,

et à fortiori moindre que

,

c’est-à-dire moindre que . Or la première de ces intégrales a pour valeur

 ;
donc
,

désignant, on ne l’a pas oublié, un nombre compris entre 0 et 1.

Si nous considérons comme variable, la fraction

,

aura pour différentielle

cette fraction sera donc continuellement décroissante lorsque croîtra de 0 à 1, et que l’on aura, en outre,  : sa valeur maximum correspondra à et sera égale à , de sorte que, dans ce cas, le coefficient sera certainement inférieur, ou du moins ne sera pas supérieur à . Ce qu’il fallait démontrer.

Lorsqu’au contraire est plus grand que , la valeur de la fonction sera maximum lorsque

,

c’est-à-dire lorsque

,

et cette valeur maximum sera

 ;

par conséquent, dans ce cas, le coefficient n’est pas plus grand que comme nous l’avions annoncé.

Faisons, par exemple,

 ;

alors ne peut pas surpasser , c’est-à-dire que l’erreur probable ne peut pas surpasser 0,8660254 , à laquelle elle devient égale dans le premier cas examiné (art. 9) : on conclut facilement de notre théorème que n’est pas moindre que , tant que est moindre que , et qu’au contraire, il n’est pas inférieur à , lorsque est plus grand que .

11.

L’intégrale

,

se présentant dans plusieurs problèmes que nous aurons à traiter, il ne sera pas inutile de l’évaluer dans quelques cas particuliers.

Posons

.

I. Lorsque

,

pour les valeurs de comprises entre et , on a

.

II. Lorsque

(IIe cas, art. 9), étant encore compris entre et , on a

.

III. Dans le troisième cas, lorsque

on trouvera, d’après les résultats obtenus dans le Mémoire cité plus haut,

.

On peut d’ailleurs démontrer qu’en restant dans les hypothèses admises au paragraphe précédent, le rapport n’est jamais inférieur à

12.

Désignons par , , , etc., les erreurs commises dans des observations de même espèce, et supposons que ces erreurs soient indépendantes les unes des autres. Soit, comme plus haut, la probabilité relative de l’erreur  ; considérons une fonction rationnelle , des variables , , , etc.

L’intégrale multiple

(1)

étendue à toutes les valeurs des variables , , , etc., pour lesquelles la valeur de tombe entre les limites données 0, , représente la probabilité que la valeur de soit comprise entre 0 et . Or cette intégrale est évidemment une fonction de . Représentons sa différentielle par , de sorte que l’intégrale considérée soit égale à

,

et que, par conséquent, représente la probabilité relative d’une valeur quelconque de . pouvant être regardé comme une fonction des variables , , , etc., que nous désignerons par , l’intégrale (1) prendra la forme

doit varier depuis jusqu’à , et les autres variables reçoivent toutes les valeurs pour lesquelles est réelle.

On aura donc

l’intégration, dans laquelle doit être regardé comme une constante, s’étendant à toutes les valeurs des variables , , etc., pour lesquelles prend une valeur réelle.

13.

L’intégration précédente exigerait, il est vrai, la connaissance de la fonction , qui est inconnue dans la plupart des cas. Lors même que cette fonction serait connue, le calcul surpasserait, le plus souvent, les forces de l’analyse. Dès lors il sera impossible d’obtenir la probabilité de chacune des valeurs de  ; mais il en sera autrement si l’on désire seulement la valeur moyenne de , qui sera donnée par l’intégrale

,

étendue à toutes les valeurs possibles de .

Si, par la nature de la fonction, ou à cause des limites imposées à , , , etc., n’est pas susceptible de recevoir toutes les valeurs, on devra supposer que s’annule pour toutes les valeurs que ne peut atteindre, et l’on pourra alors étendre l’intégration de à .

Mais l’intégrale

,

prise entre des limites déterminées , et , est égale à

prise depuis jusqu’à et étendue à toutes les valeurs des variables , , etc., pour lesquelles est réelle. Cette intégrale est égale, par conséquent, à l’intégrale

dans laquelle sera exprimé en fonction de , , , etc., la sommation s’étendant à toutes les valeurs des variables qui laissent compris entre et , D’après cela, l’intégrale

peut se mettre sous la forme

l’intégration s’étendant à toutes les valeurs réelles de , , , c’est-à-dire depuis à , à , etc.

14.

Si la fonction se réduit à une somme de termes de la forme

,

la valeur de l’intégrale

,

étendue à toutes les valeurs de , c’est-à-dire la valeur moyenne de , sera égale à une somme de termes de la forme

c’est-à-dire que la valeur moyenne de est égale à une somme de termes déduits de ceux mêmes qui composent , en y remplaçant , , , etc., par leurs valeurs moyennes. La démonstration de ce théorème important pourrait facilement se déduire d’autres considérations.

15.

Appliquons le théorème précédent au cas où l’on a

désignant le nombre des termes du numérateur.

On trouve tout de suite que la valeur moyenne de est égale à (la lettre ayant toujours la signification de l’art. 7). La véritable valeur de peut être inférieure ou supérieure à sa moyenne, de même que la vraie valeur de peut, dans chaque cas, être inférieure ou supérieure à  ; mais la probabilité pour que la valeur fortuite de ne diffère pas sensiblement de , s’approchera sans cesse de la certitude à mesure que deviendra plus grand. Pour le montrer plus clairement, comme il est impossible de chercher exactement cette probabilité, nous chercherons l’erreur moyenne à craindre en faisant . D’après ce qui a été dit (art. 6), cette erreur sera la racine carrée de la moyenne de la fonction

.

Pour la trouver, il suffit d’observer que la valeur moyenne d’un terme tel que est égale à ( ayant la même signification que dans l’art. 11), et que la valeur moyenne d’un terme tel que est égale à  ; par conséquent, la valeur moyenne de cette fonction sera

.

De là nous concluons que si le nombre des erreurs irrégulières est suffisamment grand, la valeur de sera représentée, avec une grande certitude, par la formule

,

et l’erreur moyenne à craindre dans la détermination du carré de , sera égale à

.

Comme cette dernière formule contient la quantité , si l’on veut seulement se faire une idée du degré de précision de cette détermination, il suffira d’adopter pour la fonction une hypothèse particulière.

Si nous prenons, par exemple, la troisième hypothèse des art. 9 et 11, cette erreur sera égale à . Si on le préfère, on pourra obtenir une valeur approchée de au moyen des erreurs elles-mêmes, à l’aide de la formule

.

On peut affirmer généralement qu’une précision deux fois plus grande dans cette détermination exigera un nombre d’erreurs quadruple, c’est-à-dire que le poids de la détermination est proportionnel au nombre .

On verrait de la même manière que si les erreurs des observations renferment une partie constante, on déduira de leur moyenne arithmétique une valeur de la partie constante, et cette valeur sera d’autant plus approchée que le nombre des erreurs sera plus grand. Dans cette détermination, l’erreur moyenne à craindre sera représentée par , désignant la partie constante, et l’erreur moyenne des observations non corrigées de leur erreur constante. Elle sera représentée simplement par , si représente l’erreur moyenne des observations corrigées de la partie constante (voyez art. 8).

16.

Dans les art. 12 à 15 nous avons supposé que les erreurs , , , etc., appartenaient au même genre d’observations, de sorte que la probabilité de chacune de ces erreurs était représentée par la même fonction. Mais il est évident que les principes généraux exposés dans les articles 12 à 14, peuvent facilement s’appliquer au cas plus général où les probabilités des erreurs , , , etc., sont représentées par des fonctions différentes

c’est-à-dire lorsque ces erreurs appartiennent à des observations qui n’ont pas le même degré de précision. Supposons que désigne l’erreur d’une observation dont l’erreur moyenne à craindre soit  ; , , etc., celles d’autres observations dont les erreurs moyennes à craindre soient respectivement , , etc., : alors la valeur moyenne de la somme

sera
.

Or, si l’on sait, par ailleurs, que les quantités , , , etc., sont respectivement proportionnelles aux nombres, , , , etc., la valeur moyenne de l’expression

sera égale à . Mais si nous adoptons pour la valeur que prendra cette expression, en y substituant les erreurs , , , etc., telles que le hasard les offrira, l’erreur moyenne qui affecte cette détermination sera, d’après l’article précédent,

, , etc., ont la même signification, par rapport à la seconde et à la troisième observation, que par rapport à la première ; et si l’on peut supposer les nombres , , , etc., proportionnels à , , , etc., cette erreur moyenne à craindre sera égale à

 ;

mais cette manière de déterminer une valeur approchée de n’est pas la plus avantageuse.

Considérons l’expression plus générale

,

dont la valeur moyenne sera aussi , quels que soient les coefficients , , etc. L’erreur moyenne à craindre lorsqu’on substitue la valeur à une valeur de , déterminée d’après les erreurs fortuites , , , etc., sera, d’après les principes précédents, donnée par la formule

.

Pour que cette erreur soit la plus petite possible, il faudra poser

Ces valeurs ne pourront pas s’évaluer tant qu’on ne connaîtra pas les rapports , , etc. Dans l’ignorance où l’on est de leur valeur exacte[2], le plus sûr sera de les supposer égaux entre eux (voyez art. 11), et l’on aura alors

c’est-à-dire que les coefficients , , etc., doivent être supposés égaux aux poids relatifs des diverses observations, en prenant pour unité le poids de celle à laquelle correspond l’erreur . Ceci posé, désignons, comme ci-dessus, par le nombre des erreurs proposées ; la valeur moyenne de l’expression

sera égale à , et lorsque nous prendrons, pour la vraie valeur de , la valeur de cette expression déterminée au moyen des erreurs fortuites , , , etc., l’erreur moyenne à craindre sera

et, enfin, s’il est permis de supposer les quantités , , , etc., proportionnelles à , , , etc., cette expression se réduira à

résultat identique à celui que nous avons trouvé dans le cas où les observations sont toutes de même espèce.

17.

Lorsqu’une observation dont la précision n’est pas absolue, fait connaître une certaine quantité liée analytiquement à une grandeur inconnue, le résultat de cette observation peut fournir pour l’inconnue une valeur erronée, mais dans la détermination de laquelle il n’y a rien d’arbitraire qui puisse donner lieu à un choix plus ou moins vraisemblable.

Mais si plusieurs fonctions de la même inconnue sont données par des observations imparfaites, chaque observation fournira une valeur de l’inconnue, et l’on pourra également obtenir des valeurs, par la combinaison de plusieurs observations. Il y a évidemment une infinité de manières d’y parvenir ; le résultat sera soumis, dans tous les cas, à une erreur possible. Selon la combinaison adoptée, l’erreur moyenne à craindre pourra être plus ou moins grande.

La même chose aura lieu si plusieurs quantités observées dépendent à la fois de plusieurs inconnues. Selon que le nombre des observations sera égal au nombre des inconnues, ou plus petit ou plus grand que ce nombre, le problème sera déterminé, ou indéterminé, ou plus que déterminé (du moins en général), et, dans ce troisième cas, les observations pourront être combinées d’une infinité de manières pour fournir les valeurs des inconnues. Parmi ces combinaisons, il faudra choisir les plus avantageuses, c’est-à-dire celles qui fournissent des valeurs pour lesquelles l’erreur moyenne à craindre est la moindre possible. Ce problème est certainement le plus important que présente l’application des mathématiques à la philosophie naturelle.

Nous avons montré, dans la Théorie du Mouvement des Corps célestes, comment on trouve les valeurs les plus probables des inconnues lorsque l’on connaît la loi de probabilité des erreurs des observations, et comme, dans presque tous les cas, cette loi par sa nature reste hypothétique, nous avons appliqué cette théorie à l’hypothèse très-plausible, que la probabilité de l’erreur soit proportionnelle à  ; de là cette méthode que j’ai suivie, surtout dans les calculs astronomiques, et que maintenant la plupart des calculateurs emploient sous le nom de Méthode des moindres carrés.

Dans la suite, Laplace, considérant la question sous un autre point de vue, montra que ce principe est préférable à tous les autres, quelle que soit la loi de probabilité des erreurs, pourvu que le nombre des observations soit très-grand. Mais lorsque ce nombre est restreint, la question est encore intacte ; de sorte que, si l’on rejette notre loi hypothétique, la méthode des moindres carrés serait préférable aux autres, par la seule raison qu’elle conduit à des calculs plus simples.

Nous espérons donc être agréable aux géomètres en démontrant, dans ce Mémoire, que la méthode des moindres carrés fournit les combinaisons les plus avantageuses des observations, non-seulement approximativement, mais encore d’une manière absolue, et cela quelle que soit la loi de probabilité des erreurs et quel que soit le nombre des observations, pourvu que l’on adopte pour l’erreur moyenne, non pas la définition de Laplace, mais celle que nous avons donnée dans les art. 5 et 6.

Il est nécessaire d’avertir ici que, dans les recherches suivantes, il ne sera question que des erreurs fortuites diminuées de leur partie constante. C’est à l’observateur qu’il appartient d’éloigner soigneusement les causes d’erreurs constantes.

Nous réservons pour une autre occasion l’examen du cas où les observations sont affectées d’une erreur constante inconnue, et nous traiterons cette question dans un autre Mémoire.

18.
PROBLÈME.

Soit une fonction donnée des inconnues , , , etc. ; on demande l’erreur moyenne à craindre dans la détermination de la valeur de , lorsque, au lieu des véritables valeurs de , , , etc., on prend les valeurs déduites d’observations indépendantes les unes des autres ; , , , etc., étant les erreurs moyennes qui correspondent à ces diverses observations.

Solution. — Désignons par , , , etc., les erreurs des valeurs observées , , , etc. ; l’erreur qui en résultera, pour la valeur de la fonction , pourra s’exprimer par la fonction linéaire

,

, , , etc., représentent les dérivées , , , etc., lorsqu’on y remplace , , , etc., par leurs vraies valeurs.

Cette valeur de est évidente si l’on suppose les observations assez exactes pour que les carrés et les produits des erreurs soient négligeables. Il résulte de là que la valeur moyenne de est nulle, puisque l’on suppose que les erreurs des observations n’ont plus de partie constante. Or l’erreur moyenne , à craindre dans la valeur de , sera la racine carrée de la valeur moyenne de , c’est-à-dire que sera la valeur moyenne de la somme

mais la valeur moyenne de est , celle de est , etc., enfin les valeurs moyennes des produits sont toutes nulles ; donc on aura

.

Il est bon d’ajouter plusieurs remarques à cette solution.

I. Puisqu’on néglige les puissances des erreurs qui sont supérieures à la première, nous pourrons, dans notre formule, prendre pour , , , etc., les valeurs des coefficients différentiels , etc., déduites des valeurs observées , , , etc. Toutes les fois que est une fonction linéaire, cette substitution est rigoureusement exacte.

II. Si, au lieu des erreurs moyennes, on préfère introduire les poids des observations, supposons que , , , etc., soient les poids respectifs, l’unité étant arbitraire, et le poids de la valeur de  ; on aura

III. Soit une autre fonction de , , , etc. ; posons

L’erreur commise sur , en adoptant pour , , , etc., les résultats fournis par l’observation, sera

et l’erreur moyenne à craindre dans cette détermination sera

Il est évident que les erreurs et ne seront pas indépendantes l’une de l’autre, et que la valeur moyenne du produit ne sera pas nulle comme la valeur moyenne de  ; elle sera égale à

IV. Le problème comprend le cas où les valeurs des quantités , , , etc., ne sont pas données immédiatement par l’observation, mais sont déduites de combinaisons quelconques d’observations directes. Pour que cette extension soit légitime, il faut que les déterminations de ces quantités soient indépendantes, c’est-à-dire qu’elles soient fournies par des observations différentes. Si cette condition d’indépendance n’était pas remplie, la formule qui donne la valeur de ne serait plus exacte. Si, par exemple, une même observation était employée, à la fois, dans la détermination de et dans celle de , les erreurs et ne seraient plus indépendantes, et la valeur moyenne du produit ne serait plus nulle. Si l’on connaît, dans ce cas, la relation qui lie et aux résultats des observations simples dont ils dérivent, on pourra calculer la valeur moyenne du produit , comme il est indiqué dans la remarque III, et dès lors corriger la formule qui donnera .

19.

Soient , , , etc., des fonctions des inconnues , , , etc. ; soient le nombre de ces fonctions, le nombre des inconnues ; supposons que des observations aient donné, immédiatement ou médiatement, , , , etc., pour valeurs des fonctions , , , etc., de manière cependant que ces déterminations soient absolument indépendantes les unes des autres. Si est plus grand que , la recherche des inconnues est un problème indéterminé. Si , chacune des inconnues , , , etc., peut être regardée comme calculée en fonction de , , , etc. ; de sorte que les valeurs des premières peuvent être déduites des valeurs observées de ces dernières, et l’article précédent nous permettra de calculer la précision relative de ces diverses déterminations. Si est plus petit que , chaque inconnue , , , etc., pourra être exprimée d’une infinité de manières, en fonction de , , , etc., et, en général, ces valeurs seront différentes ; elles devraient coïncider si les observations étaient, contrairement à nos hypothèses, d’une exactitude rigoureuse. Il est clair, d’ailleurs, que les diverses combinaisons fournissent des résultats dont la précision sera, en général, différente.

D’ailleurs si, dans le deuxième et le troisième cas, les quantités , , , etc., sont telles que d’entre elles, ou davantage, puissent être regardées comme des fonctions des autres, le problème est plus que déterminé relativement à ces dernières fonctions et indéterminé relativement aux inconnues , , , etc. ; et l’on ne pourrait même pas déterminer ces dernières inconnues, quand bien même les fonctions , , , etc., seraient exactement connues : mais nous excluons ce cas de nos recherches.

Si , , , etc., ne sont pas des fonctions linéaires des inconnues, on pourra toujours leur attribuer cette forme, en remplaçant les inconnues primitives par leur différence avec leurs valeurs approchées, que l’on suppose connues ; les erreurs moyennes à craindre dans les déterminations

étant désignées respectivement par , , , etc., et les poids de ces déterminations, par , , , etc., de telle sorte que

Nous supposerons connus les rapports des erreurs moyennes ainsi que les poids, dont l’un sera pris arbitrairement. Si nous posons enfin

les choses se passeront ensuite comme si des observations immédiates, également précises et dont l’erreur moyenne aurait pour valeur , avaient donné

20.
PROBLÈME.

Désignons par , , , etc., les fonctions linéaires suivantes des indéterminées , , , etc.,

(1)

Parmi tous les systèmes des coefficients , , , etc., qui donnent identiquement

étant indépendant de , , , etc., trouver celui pour lequel est minimum.

Solution. — Posons

(2)

, , seront des fonctions linéaires de , , , et l’on aura

(3)

et de même pour les autres .

Le nombre des quantités , , , etc., est égal au nombre des inconnues , , , etc. ; on pourra donc obtenir, par élimination, une équation de la forme suivante[3],

qui sera satisfaite identiquement lorsqu’on remplacera , , leurs valeurs (3). Par conséquent, si l’on pose

(4)

on aura identiquement

(5)

Cette équation montre que parmi les différents systèmes de coefficients , , , etc., on doit compter le système

On aura d’ailleurs, pour un système quelconque,

et cette équation, étant identique, entraîne les suivantes :

Ajoutons ces équations après les avoir multipliées, respectivement, par , , , etc., nous aurons, en vertu du système (4),

c’est-à-dire

par conséquent, la somme

aura une valeur minimum, lorsque l’on aura

D’ailleurs cette valeur minimum s’obtiendra de la manière suivante.

L’équation (5) montre que l’on a

Multiplions ces équations, respectivement, par , , , etc., et ajoutons ; en ayant égard aux relations (4), on trouvera

.
21.

Lorsque les observations auront donné des équations approximatives

il faudra, pour déterminer l’inconnue , choisir une combinaison de la forme suivante,

telle que l’inconnue acquière un coefficient égal à 1, et que les autres inconnues se trouvent éliminées.

Le poids de cette détermination sera, d’après l’art. 18,

D’après l’article précédent, on obtiendra la détermination la plus convenable, en prenant

alors aura la valeur . On obtiendrait évidemment la même valeur sans connaître les multiplicateurs , , , etc., en effectuant l’élimination sur les équations

le poids de cette détermination sera

et l’erreur moyenne à craindre

Une marche analogue conduirait aux valeurs les plus convenables des autres inconnues , , etc., qui seront celles que l’on obtiendrait en effectuant l’élimination sur les équations

Si nous désignons par la somme

ou, ce qui revient au même,

on aura évidemment

par conséquent, les valeurs des inconnues, déduites de la combinaison la plus convenable, et que nous pouvons appeler les valeurs les plus plausibles, sont précisément celles qui donnent à une valeur minimum. Or représente la différence entre la valeur observée et la valeur calculée ; donc les valeurs les plus plausibles des inconnues sont celles qui rendent minimum la somme des carrés des différences entre les valeurs calculées et observées des quantités , , , etc., ces carrés étant respectivement multipliés par le poids des observations. J’avais établi depuis longtemps ce principe par d’autres considérations (Theoria Motus Corporum cœlestium).

Si l’on veut assigner la précision relative de chacune des déterminations, il faut déduire des équations (3), les valeurs de , , , etc., qui se présenteront sous la forme suivante :

(7)

Les valeurs les plus plausibles des inconnues , , , etc., seront , , , etc. Les poids de ces déterminations seront

et les erreurs moyennes à craindre

pour
pour
pour

ce qui s’accorde avec les résultats obtenus antérieurement (Theoria Motus Corporum cœlestium).

22.

Le cas où il n’y a qu’une seule inconnue est le plus fréquent et le plus simple de tous. On a alors

il sera utile d’en dire quelques mots.

On aura

et, par conséquent,

d’où

Ainsi, si, par plusieurs observations qui n’ont pas la même précision et dont les poids respectifs sont , , , etc., on a trouvé, pour une même quantité, une première valeur , une deuxième , une troisième , etc., la valeur la plus plausible sera

et le poids de cette détermination sera

Si toutes les observations sont également plausibles, la valeur la plus probable sera

c’est-à-dire la moyenne arithmétique entre les valeurs observées ; en prenant pour unité le poids d’une observation isolée, le poids de la moyenne sera .

SECONDE PARTIE,
PRÉSENTÉE LE 2 FÉVRIER 1823, À LA SOCIÉTÉ ROYALE DE GOTTINGUE.


23.

Il reste encore à exposer quelques recherches destinées à étendre et à éclairer la théorie précédente.

Cherchons d’abord si l’élimination qui fournit les variables , , , etc., en fonction de , , , etc., est toujours possible. Puisque le nombre des équations est égal à celui des inconnues, on sait que cette élimination sera possible si , , , etc. sont indépendants les uns des autres ; dans le cas contraire, elle serait impossible.

Supposons, pour un instant, que , , , etc., ne soient pas indépendantes, mais qu’il existe entre ces quantités l’équation identique

 ;

nous en conclurons

Posons

(1)

il viendra

En multipliant les équations (1), respectivement par , , , etc., et ajoutant, il vient

et cette équation entraîne les suivantes :

De là nous concluons, en premier lieu, . En second lieu, les équations (1) montrent que les fonctions , , , etc., sont telles, que leurs valeurs ne changent pas lorsque les variables , , , etc., prennent des accroissements proportionnels à , , , etc. Il en sera évidemment de même des fonctions , , , etc. : or cela ne peut avoir lieu que dans le cas où il serait impossible de déterminer , , , etc., à l’aide des valeurs de , , , etc., lors même que celles-ci seraient exactement connues ; mais alors le problème serait indéterminé par sa nature, et nous exclurons ce cas de nos recherches.

24.

Désignons par , , , etc., des multiplicateurs qui jouent le même rôle relativement à l’inconnue , que les multiplicateurs , , , etc., relativement à l’inconnue , c’est-à-dire tels, que l’on ait

on aura identiquement

Soient , , , etc., les multiplicateurs analogues relatifs à la variable tels, que l’on ait :

et, par suite,

De la même manière que l’on a trouvé (art. 20)

nous trouverons ici

et ainsi de suite.

On aura aussi, comme dans l’art. 20,

Multiplions les valeurs , , , etc. (art. 20), respectivement, par , , , etc., et ajoutons ; nous aurons

c’est-à-dire

En multipliant , , , etc., respectivement, par , , , etc., et ajoutant, on trouvera

donc

On trouverait, de la même manière,

25.

Désignons par , , , etc., les valeurs que prennent les fonctions , , , etc., quand on y remplace , , , etc., par leurs valeurs les plus plausibles, , , , etc., c’est-à-dire posons

Si nous faisons

de telle sorte que soit la valeur de la fonction , qui répond aux valeurs les plus plausibles des variables ; sera (art. 20) la valeur minimum de .

Par suite,

sera la valeur que prend , lorsque

Cette valeur est nulle, d’après la manière même dont , , , etc., ont été obtenus. On aura donc

on obtiendrait de même

et

Enfin, en multipliant les valeurs de , , , etc., respectivement, par , , , et ajoutant, il viendra

c’est-à-dire

26.

Remplaçons, dans l’équation

, , , etc., par les expressions (7) [art. 21], on trouvera, en employant des réductions faciles,

Multipliant respectivement, ou ces équations ou les équations (1) de l’art. 20, par , , , etc., et ajoutant ensuite, on obtient l’identité

27.

La fonction peut se présenter sous plusieurs formes qu’il est important d’indiquer.

Élevons au carré les équations (1) [art. 20], et ajoutons-les membre à membre, nous trouverons

c’est la première forme.

Multiplions les mêmes équations, respectivement, par , , , etc., et ajoutons, on aura

remplaçons , , , etc., par les valeurs indiquées dans l’article précédent, nous trouverons

ou

c’est la seconde forme.

Enfin, remplaçons, dans cette seconde forme, , , , etc. par les expressions (7) [art. 21], nous obtenons la troisième forme :

On peut donner une quatrième forme qui résulte évidemment de la troisième et des formules des articles précédents,

c’est-à-dire

Sous cette dernière forme on voit clairement que est la valeur minimum de .

28.

Soient , , , etc., les erreurs commises dans les observations qui ont donné

Les vraies valeurs des fonctions , , , etc., seront alors

et les vraies valeurs de , , , etc., seront respectivement

par conséquent, la véritable valeur de sera

et l’erreur commise dans la détermination la plus convenable de l’inconnue sera, en la désignant par ,

De même, l’erreur commise dans la détermination la plus convenable de la valeur de sera

La valeur moyenne du carré sera

La valeur moyenne de sera de même

comme nous l’avons déjà reconnu. On peut également assigner la valeur moyenne du produit , qui sera

On énonce ces résultats plus brièvement de la manière suivante :

Les valeurs moyennes des carrés , , etc., sont respectivement égales aux produits de par les quotients différentiels partiels du second ordre

et la valeur moyenne d’un produit tel que est le produit de par , en regardant comme fonction de , , , etc.

29.

Soit une fonction donnée et linéaire des quantités , , , etc., par exemple,

la valeur de déduite des valeurs les plus plausibles de , , , etc., sera

nous la désignerons par . En désignant par l’erreur commise en l’adoptant, on aura

la valeur moyenne de cette erreur sera évidemment nulle, c’est-à-dire que l’erreur ne contiendra pas de partie constante, mais la valeur moyenne de , c’est-à-dire de la somme

sera, d’après l’article précédent, égale au produit de par la somme

c’est-à-dire au produit de par la valeur de la fonction , lorsqu’on y fait

Désignons par cette valeur de  ; l’erreur moyenne à craindre, lorsque l’on prend , sera et le poids de cette détermination sera .

Puisque l’on a identiquement

sera égal à la valeur de l’expression

[qui représente ], dans laquelle on remplacera , , , etc., par les valeurs correspondantes à , , , etc.

Enfin, observant que , exprimé en fonction des quantités , , , etc., aura pour partie constante, si l’on suppose

on aura

30.

Nous avons vu que la fonction acquiert son minimum absolu , lorsque l’on y fait

ou, ce qui revient au même,

Si l’on attribue à l’une des inconnues une autre valeur ; que l’on fasse, par exemple,

les autres inconnues restant variables, pourra acquérir une valeur minimum relative, qui s’obtiendra à l’aide des équations

et, par suite,

or, puisque

on en conclut

On trouvera de même

La valeur minimum relative de sera

Nous en conclurons, réciproquement, que si ne doit pas surpasser , la valeur de est nécessairement comprise entre les limites et . Il est important de remarquer que devient égal à l’erreur moyenne à craindre dans la valeur la plus plausible de , si l’on pose

c’est-à-dire si est l’erreur moyenne d’observations telles, que leur poids soit l’unité.

Plus généralement, cherchons la plus petite valeur de la fonction qui puisse correspondre à une valeur donnée de , désignant, comme dans l’article précédent, l’expression linéaire

dont la valeur la plus plausible est  ; désignons par la valeur donnée de . D’après la théorie des maximum et minimum, la solution du problème sera donnée par les équations

ou

désignant un multiplicateur encore indéterminé.

Si, comme dans l’article précédent, nous posons identiquement,

nous aurons

d’où

ayant la même signification que dans l’article précédent.

Puisque est nue fonction homogène du second degré, par rapport aux variables , , , etc., sa valeur pour

sera évidemment

et, par conséquent, la valeur minimum de , lorsque

sera

Réciproquement, si doit rester inférieure à une valeur donnée , la valeur de sera nécessairement comprise entre les limites , , et sera l’erreur moyenne à craindre dans la valeur la plus plausible de , si représente l’erreur moyenne d’observations dont le poids serait l’unité.

31.

Lorsque le nombre des inconnues , , , etc., est un peu grand, la détermination des valeurs numériques de , , , etc., par l’élimination ordinaire, est assez pénible. C’est pourquoi nous avons indiqué, dans la Théorie du Mouvement des Corps célestes, et développé plus tard, dans le Mémoire sur les éléments de l’orbite de Pallas (Commentaires de Gottingue, t. I), une méthode qui simplifie ce travail autant que possible.

La fonction doit être ramenée à la forme suivante :

où les diviseurs , , , , etc., sont des quantités déterminées ; , , , etc., sont des fonctions linéaires de , , , etc., telles que la seconde ne contient pas , la troisième ne contient ni ni , la quatrième ne contient ni , ni , ni , et ainsi de suite, de sorte que la dernière ne contient que la dernière des inconnues , , , etc. ; enfin les coefficients de , , , etc., dans , , , etc., sont respectivement égaux , , , etc. Alors on pose

et l’on aura très-facilement les valeurs de , , , etc., en résolvant ces équations et commençant par la dernière. Je ne crois pas nécessaire de répéter de nouveau l’algorithme qui conduit à cette transformation de la fonction [4].

Mais l’élimination qu’il faut effectuer pour trouver les poids de ces déterminations exige des calculs bien plus longs encore. Nous avons montré, dans la Théorie du Mouvement des Corps célestes, que le poids de la détermination de la dernière inconnue, qui entre seule dans , est égal au dernier terme de la série des diviseurs , , , etc. Cette recherche est facile ; aussi plusieurs calculateurs, voulant éviter une élimination pénible, ont eu l’idée, faute d’autre méthode, de répéter la transformation indiquée en considérant successivement chaque inconnue comme la dernière. J’espère donc que les géomètres me sauront gré d’indiquer, pour calculer les poids des déterminations, une méthode nouvelle qui ne me semble plus rien laisser à désirer sur ce point.

32.

Posons

(1)

on aura identiquement

d’où nous déduirons :

(2)

Les valeurs de , , , etc., déduites de ces équations, se présenteront sous la forme suivante :

(3)

De la différentielle complète de l’équation

retranchons l’équation

il viendra

Cette expression doit être identique avec celle que l’on obtient à l’aide des équations (3), c’est-à-dire

on aura donc

(4)

En substituant dans ces expressions, les valeurs de , , , etc., tirées des équations (3), on aura effectué l’élimination. Pour déterminer les poids, nous aurons

(5)

La simplicité de ces formules ne laisse rien à désirer. On trouverait des formules également simples pour exprimer les autres coefficients , , , etc. ; mais, comme leur usage est moins fréquent, nous nous dispenserons de les exposer.

33.

L’importance du sujet nous a engagé à tout préparer pour le calcul et à former les expressions explicites des coefficients , , , , , etc.

Ce calcul peut être abordé de deux manières : la première consiste à reporter, dans les équations (2), les valeurs de , , , etc., déduites du système (3), qui doivent rendre ces équations identiques ; et la seconde à exprimer, au contraire, que le système (2) devient identique lorsqu’on y substitue les valeurs de , , , déduites du système (3).

La première méthode conduit aux formules suivantes :

Ces formules feront connaître , , , etc.

On aura ensuite,

qui donneront , , etc. ; puis

qui feront connaître , etc. ; et ainsi de suite.

La seconde méthode donne le système suivant :

d’où l’on tire  ;

d’où l’on tire et  ;

d’où l’on déduira , ,  ; et ainsi de suite.

Les deux systèmes de formules offrent des avantages à peu près égaux, lorsque l’on veut les poids des déterminations de toutes les inconnues , , , etc. ; mais lorsqu’on ne cherche qu’une seule des quantités , , , etc., le premier système est bien préférable.

D’ailleurs, la combinaison des équations (1) et (4) conduit aux mêmes formules, et fournit, en outre, un second moyen d’obtenir les valeurs les plus plausibles , , , etc., qui sont

L’autre calcul est identique avec le calcul ordinaire dans lequel on suppose

34.

Les résultats obtenus dans l’art. 32 ne sont que des cas particuliers d’un théorème plus général qui peut s’énoncer de la manière suivante :

ThéorèmeSi représente la fonction linéaire suivante des inconnues , , , etc.,

dont l’expression en fonction des variables , , , etc., soit

sera la valeur la plus plausible de , et le poids de cette détermination sera

Démonstration. — La première partie du théorème est évidente, puisque la valeur la plus plausible de doit correspondre aux valeurs

.

Pour démontrer la seconde partie, remarquons que l’on a

et par conséquent, lorsque

on a

quelles que soient les différentielles , , , etc. Il suit de là qu’en supposant toujours,

on aura

Or on voit facilement que si les différentielles , , , etc., sont indépendantes les unes des autres, il en sera de même pour , , , etc., nous aurons, par conséquent, pour

Par conséquent, la valeur de correspondant aux mêmes hypothèses, sera

ce qui, d’après l’art. 29, démontre l’exactitude de notre théorème.

Si d’ailleurs on désire effectuer la transformation de la fonction , sans avoir recours aux formules (4) (art. 32), on a immédiatement les relations

qui permettront de déterminer , , , etc., et nous aurons enfin

35.

Nous traiterons particulièrement le problème suivant, tant à cause de son utilité pratique, que de la simplicité de la solution :

Trouver les changements que les valeurs les plus plausibles des inconnues subissent par l’adjonction d’une nouvelle équation, et assigner les poids de ces nouvelles déterminations.

Conservons les notations précédentes. Les équations primitives, réduites à avoir pour poids l’unité, seront

on aura

, , , etc., seront les dérivées partielles

et enfin on aura, par l’élimination,

(1)

Supposons maintenant que l’on ait une nouvelle équation approximative,

dont nous supposerons le poids égal à l’unité. Cherchons les changements que subiront les valeurs les plus plausibles , , , etc., et celles des coefficients , , etc.

Posons

et soit

le résultat de l’élimination.

Soit enfin,

qui deviendra, en ayant égard aux équations (1),

et posons

sera évidemment la valeur la plus plausible de la fonction , telle qu’elle résulte des équations primitives, sans avoir égard à la valeur 0 fournie par la nouvelle observation, et sera le poids de cette détermination.

Or nous avons

et, par suite,

d’où l’on déduit

On a, en outre,

Nous déduirons de là,

qui sera la valeur la plus plausible de , déduites de toutes les observations.

On aura aussi

par conséquent,

sera le poids de cette détermination.

On trouvera de la même manière, pour valeur la plus plausible de , déduite de toutes les observations,

le poids de cette détermination sera

et ainsi de suite.

Le problème est donc résolu.

Ajoutons quelques remarques.

I. En substituant les nouvelles valeurs , , , etc., la fonction obtiendra la valeur la plus plausible

et, puisque l’on a, identiquement,

le poids de cette détermination sera (art. 29)

Ces résultats pourraient se déduire immédiatement des règles exposées à la fin de l’art. 21. L’ensemble des équations primitives avait, en effet, fourni la détermination , dont le poids était , une observation nouvelle donne une autre détermination , indépendante de la première, ayant pour poids l’unité ; leur combinaison donnera la détermination

qui aura pour poids

II. On conclut de ce qui précède que, pour

on devra avoir

et, par suite,

Puisque d’ailleurs

on devra avoir, pour ces mêmes valeurs,

et

III. En comparant ces résultats avec ceux de l’article 30, nous voyons ici que la fonction a la plus petite valeur qu’elle puisse obtenir lorsqu’on s’impose la condition

36.

Nous donnerons seulement ici la solution du problème suivant, qui a beaucoup d’analogie avec le précédent ; mais nous nous abstiendrons d’indiquer la démonstration, à laquelle le lecteur suppléera facilement en s’aidant de ce qui précède.

Trouver les changements des valeurs les plus plausibles des inconnues et les poids des déterminations nouvelles, lorsque l’on change le poids de l’une des observations primitives.

Supposons qu’après avoir achevé le calcul on vienne à remarquer qu’on a attribué à une observation, à la première par exemple qui a donné , un poids trop fort ou trop faible, et qu’il serait plus exact de lui attribuer le poids , au lieu du poids  : il ne sera pas nécessaire de recommencer le calcul, mais il sera plus commode de former les corrections à l’aide des formules suivantes.

Les valeurs les plus plausibles des inconnues deviendront

les poids de ces déterminations s’obtiendront en divisant l’unité, respectivement, par

Cette solution convient au cas où, après avoir achevé le calcul, il faudrait rejeter tout à fait l’une des observations, puisque cela revient à faire  ; de même, conviendra au cas où l’équation , qui dans le calcul avait été regardée comme approchée, serait rigoureusement exacte.

Si, après le calcul terminé, plusieurs équations nouvelles venaient s’adjoindre aux proposées, ou si les poids attribués à plusieurs d’entre elles étaient erronés, le calcul des corrections deviendrait trop compliqué, et il serait préférable de tout recommencer.

37.

Nous avons donné, dans les art. 15 et 16, une méthode pour déterminer, approximativement, la précision d’un système d’observations[5] ; mais cette méthode suppose connues exactement les erreurs réelles que l’on a effectivement rencontrées dans une suite nombreuse d’observations ; or cette condition n’est remplie que bien rarement, pour ne pas dire jamais.

Si les quantités dont l’observation fournit les valeurs approchées dépendent, suivant une loi donnée, d’une ou de plusieurs inconnues, on pourra trouver, par la méthode des moindres carrés, les valeurs les plus plausibles de ces inconnues ; si, dès lors, on calcule les valeurs correspondantes des grandeurs observées, ces dernières pourront être regardées comme différant peu des véritables : de sorte que leurs différences avec les valeurs observées, représenteront les erreurs commises avec une certitude d’autant plus grande, que les observations seront plus nombreuses. Telle est la marche suivie dans la pratique par les calculateurs, qui ont essayé, dans des cas compliqués, d’évaluer à posteriori la précision des observations. Quoique suffisante dans bien des cas, cette méthode est, théoriquement, inexacte et pourrait quelquefois conduire à de graves erreurs ; c’est pourquoi il est très-important de traiter la question avec plus de soin.

Conservons les notations de l’art. 19. La méthode dont il s’agit consiste à regarder , , , etc., comme les véritables valeurs des inconnues , , , etc., et , , , etc., comme celles des fonctions , , , etc. Si toutes les observations ont une égale précision et que leur poids commun

soit pris pour unité, ces mêmes quantités, changées de signe, représentent, dans cette supposition, les erreurs des observations, et, par conséquent, d’après l’art. 15,

sera l’erreur moyenne des observations. Si les observations n’ont pas la même précision, , , , etc., représenteront les erreurs des observations, respectivement multipliées par les racines carrées des poids, et les règles de l’art. 16 conduiront à la même formule,

qui exprime déjà l’erreur moyenne de ces observations lorsque leur poids est égal à l’unité.

Mais le calcul exact exigerait évidemment que l’on remplaçât , , , etc., par les valeurs de , , , etc., déduites des véritables valeurs des inconnues , , , etc., et la quantité par la valeur correspondante de . Quoiqu’on ne puisse pas assigner cette dernière valeur, nous sommes certains pourtant qu’elle est plus grande que qui est son minimum : elle n’atteindrait cette limite que dans le cas, infiniment peu probable, où les valeurs véritables des inconnues se confondraient avec les plus plausibles. Nous pouvons donc affirmer, en général, que l’erreur moyenne calculée par la pratique ordinaire est plus petite que l’erreur moyenne exacte, et que l’on attribue, par conséquent, aux observations une trop grande précision.

Voyons ce que donne une théorie rigoureuse.

38.

Avant tout, il faut chercher comment la quantité dépend des véritables erreurs des observations. Désignons ces erreurs, comme dans l’art. 28, par , , , etc., et posons, pour plus de simplicité,

et

Soient

les vraies valeurs des inconnues , , , etc., pour lesquelles , , , etc., soient, respectivement, , , , etc. Les valeurs correspondantes de , , , etc., seront évidemment

de sorte qu’on aura

enfin

sera la valeur de la fonction , correspondant aux vraies valeurs des , , , etc.

Puisque l’on a identiquement

ou aura aussi

De là, il résulte évidemment que est une fonction homogène du deuxième degré des erreurs , , , etc. ; cette fonction pour diverses valeurs des erreurs pourra devenir plus ou moins grande. Dans l’ignorance où nous sommes de ces valeurs, il est bon d’examiner attentivement la fonction , et de calculer d’abord sa valeur moyenne d’après les principes du calcul des probabilités. Nous obtiendrons cette valeur moyenne en remplaçant les carrés , , etc., par , , etc., et en omettant les termes en , , etc., dont la valeur moyenne est zéro ; ou, ce qui revient au même, en remplaçant chaque carré , , , , par , et en négligeant , , . D’après cela, le terme fournira  ; le terme donnera

chacune des autres parties donnera également , de sorte que la valeur moyenne totale sera

désignant le nombre des observations, et le nombre des inconnues. La vraie valeur de pourra, suivant les cas que le hasard présentera, être plus grande ou plus petite que cette valeur moyenne, mais la différence sera d’autant moindre que le nombre des observations sera plus grand ; de sorte que

pourra être regardé comme une valeur approchée de  ; par conséquent la valeur de , fournie par la méthode erronée dont nous avons parlé dans l’article précédent, devra être augmentée dans le rapport de à .

39.

Afin de faire voir plus clairement jusqu’à quel point il est permis de regarder la valeur de , fournie par les observations, comme égale à la valeur exacte, il faut chercher quelle est l’erreur moyenne à craindre lorsque l’on fait

Cette erreur moyenne est la racine carrée de la valeur moyenne de la quantité

que nous écrirons ainsi :

et comme la valeur moyenne du second terme est évidemment nulle, la question se réduit à chercher la valeur moyenne de la fonction

Désignons cette valeur moyenne par , l’erreur moyenne cherchée sera

Si l’on développe la fonction , on voit qu’elle est une fonction homogène des erreurs , , , etc., ou, ce qui revient au même, des quantités , , , etc. ; on trouvera donc la valeur moyenne :

1o. En remplaçant les quatrièmes puissances , , , etc., par leurs valeurs moyennes ;

2o. En remplaçant les produits , , etc., par leurs valeurs moyennes, c’est-à-dire par , , etc. ;

3o. En négligeant les produits tels que , , etc.

Nous supposerons (art. 16) les valeurs moyennes de , , , etc., proportionnelles à , , , etc., de sorte que les rapports des unes aux autres soient , désignant la valeur moyenne des quatrièmes puissances des erreurs pour les observations dont le poids serait l’unité.

Les règles précédentes pourraient se traduire de cette autre manière :

Remplacer chaque quatrième puissance , , , etc., par ; chaque produit , , etc., par , et négliger tous les termes, tels que ou , .

Ces principes étant compris, on verra facilement que :

I. La valeur moyenne de est

II. La valeur moyenne du produit est

car

De même, la valeur moyenne de est

la valeur moyenne de est

et ainsi de suite.

Donc la valeur moyenne du produit

ou

sera

Les produits ou , etc., auront la même valeur moyenne ; donc le produit

aura pour valeur moyenne

III. Afin d’abréger les développements qui vont suivre, nous adopterons la notation suivante. Nous attribuerons à la caractéristique un sens plus étendu que nous ne l’avons fait jusqu’ici, en lui faisant désigner la somme des termes semblables, mais non identiques, qui proviennent de toutes les permutations des observations. Nous aurons, d’après cette notation,

Calculant par parties la valeur moyenne du terme , nous aurons d’abord, pour valeur moyenne du produit ,

De même, la valeur moyenne du produit , est

et ainsi de suite.

Par conséquent, la valeur moyenne du produit

sera

Or la valeur moyenne de est

La valeur moyenne de est

et ainsi de suite. D’où l’on conclut facilement que la valeur moyenne du produit

est

Ceci posé, nous aurons pour valeur moyenne du produit ,

IV. On trouvera d’une manière analogue, pour valeur moyenne du produit ,

Or on a

cette valeur moyenne sera donc

V. On trouverait, par un calcul semblable, que la valeur moyenne de est

et ainsi de suite. En additionnant, on obtient la valeur moyenne du produit

cette valeur est

VI. On trouverait de la même manière

pour valeur moyenne du produit

et

pour valeur moyenne du produit

et ainsi de suite.

Nous aurons donc, par l’addition, la valeur moyenne du carré

elle sera

VII. Nous concluons enfin de tous ces préliminaires,

Donc l’erreur moyenne à craindre, lorsqu’on prendra

sera

40.

La quantité

qui entre dans l’expression précédente, ne peut pas généralement se réduire à une forme plus simple. Cependant on peut assigner deux limites entre lesquelles sa valeur doit nécessairement être comprise :

1o. On déduit facilement des relations précédentes,

d’où nous concluons que

est une quantité positive plus petite que l’unité, ou du moins qu’elle n’est pas plus grande. Il en sera de même de la quantité

qui est égale à la somme

de même

sera plus petit que l’unité ; et ainsi de suite. Donc

est nécessairement plus petit que .

2o. On a

car

d’où l’on déduit facilement que

est plus grand, ou du moins n’est pas plus petit, que .

Par conséquent le terme

est nécessairement compris entre les limites

et

ou bien, entre les limites plus étendues,

et

Donc le carré de l’erreur moyenne à craindre pour la valeur

est compris entre les limites

et

de sorte qu’on pourra atteindre un degré de précision aussi grand que l’on voudra, pourvu que le nombre des observations soit suffisamment grand.

Il est très-remarquable que dans l’hypothèse de l’art. 9 (III), sur laquelle nous nous étions autrefois appuyé pour établir la théorie des moindres carrés, le second terme du carré de l’erreur moyenne disparaît complètement (car on a ) ; et comme, pour trouver la valeur approchée , de l’erreur moyenne des observations, il faut, dans tous les cas, traiter la somme

comme si elle était égale à la somme des carrés des erreurs fortuites, il en résulte que, dans cette hypothèse, la précision de cette détermination devient égale à celle que nous avons trouvée, art. 15, pour la détermination déduite de erreurs vraies.



  1. Il faut se reporter, pour comprendre cette remarque, à un chapitre du Theoria Motus Corporum cœlestium, dans lequel M. Gauss montre que cette loi de probabilités est la plus vraisemblable que l’on puisse adopter. À la fin du volume nous reproduisons ce chapitre, dans lequel l’illustre auteur a fait connaître pour la première fois la méthode des moindres carrés. J. B.
  2. On ne conçoit la possibilité de déterminer exactement , , , etc., que dans le seul cas où, par la nature de la fonction , les erreurs , , , etc., proportionnelles à , , , etc., seraient également probables, c’est-à-dire le cas où
    (Note de M. Gauss.)
  3. On verra plus loin la raison qui nous a conduit à désigner les coefficients de cette formule par la notation , , etc. (Note de M. Gauss.)
  4. On trouvera ces calculs dans une Note à la fin du volume. J. B.
  5. Les recherches sur le même sujet insérées par nous (Zeitschrift für Astronomie und verwandte Wissenschaften, vol. I, page 185) sont fondées sur l’hypothèse relative à la probabilité des erreurs à laquelle nous avions été conduit dans la Théorie du Mouvement des Corps célestes. (Note de M. Gauss.)

    On trouvera ce Mémoire à la fin du volume.J. B.