Méthode des moindres carrés/Théorie de la combinaison des observations qui expose aux moindres erreurs

Traduction par Joseph Bertrand.
Mallet-Bachelier (p. 1-69).

THÉORIE
DE
LA COMBINAISON DES OBSERVATIONS
QUI EXPOSE AUX MOINDRES ERREURS,
Par Ch.-Frédéric GAUSS.

PREMIÈRE PARTIE,
PRÉSENTÉE À LA SOCIÉTÉ ROYALE DE GOTTINGUE, LE 15 FÉVRIER 1821.


1.

Quelque soin que l’on apporte aux observations qui concernent la mesure des grandeurs physiques, elles sont forcément soumises à des erreurs plus ou moins considérables. Ces erreurs, dans le plus grand nombre des cas, ne sont pas simples, mais découlent à la fois de plusieurs sources distinctes qu’il est bon de distinguer en deux classes.

Certaines causes d’erreurs dépendent, pour chaque observation, de circonstances variables et indépendantes du résultat que l’on obtient : les erreurs qui en proviennent sont nommées irrégulières ou fortuites, et de même que les circonstances qui les produisent, leur valeur n’est pas susceptible d’être soumise au calcul. Telles sont les erreurs qui naissent de l’imperfection de nos organes et toutes celles qui sont dues à des causes extérieures irrégulières, comme, par exemple, les trépidations de l’air qui rendent la vision moins nette ; quelques-unes des erreurs dues à l’imperfection inévitable des meilleurs instruments appartiennent à la même catégorie. Nous citerons, par exemple, la rugosité de la partie intérieure du niveau, le défaut de rigidité absolue, etc.

Il existe, au contraire, d’autres causes qui, dans toutes les observations de même nature, produisent une erreur identique, ou dépendant de circonstances essentiellement liées au résultat de l’observation. Nous appellerons les erreurs de cette catégorie, des erreurs constantes ou régulières.

Il est du reste évident que cette distinction est jusqu’à un certain point relative et dépend du sens plus ou moins large que l’on veut attacher à l’idée d’observations de même nature. Par exemple, si l’on répète indéfiniment la mesure d’un même angle, les erreurs provenant d’une division imparfaite du limbe appartiendront à la classe des erreurs constantes. Si, au contraire, on mesure successivement plusieurs angles différents, les erreurs dues à l’imperfection de la division seront regardées comme fortuites tant que l’on n’aura pas formé la table des erreurs relatives à chaque division.

2.

Nous excluons de nos recherches la considération des erreurs régulières. C’est à l’observateur qu’il appartient de rechercher avec soin les causes qui peuvent produire une erreur constante, pour les écarter s’il est possible, ou tout au moins apprécier leur effet, afin de le corriger sur chaque observation, qui donnera alors le même résultat que si la cause constante n’avait pas existé. Il en est tout autrement des erreurs irrégulières : celles-là, par leur nature, se refusent à tout calcul, et il faut bien les tolérer dans les observations. On peut cependant, par une combinaison habile des résultats, réduire autant que possible leur influence. C’est à cette question importante que sont consacrées les recherches suivantes.

3.

Les erreurs qui, dans des observations de même espèce, proviennent d’une cause simple et déterminée se trouvent renfermées entre certaines limites que l’on pourrait sans aucun doute assigner, si la nature de cette cause était elle-même parfaitement connue. Dans la plupart des cas, toutes les erreurs comprises entre ces limites extrêmes doivent être regardées comme possibles. Une connaissance approfondie de chaque cause apprendrait si toutes ces erreurs ont une facilité égale ou inégale, et, dans le second cas, quelle est la probabilité relative de chacune d’elles. La même remarque s’applique à l’erreur totale qui provient de la réunion de plusieurs erreurs simples. Cette erreur sera, elle aussi, renfermée entre deux limites dont l’une sera la somme des limites supérieures, l’autre celle des limites inférieures, correspondant aux erreurs simples. Toutes les erreurs comprises entre ces limites seront possibles, et chacune pourra résulter, d’une infinité de manières, de valeurs convenables attribuées aux erreurs partielles. On comprend néanmoins, en écartant les difficultés purement analytiques, qu’il y a possibilité d’apprécier la probabilité plus ou moins grande de chaque résultat, si l’on suppose connues les probabilités relatives à chacune des causes simples.

Certaines causes pourtant produisent des erreurs qui ne peuvent pas varier suivant une loi continue, mais qui, au contraire, sont susceptibles d’un nombre fini de valeurs : nous pouvons citer, comme exemple, les erreurs qui proviennent de la division imparfaite des instruments (si toutefois on veut les classer parmi les erreurs fortuites), car le nombre des divisions, dans un instrument donné, est essentiellement fini. Il est clair néanmoins que, si toutes les causes qui concourent à produire l’erreur totale ne sont pas supposées dans ce cas, leur somme formera une série soumise à la loi de continuité, ou, tout au moins, plusieurs séries distinctes, s’il arrive qu’en plaçant par ordre de grandeur toutes les valeurs possibles des erreurs discontinues, la différence entre deux termes consécutifs de la série soit moindre que la différence entre les limites extrêmes des erreurs soumises à la loi de continuité. Dans la pratique, un pareil cas ne se présentera presque jamais ; il supposerait des défauts trop grossiers dans la construction de l’instrument.

4.

Désignons par la notation la facilité relative d’une erreur  : on doit entendre par là, à cause de la continuité des erreurs, que est la probabilité que l’erreur soit comprise entre les limites et . Il n’est pas possible, en général, d’assigner la forme de la fonction , et l’on peut même affirmer que cette fonction ne sera jamais connue dans la pratique. On peut néanmoins établir plusieurs caractères généraux qu’elle doit nécessairement présenter : est évidemment une fonction discontinue ; elle s’annule pour toutes les valeurs de non comprises entre les erreurs extrêmes. Pour toute valeur comprise entre ces limites, la fonction est positive (en excluant le cas indiqué à la fin du paragraphe précédent) ; dans la plupart des cas, les erreurs égales et de signes contraires seront également probables, et l’on aura :

Enfin, comme les petites erreurs sont plus facilement commises que les grandes, sera en général maximum pour et diminuera sans cesse lorsque croîtra.

L’intégrale

exprime la probabilité pour que l’erreur, encore inconnue, tombe entre les limites et . On en conclut que la valeur de cette intégrale prise entre les limites extrêmes des erreurs possibles sera toujours égale à l’unité. Et comme est nulle pour les valeurs non comprises entre ces limites, on peut dire, dans tous les cas, que

.

5.

Considérons l’intégrale

et représentons sa valeur par . Si les causes d’erreur sont telles, qu’il n’y ait aucune raison pour que deux erreurs égales et de signes contraires aient des facilités inégales, on aura

,

et, par suite,

.

Nous en conclurons que, si ne s’évanouit pas et a, par exemple, une valeur positive, il existe nécessairement une cause d’erreur qui produit uniquement des erreurs positives ou qui, tout au moins, les produit plus facilement que les erreurs négatives. Cette quantité , qui est la moyenne de toutes les erreurs possibles, ou encore la valeur moyenne de , peut être désignée commodément sous le nom de partie constante de l’erreur. Du reste, on prouve facilement que la partie constante de l’erreur totale est la somme des parties constantes des erreurs simples qui la composent.

Si la quantité est supposée connue et qu’on la retranche du résultat de chaque observation, en désignant par l’erreur de l’observation ainsi corrigée, et la probabilité correspondante par , on aura

et, par suite,

en sorte que les erreurs des observations corrigées n’ont pas de partie constante. Ce qui, du reste, semble évident à priori.

6.

La valeur de l’intégrale

,

c’est-à-dire la valeur moyenne de , fait connaître l’existence ou la non-existence d’une erreur constante, ainsi que la valeur de cette erreur ; de même l’intégrale

,

c’est-à-dire la valeur moyenne de , paraît très-propre à définir et à mesurer, d’une manière générale, l’incertitude d’un système d’observations ; de telle sorte qu’entre deux systèmes d’observations inégalement précises, on devra regarder comme préférable celui qui donne à l’intégrale

une moindre valeur. Si l’on objecte que cette convention est arbitraire et ne semble pas nécessaire, nous en convenons volontiers. La question qui nous occupe a, dans sa nature même, quelque chose de vague et ne peut être bien précisée que par un principe jusqu’à un certain point arbitraire. La détermination d’une grandeur par l’observation peut se comparer, avec quelque justesse, à un jeu dans lequel il y aurait une perte à craindre et aucun gain à espérer : chaque erreur commise étant assimilée à une perte que l’on fait, la crainte relative à un pareil jeu doit s’exprimer par la perte probable, c’est-à-dire par la somme des produits des diverses pertes possibles par leurs probabilités respectives. Mais quelle perte doit-on assimiler à une erreur déterminée ? C’est ce qui n’est pas clair en soi ; cette détermination dépend en partie de notre volonté. Il est évident, d’abord, que la perte ne doit pas être regardée comme proportionnelle à l’erreur commise ; car, dans cette hypothèse, une erreur positive représentant une perte, l’erreur négative devrait être regardée comme un gain : la grandeur de la perte doit, au contraire, s’évaluer par une fonction de l’erreur dont la valeur soit toujours positive. Parmi le nombre infini de fonctions qui remplissent cette condition, il semble naturel de choisir la plus simple, qui est, sans contredit, le carré de l’erreur, et, de cette manière, nous sommes conduit au principe proposé plus haut.

Laplace a considéré la question d’une manière analogue, mais en adoptant, pour mesure de la perte, l’erreur elle-même prise positivement. Cette hypothèse, si nous ne nous faisons pas illusion, n’est pas moins arbitraire que la nôtre : faut-il, en effet, regarder une erreur double comme plus ou moins regrettable qu’une erreur simple répétée deux fois, et faut-il, par suite, lui assigner une importance double ou plus que double ? C’est une question qui n’est pas claire, et sur laquelle les arguments mathématiques n’ont aucune prise ; chacun doit la résoudre à son gré. On ne peut nier pourtant que l’hypothèse de Laplace ne s’écarte de la loi de continuité et ne soit, par conséquent, moins propre à une étude analytique ; la nôtre, au contraire, se recommande par la généralité et la simplicité de ses conséquences.

7.

Posons, en conservant les notations précédentes,

 :

nous appellerons l’erreur moyenne à craindre ou, simplement, l’erreur moyenne des observations considérées. Nous ne limitons pas, du reste, cette dénomination au résultat immédiat des observations, mais nous l’étendons, au contraire, à toute grandeur qui peut s’en déduire d’une manière quelconque. Il faut bien se garder de confondre cette erreur moyenne avec la moyenne arithmétique des erreurs, dont il est question dans l’art. 5

.

Si nous comparons plusieurs systèmes d’observations ou plusieurs grandeurs résultant d’observations auxquelles on n’accorde pas la même précision, nous regarderons leur poids relatif comme inversement proportionnel à , et leur précision comme inversement proportionnelle à . Afin de pouvoir représenter les poids par des nombres, on devra prendre, pour unité, le poids d’un certain système d’observations arbitrairement choisi.

8.

Si les erreurs des observations ont une partie constante, en la retranchant de chaque résultat obtenu, l’erreur moyenne diminue, le poids et la précision augmentent. En conservant les notations de l’art. 5, et désignant par l’erreur moyenne des observations corrigées, on aura en effet

Si, au lieu de retrancher de chaque observation le nombre , on retranchait un autre nombre , le carré de l’erreur moyenne deviendrait

9.

Soient un coefficient déterminé et la valeur de l’intégrale

,

sera la probabilité que l’erreur d’une certaine observation soit moindre que en valeur absolue ; sera, au contraire, la probabilité que cette erreur surpasse . Si, pour , a la valeur , il y aura probabilités égales pour que l’erreur soit plus petite ou plus grande que  : pourra donc être appelé l’erreur probable. La relation qui existe entre et dépend de la nature de la fonction , qui est inconnue dans la plupart des cas. Il est intéressant d’étudier cette relation dans quelques cas particuliers.

I. Si les limites extrêmes des erreurs possibles sont et , et si, entre ces limites, toutes les erreurs sont également probables, la fonction sera constante entre ces mêmes limites, et, par conséquent, égale à Par suite, on aura

tant que sera inférieur ou égal à ; enfin,

0,8660254,

et la probabilité pour que l’erreur ne surpasse pas l’erreur moyenne est

0,5773503.

II. Si et sont encore les limites des erreurs possibles, si l’on suppose, de plus, que la probabilité de ces mêmes erreurs aille en décroissant à partir de l’erreur 0

comme les termes d’une progression arithmétique, on aura

pour les valeurs de comprises entre 0 et , et

pour les valeurs comprises entre 0 et  : de là on déduit

tant que est compris entre 0 et  ;

tant que est compris entre 0 et 1 ; et, enfin,

0,7174389.

Dans ce cas, la probabilité que l’erreur restera inférieure à l’erreur moyenne sera

0,6498299.

III. Si nous supposons la fonction proportionnelle à [ce qui, en réalité, n’est vrai qu’approximativement[1]], elle devra être égale à

on en conclut

(voir Disquisitiones generales circa seriem infinitam, art. 28, Mémoires de Gottingue, tome II).

Si l’on désigne par la valeur de l’intégrale

,

on aura

.

Le tableau suivant donne quelques valeurs de cette quantité :

0,6744897 0,5000000
0,8416213 0,6000000
1,0000000 0,6826895
1,0364334 0,7000000
1,2815517 0,8000000
1,6448537 0,9000000
2,5758293 0,9900000
3,2918301 0,9990000
3,8905940 0,9999000
1000
10.

Quoique la relation qui lie à dépende de la nature de la fonction , on peut cependant établir quelques résultats généraux, qui s’appliquent à tous les cas dans lesquels cette fonction ne sera pas croissante avec la valeur absolue de la variable  ; alors on aura les théorèmes suivants :

ne dépassera pas toutes les fois que sera inférieur à  ;

ne dépassera pas toutes les fois que surpassera

Lorsque , les deux limites coïncident et ne peut pas être supérieur à

Pour démontrer ce théorème remarquable, représentons par la valeur de l’intégrale

 ;

alors sera la probabilité pour qu’une erreur soit comprise entre et .

Posons

, , ,
on aura
, et  ;

on en conclut, en ayant égard aux hypothèses qui ont été faites, que, depuis jusqu’à , est toujours croissant, ou du moins n’est pas décroissant, et que, par suite, est toujours positif, ou du moins n’est pas négatif. Or nous avons

,
par suite,
 ;

a donc une valeur constamment positive, ou du moins cette expression ne sera jamais négative. Il suit de là que sera toujours positif et moindre que l’unité. Soit la valeur de cette différence pour  ; à cause de , on a

,

d’où l’on conclut

Cela posé, considérons la fonction

,

que nous désignerons par , et posons

 ;

on aura évidemment

Or, puisque croît continuellement (ou du moins ne décroît pas, car c’est ainsi qu’on doit toujours l’entendre) lorsque croît, et que, d’un autre côté, est constant, la différence

sera positive pour toutes les valeurs de plus grandes que , et négative pour les valeurs de plus petites que . On en conclut que la différence est toujours positive, et, par suite, sera certainement plus grand que en valeur absolue, tant que la fonction sera positive, c’est-à-dire depuis jusqu’à . La valeur de l’intégrale

sera donc inférieure à celle de l’intégrale

,

et à fortiori moindre que

,

c’est-à-dire moindre que . Or la première de ces intégrales a pour valeur

 ;
donc
,

désignant, on ne l’a pas oublié, un nombre compris entre 0 et 1.

Si nous considérons comme variable, la fraction

,

aura pour différentielle

cette fraction sera donc continuellement décroissante lorsque croîtra de 0 à 1, et que l’on aura, en outre,  : sa valeur maximum correspondra à et sera égale à , de sorte que, dans ce cas, le coefficient sera certainement inférieur, ou du moins ne sera pas supérieur à . Ce qu’il fallait démontrer.

Lorsqu’au contraire est plus grand que , la valeur de la fonction sera maximum lorsque

,

c’est-à-dire lorsque

,

et cette valeur maximum sera

 ;

par conséquent, dans ce cas, le coefficient n’est pas plus grand que comme nous l’avions annoncé.

Faisons, par exemple,

 ;

alors ne peut pas surpasser , c’est-à-dire que l’erreur probable ne peut pas surpasser 0,8660254 , à laquelle elle devient égale dans le premier cas examiné (art. 9) : on conclut facilement de notre théorème que n’est pas moindre que , tant que est moindre que , et qu’au contraire, il n’est pas inférieur à , lorsque est plus grand que .

11.

L’intégrale

,

se présentant dans plusieurs problèmes que nous aurons à traiter, il ne sera pas inutile de l’évaluer dans quelques cas particuliers.

Posons

.

I. Lorsque

,

pour les valeurs de comprises entre et , on a

.

II. Lorsque

(IIe cas, art. 9), étant encore compris entre et , on a

.

III. Dans le troisième cas, lorsque

on trouvera, d’après les résultats obtenus dans le Mémoire cité plus haut,

.

On peut d’ailleurs démontrer qu’en restant dans les hypothèses admises au paragraphe précédent, le rapport n’est jamais inférieur à

12.

Désignons par , , , etc., les erreurs commises dans des observations de même espèce, et supposons que ces erreurs soient indépendantes les unes des autres. Soit, comme plus haut, la probabilité relative de l’erreur  ; considérons une fonction rationnelle , des variables , , , etc.

L’intégrale multiple

(1)

étendue à toutes les valeurs des variables , , , etc., pour lesquelles la valeur de tombe entre les limites données 0, , représente la probabilité que la valeur de soit comprise entre 0 et . Or cette intégrale est évidemment une fonction de . Représentons sa différentielle par , de sorte que l’intégrale considérée soit égale à

,

et que, par conséquent, représente la probabilité relative d’une valeur quelconque de . pouvant être regardé comme une fonction des variables , , , etc., que nous désignerons par , l’intégrale (1) prendra la forme

doit varier depuis jusqu’à , et les autres variables reçoivent toutes les valeurs pour lesquelles est réelle.

On aura donc

l’intégration, dans laquelle doit être regardé comme une constante, s’étendant à toutes les valeurs des variables , , etc., pour lesquelles prend une valeur réelle.

13.

L’intégration précédente exigerait, il est vrai, la connaissance de la fonction , qui est inconnue dans la plupart des cas. Lors même que cette fonction serait connue, le calcul surpasserait, le plus souvent, les forces de l’analyse. Dès lors il sera impossible d’obtenir la probabilité de chacune des valeurs de  ; mais il en sera autrement si l’on désire seulement la valeur moyenne de , qui sera donnée par l’intégrale

,

étendue à toutes les valeurs possibles de .

Si, par la nature de la fonction, ou à cause des limites imposées à , , , etc., n’est pas susceptible de recevoir toutes les valeurs, on devra supposer que s’annule pour toutes les valeurs que ne peut atteindre, et l’on pourra alors étendre l’intégration de à .

Mais l’intégrale

,

prise entre des limites déterminées , et , est égale à

prise depuis jusqu’à et étendue à toutes les valeurs des variables , , etc., pour lesquelles est réelle. Cette intégrale est égale, par conséquent, à l’intégrale

dans laquelle sera exprimé en fonction de , , , etc., la sommation s’étendant à toutes les valeurs des variables qui laissent compris entre et , D’après cela, l’intégrale

peut se mettre sous la forme

l’intégration s’étendant à toutes les valeurs réelles de , , , c’est-à-dire depuis à , à , etc.

14.

Si la fonction se réduit à une somme de termes de la forme

,

la valeur de l’intégrale

,

étendue à toutes les valeurs de , c’est-à-dire la valeur moyenne de , sera égale à une somme de termes de la forme

c’est-à-dire que la valeur moyenne de est égale à une somme de termes déduits de ceux mêmes qui composent , en y remplaçant , , , etc., par leurs valeurs moyennes. La démonstration de ce théorème important pourrait facilement se déduire d’autres considérations.

15.

Appliquons le théorème précédent au cas où l’on a

désignant le nombre des termes du numérateur.

On trouve tout de suite que la valeur moyenne de est égale à (la lettre ayant toujours la signification de l’art. 7). La véritable valeur de peut être inférieure ou supérieure à sa moyenne, de même que la vraie valeur de peut, dans chaque cas, être inférieure ou supérieure à  ; mais la probabilité pour que la valeur fortuite de ne diffère pas sensiblement de , s’approchera sans cesse de la certitude à mesure que deviendra plus grand. Pour le montrer plus clairement, comme il est impossible de chercher exactement cette probabilité, nous chercherons l’erreur moyenne à craindre en faisant . D’après ce qui a été dit (art. 6), cette erreur sera la racine carrée de la moyenne de la fonction

.

Pour la trouver, il suffit d’observer que la valeur moyenne d’un terme tel que est égale à ( ayant la même signification que dans l’art. 11), et que la valeur moyenne d’un terme tel que est égale à  ; par conséquent, la valeur moyenne de cette fonction sera

.

De là nous concluons que si le nombre des erreurs irrégulières est suffisamment grand, la valeur de sera représentée, avec une grande certitude, par la formule

,

et l’erreur moyenne à craindre dans la détermination du carré de , sera égale à

.

Comme cette dernière formule contient la quantité , si l’on veut seulement se faire une idée du degré de précision de cette détermination, il suffira d’adopter pour la fonction une hypothèse particulière.

Si nous prenons, par exemple, la troisième hypothèse des art. 9 et 11, cette erreur sera égale à . Si on le préfère, on pourra obtenir une valeur approchée de au moyen des erreurs elles-mêmes, à l’aide de la formule

.

On peut affirmer généralement qu’une précision deux fois plus grande dans cette détermination exigera un nombre d’erreurs quadruple, c’est-à-dire que le poids de la détermination est proportionnel au nombre .

On verrait de la même manière que si les erreurs des observations renferment une partie constante, on déduira de leur moyenne arithmétique une valeur de la partie constante, et cette valeur sera d’autant plus approchée que le nombre des erreurs sera plus grand. Dans cette détermination, l’erreur moyenne à craindre sera représentée par , désignant la partie constante, et l’erreur moyenne des observations non corrigées de leur erreur constante. Elle sera représentée simplement par , si représente l’erreur moyenne des observations corrigées de la partie constante (voyez art. 8).

16.

Dans les art. 12 à 15 nous avons supposé que les erreurs , , , etc., appartenaient au même genre d’observations, de sorte que la probabilité de chacune de ces erreurs était représentée par la même fonction. Mais il est évident que les principes généraux exposés dans les articles 12 à 14, peuvent facilement s’appliquer au cas plus général où les probabilités des erreurs , , , etc., sont représentées par des fonctions différentes

c’est-à-dire lorsque ces erreurs appartiennent à des observations qui n’ont pas le même degré de précision. Supposons que désigne l’erreur d’une observation dont l’erreur moyenne à craindre soit  ; , , etc., celles d’autres observations dont les erreurs moyennes à craindre soient respectivement , , etc., : alors la valeur moyenne de la somme

sera
.

Or, si l’on sait, par ailleurs, que les quantités , , , etc., sont respectivement proportionnelles aux nombres, , , , etc., la valeur moyenne de l’expression

sera égale à . Mais si nous adoptons pour la valeur que prendra cette expression, en y substituant les erreurs , , , etc., telles que le hasard les offrira, l’erreur moyenne qui affecte cette détermination sera, d’après l’article précédent,

, , etc., ont la même signification, par rapport à la seconde et à la troisième observation, que par rapport à la première ; et si l’on peut supposer les nombres , , , etc., proportionnels à , , , etc., cette erreur moyenne à craindre sera égale à

 ;

mais cette manière de déterminer une valeur approchée de n’est pas la plus avantageuse.

Considérons l’expression plus générale

,

dont la valeur moyenne sera aussi , quels que soient les coefficients , , etc. L’erreur moyenne à craindre lorsqu’on substitue la valeur à une valeur de , déterminée d’après les erreurs fortuites , , , etc., sera, d’après les principes précédents, donnée par la formule

.

Pour que cette erreur soit la plus petite possible, il faudra poser

Ces valeurs ne pourront pas s’évaluer tant qu’on ne connaîtra pas les rapports , , etc. Dans l’ignorance où l’on est de leur valeur exacte[2], le plus sûr sera de les supposer égaux entre eux (voyez art. 11), et l’on aura alors

c’est-à-dire que les coefficients , , etc., doivent être supposés égaux aux poids relatifs des diverses observations, en prenant pour unité le poids de celle à laquelle correspond l’erreur . Ceci posé, désignons, comme ci-dessus, par le nombre des erreurs proposées ; la valeur moyenne de l’expression

sera égale à , et lorsque nous prendrons, pour la vraie valeur de , la valeur de cette expression déterminée au moyen des erreurs fortuites , , , etc., l’erreur moyenne à craindre sera

et, enfin, s’il est permis de supposer les quantités , , , etc., proportionnelles à , , , etc., cette expression se réduira à

résultat identique à celui que nous avons trouvé dans le cas où les observations sont toutes de même espèce.

17.

Lorsqu’une observation dont la précision n’est pas absolue, fait connaître une certaine quantité liée analytiquement à une grandeur inconnue, le résultat de cette observation peut fournir pour l’inconnue une valeur erronée, mais dans la détermination de laquelle il n’y a rien d’arbitraire qui puisse donner lieu à un choix plus ou moins vraisemblable.

Mais si plusieurs fonctions de la même inconnue sont données par des observations imparfaites, chaque observation fournira une valeur de l’inconnue, et l’on pourra également obtenir des valeurs, par la combinaison de plusieurs observations. Il y a évidemment une infinité de manières d’y parvenir ; le résultat sera soumis, dans tous les cas, à une erreur possible. Selon la combinaison adoptée, l’erreur moyenne à craindre pourra être plus ou moins grande.

La même chose aura lieu si plusieurs quantités observées dépendent à la fois de plusieurs inconnues. Selon que le nombre des observations sera égal au nombre des inconnues, ou plus petit ou plus grand que ce nombre, le problème sera déterminé, ou indéterminé, ou plus que déterminé (du moins en général), et, dans ce troisième cas, les observations pourront être combinées d’une infinité de manières pour fournir les valeurs des inconnues. Parmi ces combinaisons, il faudra choisir les plus avantageuses, c’est-à-dire celles qui fournissent des valeurs pour lesquelles l’erreur moyenne à craindre est la moindre possible. Ce problème est certainement le plus important que présente l’application des mathématiques à la philosophie naturelle.

Nous avons montré, dans la Théorie du Mouvement des Corps célestes, comment on trouve les valeurs les plus probables des inconnues lorsque l’on connaît la loi de probabilité des erreurs des observations, et comme, dans presque tous les cas, cette loi par sa nature reste hypothétique, nous avons appliqué cette théorie à l’hypothèse très-plausible, que la probabilité de l’erreur soit proportionnelle à  ; de là cette méthode que j’ai suivie, surtout dans les calculs astronomiques, et que maintenant la plupart des calculateurs emploient sous le nom de Méthode des moindres carrés.

Dans la suite, Laplace, considérant la question sous un autre point de vue, montra que ce principe est préférable à tous les autres, quelle que soit la loi de probabilité des erreurs, pourvu que le nombre des observations soit très-grand. Mais lorsque ce nombre est restreint, la question est encore intacte ; de sorte que, si l’on rejette notre loi hypothétique, la méthode des moindres carrés serait préférable aux autres, par la seule raison qu’elle conduit à des calculs plus simples.

Nous espérons donc être agréable aux géomètres en démontrant, dans ce Mémoire, que la méthode des moindres carrés fournit les combinaisons les plus avantageuses des observations, non-seulement approximativement, mais encore d’une manière absolue, et cela quelle que soit la loi de probabilité des erreurs et quel que soit le nombre des observations, pourvu que l’on adopte pour l’erreur moyenne, non pas la définition de Laplace, mais celle que nous avons donnée dans les art. 5 et 6.

Il est nécessaire d’avertir ici que, dans les recherches suivantes, il ne sera question que des erreurs fortuites diminuées de leur partie constante. C’est à l’observateur qu’il appartient d’éloigner soigneusement les causes d’erreurs constantes.

Nous réservons pour une autre occasion l’examen du cas où les observations sont affectées d’une erreur constante inconnue, et nous traiterons cette question dans un autre Mémoire.

18.
PROBLÈME.

Soit une fonction donnée des inconnues , , , etc. ; on demande l’erreur moyenne à craindre dans la détermination de la valeur de , lorsque, au lieu des véritables valeurs de , , , etc., on prend les valeurs déduites d’observations indépendantes les unes des autres ; , , , etc., étant les erreurs moyennes qui correspondent à ces diverses observations.

Solution. — Désignons par , , , etc., les erreurs des valeurs observées , , , etc. ; l’erreur qui en résultera, pour la valeur de la fonction , pourra s’exprimer par la fonction linéaire

,

, , , etc., représentent les dérivées , , , etc., lorsqu’on y remplace , , , etc., par leurs vraies valeurs.

Cette valeur de est évidente si l’on suppose les observations assez exactes pour que les carrés et les produits des erreurs soient négligeables. Il résulte de là que la valeur moyenne de est nulle, puisque l’on suppose que les erreurs des observations n’ont plus de partie constante. Or l’erreur moyenne , à craindre dans la valeur de , sera la racine carrée de la valeur moyenne de , c’est-à-dire que sera la valeur moyenne de la somme

mais la valeur moyenne de est , celle de est , etc., enfin les valeurs moyennes des produits sont toutes nulles ; donc on aura

.

Il est bon d’ajouter plusieurs remarques à cette solution.

I. Puisqu’on néglige les puissances des erreurs qui sont supérieures à la première, nous pourrons, dans notre formule, prendre pour , , , etc., les valeurs des coefficients différentiels , etc., déduites des valeurs observées , , , etc. Toutes les fois que est une fonction linéaire, cette substitution est rigoureusement exacte.

II. Si, au lieu des erreurs moyennes, on préfère introduire les poids des observations, supposons que , , , etc., soient les poids respectifs, l’unité étant arbitraire, et le poids de la valeur de  ; on aura

III. Soit une autre fonction de , , , etc. ; posons

L’erreur commise sur , en adoptant pour , , , etc., les résultats fournis par l’observation, sera

et l’erreur moyenne à craindre dans cette détermination sera

Il est évident que les erreurs et ne seront pas indépendantes l’une de l’autre, et que la valeur moyenne du produit ne sera pas nulle comme la valeur moyenne de  ; elle sera égale à

IV. Le problème comprend le cas où les valeurs des quantités , , , etc., ne sont pas données immédiatement par l’observation, mais sont déduites de combinaisons quelconques d’observations directes. Pour que cette extension soit légitime, il faut que les déterminations de ces quantités soient indépendantes, c’est-à-dire qu’elles soient fournies par des observations différentes. Si cette condition d’indépendance n’était pas remplie, la formule qui donne la valeur de ne serait plus exacte. Si, par exemple, une même observation était employée, à la fois, dans la détermination de et dans celle de , les erreurs et ne seraient plus indépendantes, et la valeur moyenne du produit ne serait plus nulle. Si l’on connaît, dans ce cas, la relation qui lie et aux résultats des observations simples dont ils dérivent, on pourra calculer la valeur moyenne du produit , comme il est indiqué dans la remarque III, et dès lors corriger la formule qui donnera .

19.

Soient , , , etc., des fonctions des inconnues , , , etc. ; soient le nombre de ces fonctions, le nombre des inconnues ; supposons que des observations aient donné, immédiatement ou médiatement, , , , etc., pour valeurs des fonctions , , , etc., de manière cependant que ces déterminations soient absolument indépendantes les unes des autres. Si est plus grand que , la recherche des inconnues est un problème indéterminé. Si , chacune des inconnues , , , etc., peut être regardée comme calculée en fonction de , , , etc. ; de sorte que les valeurs des premières peuvent être déduites des valeurs observées de ces dernières, et l’article précédent nous permettra de calculer la précision relative de ces diverses déterminations. Si est plus petit que , chaque inconnue , , , etc., pourra être exprimée d’une infinité de manières, en fonction de , , , etc., et, en général, ces valeurs seront différentes ; elles devraient coïncider si les observations étaient, contrairement à nos hypothèses, d’une exactitude rigoureuse. Il est clair, d’ailleurs, que les diverses combinaisons fournissent des résultats dont la précision sera, en général, différente.

D’ailleurs si, dans le deuxième et le troisième cas, les quantités , , , etc., sont telles que d’entre elles, ou davantage, puissent être regardées comme des fonctions des autres, le problème est plus que déterminé relativement à ces dernières fonctions et indéterminé relativement aux inconnues , , , etc. ; et l’on ne pourrait même pas déterminer ces dernières inconnues, quand bien même les fonctions , , , etc., seraient exactement connues : mais nous excluons ce cas de nos recherches.

Si , , , etc., ne sont pas des fonctions linéaires des inconnues, on pourra toujours leur attribuer cette forme, en remplaçant les inconnues primitives par leur différence avec leurs valeurs approchées, que l’on suppose connues ; les erreurs moyennes à craindre dans les déterminations

étant désignées respectivement par , , , etc., et les poids de ces déterminations, par , , , etc., de telle sorte que

Nous supposerons connus les rapports des erreurs moyennes ainsi que les poids, dont l’un sera pris arbitrairement. Si nous posons enfin

les choses se passeront ensuite comme si des observations immédiates, également précises et dont l’erreur moyenne aurait pour valeur , avaient donné

20.
PROBLÈME.

Désignons par , , , etc., les fonctions linéaires suivantes des indéterminées , , , etc.,

(1)

Parmi tous les systèmes des coefficients , , , etc., qui donnent identiquement

étant indépendant de , , , etc., trouver celui pour lequel est minimum.

Solution. — Posons

(2)

, , seront des fonctions linéaires de , , , et l’on aura

(3)

et de même pour les autres .

Le nombre des quantités , , , etc., est égal au nombre des inconnues , , , etc. ; on pourra donc obtenir, par élimination, une équation de la forme suivante[3],

qui sera satisfaite identiquement lorsqu’on remplacera , , leurs valeurs (3). Par conséquent, si l’on pose

(4)

on aura identiquement

(5)

Cette équation montre que parmi les différents systèmes de coefficients , , , etc., on doit compter le système

On aura d’ailleurs, pour un système quelconque,

et cette équation, étant identique, entraîne les suivantes :

Ajoutons ces équations après les avoir multipliées, respectivement, par , , , etc., nous aurons, en vertu du système (4),

c’est-à-dire

par conséquent, la somme

aura une valeur minimum, lorsque l’on aura

D’ailleurs cette valeur minimum s’obtiendra de la manière suivante.

L’équation (5) montre que l’on a

Multiplions ces équations, respectivement, par , , , etc., et ajoutons ; en ayant égard aux relations (4), on trouvera

.
21.

Lorsque les observations auront donné des équations approximatives

il faudra, pour déterminer l’inconnue , choisir une combinaison de la forme suivante,

telle que l’inconnue acquière un coefficient égal à 1, et que les autres inconnues se trouvent éliminées.

Le poids de cette détermination sera, d’après l’art. 18,

D’après l’article précédent, on obtiendra la détermination la plus convenable, en prenant

alors aura la valeur . On obtiendrait évidemment la même valeur sans connaître les multiplicateurs , , , etc., en effectuant l’élimination sur les équations

le poids de cette détermination sera

et l’erreur moyenne à craindre

Une marche analogue conduirait aux valeurs les plus convenables des autres inconnues , , etc., qui seront celles que l’on obtiendrait en effectuant l’élimination sur les équations

Si nous désignons par la somme

ou, ce qui revient au même,

on aura évidemment

par conséquent, les valeurs des inconnues, déduites de la combinaison la plus convenable, et que nous pouvons appeler les valeurs les plus plausibles, sont précisément celles qui donnent à une valeur minimum. Or représente la différence entre la valeur observée et la valeur calculée ; donc les valeurs les plus plausibles des inconnues sont celles qui rendent minimum la somme des carrés des différences entre les valeurs calculées et observées des quantités , , , etc., ces carrés étant respectivement multipliés par le poids des observations. J’avais établi depuis longtemps ce principe par d’autres considérations (Theoria Motus Corporum cœlestium).

Si l’on veut assigner la précision relative de chacune des déterminations, il faut déduire des équations (3), les valeurs de , , , etc., qui se présenteront sous la forme suivante :

(7)

Les valeurs les plus plausibles des inconnues , , , etc., seront , , , etc. Les poids de ces déterminations seront

et les erreurs moyennes à craindre

pour
pour
pour

ce qui s’accorde avec les résultats obtenus antérieurement (Theoria Motus Corporum cœlestium).

22.

Le cas où il n’y a qu’une seule inconnue est le plus fréquent et le plus simple de tous. On a alors

il sera utile d’en dire quelques mots.

On aura

et, par conséquent,

d’où

Ainsi, si, par plusieurs observations qui n’ont pas la même précision et dont les poids respectifs sont , , , etc., on a trouvé, pour une même quantité, une première valeur , une deuxième , une troisième , etc., la valeur la plus plausible sera

et le poids de cette détermination sera

Si toutes les observations sont également plausibles, la valeur la plus probable sera

c’est-à-dire la moyenne arithmétique entre les valeurs observées ; en prenant pour unité le poids d’une observation isolée, le poids de la moyenne sera .

SECONDE PARTIE,
PRÉSENTÉE LE 2 FÉVRIER 1823, À LA SOCIÉTÉ ROYALE DE GOTTINGUE.


23.

Il reste encore à exposer quelques recherches destinées à étendre et à éclairer la théorie précédente.

Cherchons d’abord si l’élimination qui fournit les variables , , , etc., en fonction de , , , etc., est toujours possible. Puisque le nombre des équations est égal à celui des inconnues, on sait que cette élimination sera possible si , , , etc. sont indépendants les uns des autres ; dans le cas contraire, elle serait impossible.

Supposons, pour un instant, que , , , etc., ne soient pas indépendantes, mais qu’il existe entre ces quantités l’équation identique

 ;

nous en conclurons

Posons

(1)

il viendra

En multipliant les équations (1), respectivement par , , , etc., et ajoutant, il vient

et cette équation entraîne les suivantes :

De là nous concluons, en premier lieu, . En second lieu, les équations (1) montrent que les fonctions , , , etc., sont telles, que leurs valeurs ne changent pas lorsque les variables , , , etc., prennent des accroissements proportionnels à , , , etc. Il en sera évidemment de même des fonctions , , , etc. : or cela ne peut avoir lieu que dans le cas où il serait impossible de déterminer , , , etc., à l’aide des valeurs de , , , etc., lors même que celles-ci seraient exactement connues ; mais alors le problème serait indéterminé par sa nature, et nous exclurons ce cas de nos recherches.

24.

Désignons par , , , etc., des multiplicateurs qui jouent le même rôle relativement à l’inconnue , que les multiplicateurs , , , etc., relativement à l’inconnue , c’est-à-dire tels, que l’on ait

on aura identiquement

Soient , , , etc., les multiplicateurs analogues relatifs à la variable tels, que l’on ait :

et, par suite,

De la même manière que l’on a trouvé (art. 20)

nous trouverons ici

et ainsi de suite.

On aura aussi, comme dans l’art. 20,

Multiplions les valeurs , , , etc. (art. 20), respectivement, par , , , etc., et ajoutons ; nous aurons

c’est-à-dire

En multipliant , , , etc., respectivement, par , , , etc., et ajoutant, on trouvera

donc

On trouverait, de la même manière,

25.

Désignons par , , , etc., les valeurs que prennent les fonctions , , , etc., quand on y remplace , , , etc., par leurs valeurs les plus plausibles, , , , etc., c’est-à-dire posons