Fre00716 重みつき最小二乗法による回帰直線と検定

#0000 sci4920  9008022226

データ解析中に悩みの種が発生したので,皆様のお知恵を拝借したいと思います。
 
これは,独立変数xには誤差がなく従属変数yに誤差(各測定点のyに対する標
準偏差がわかっています)があるとした場合の,重みつき最小二乗法による直線
回帰をしている時に
 
 回帰係数の検定と信頼区間
 y切片の検定と信頼区間
 回帰係数の差の検定と信頼区間
 y切片の差の検定と信頼区間
 相関係数とその差の検定
 
の式をどうやって導出したらよいのかという問題です。
ほとんどの本には重みつき最小二乗法すら載っていません。
 
By Nori



#0001 sci4920  9008022228

まず,n個のデータの組(xi, yi)に関する重みなし最小二乗法による回帰直線
の式は,y=a+b・x に対して
 
    Σ(xi・yi)−{Σ(xi)・Σ(yi)}/n
b = −−−−−−−−−−−−−−−−−−−−−−− ,
      Σ(xi^2)−[{Σ(xi)}^2/n]
 
   _   _   1
a = y−b・x = −−・{Σ(yi)−b・Σ(xi)}
           n
 
(和は添字の1〜nまでとる)
 
となることが多くの統計の本に載っています。ここで得られた y=a+b・x の
    _ _
式は点(x, y)を通ります。この点は,いわば(xi, yi)の重心です。
 
By Nori



#0002 sci4920  9008022236

次に,yi に誤差 si(ここでは各 yi に対する標準偏差)がある場合では,重
み wi を
 
     1
wi = −−−−
    si^2
 
ととることによって
 
    Σ(wi・xi・yi)−{Σ(wi・xi)・Σ(wi・yi)}/Σ(wi)
b = −−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−− ,
       Σ{wi・(xi)^2}−{Σ(wi・xi)}^2/Σ(wi)
 
     1
a = −−−−−・{Σ(wi・yi)−b・Σ(wi・xi)}
    Σ(wi)
 
と導かれます。この式を載せている統計の本はほとんどありません。
重みつきの場合となしの場合で a を与える式を見比べると,重みつきの式では
 
_   Σ(wi・xi)
x = −−−−−−−− ,
     Σ(wi)
 
_   Σ(wi・yi)
y = −−−−−−−−
     Σ(wi)
 
となっていることがわかります(これに気付くまで何日か費やしました)。これ
が私の第一の疑問です。
_
y に関しては,y の誤差(の逆二乗)を重みとした平均ですから納得です。
                           _
しかし,x に関しては誤差がないとして始めたのですから x が重みつき平均と
なる理由がわかりません。
回帰係数の導出式は誤差論からスタートして導くことができるので,これらの式
が間違っているというつもりはさらさらありません。しかし,私には理由付けが
できないのです。
 
By Nori



#0003 sci4920  9008022236

基調発言に書いた検定などをやろうとする際に,重みを考慮した式が必要となり
ます。その式を準備する段階で関連2の重みつき平均(x,yともに)を用いる
と非常にすっきりと準備できます(確認しながらの式の変形だったので,この準
備にも何日か費やしました)。
その先へ進もうとすると第二の疑問が出てきます。
「重みなしの式の Σ 項に関して,Σ の中に重み wi を入れて全体を Σ(wi)
で割ってやるだけで,重みつきの検定ができてしまうのだろうか」という疑問で
す。例を挙げると
                   _
重みなし偏差平方和 syy = Σ{(yi−y)^2}
                      _
              Σ{wi・(yi−y)^2}
重みつき偏差平方和 syy = −−−−−−−−−−−−−
                  Σ(wi)
 
このようなことを全般的にやるだけでいいのだろうか,ということです。
 
詳しい方(特に専門としている方)の御協力をお願いします。
 
主な参考文献
バイオサイエンスの統計学     南江堂      市原清志 著
(↑はいい本です。検定の利用法などが実例つきで載っています)
データ解析 アナログとディジタル 学会出版センター 粟屋隆 著
「〜のはなし」シリーズ      東京図書
 
By Nori



#0004 sci3927  9008102111

 「誤差論」 培風館 一瀬正巳 著 を読まれるとよいでしょう。

             sci3927


#0005 sci4920  9009132330

>sci3927さん,
 
↑の本を見るチャンスがなかなかなかったのと職場内引っ越しによるアクセス不能
状態が尾を引いて,レスが大変遅くなりました。
 
結論から先に申し上げると,お奨めの本は役に立ちませんでした。
理由1.初版昭和20年代の本なので,表現が現在出版されている統計関係の本と
    異なる部分があり,私の知っている用語と対応がつきにくい。
    (言葉遣いが古いというのもマイナス要因でした)
理由2.重み付き回帰によって得られたx,y双方の重み付き平均値(と私が考え
    たもの)で,yの持つ誤差がxの平均に現れる原因に対する示唆がない。
理由3.他の本と同様に,検定に関しては重みなしのものだけであり,重みを考え
    た場合に発展させられる内容ではない。
たしか¥1,030ですから安くていいんですけどね...
 
概して,統計学と銘打った「数学」の本の多くは検定の話が少ないです。統計学を
どう応用するか,といった本の方が検定のことはよく書いてあります(適用可能な
検定方法,検定結果の解釈など)。
実は,「主な参考文献」に挙げた「データ解析」は私の大学時代の教授の著書で,
先日懐かしい研究室にうかがって相談したのですが進展はみられませんでした。
 
現在,最後の手段「文献検索」を外部に依頼しています。下手すると,自分で論文
を書く程度の努力が必要かも知れません。
 
By 先月末からアクセスしていないのに以外とどの基調も書き込みが増えていな
   いなぁ,などと安心したり心配したりしている Nori



#0006 sci3927  9009140720

 ちゃんと読んで、理解して、考えないと分かるわけないでしょう。
とりあえず、§12と§14−§16を読んで、それを理解することです。
§12が分からなかったらさらにさかのぼって§10か§9 あたりから読
むことです。基本が分かれば、§23のα,βの式を重みつきの場合に
拡張するのはたやすいことです。    sci3927



#0007 sci4920  9009181927

>sci3927さん,
 
まあ,たしかにちゃんと読んではいないのですが...
なにせ,しばらく前から論文検索モードに入っているので,ちゃんと読んでそこか
ら結果を導くという努力をする理由が希薄になっているのです。現在の私は統計学
を勉強したいのではなくて(と書くのは行き過ぎですが),道具としてなるべく早
く研究に利用したいという状況にあります。
 
この状況は,基調を書いて以後若干変わっているので最初から説明すると,
 
1.yにのみ誤差を考えた実験データ(xの測定値は精度が高いので誤差を無視し
  た)を私がすでにとっており,ここでは重みつき回帰をしている。共同研究者
  がこれを用いた論文をアメリカで出すことになった。
2.実験データはグループ分けができるので,全体を用いた回帰直線と各グループ
  ごとの回帰直線同士などで差があるかどうかを検定する必要があった。
3.通常の書籍には(既述の通り)重みつき回帰すら掲載されていないので,まし
  てや重みつき回帰直線の差の検定など書かれていない。ために,既述の参考書
  その他を元に自分で計算を始めた。(あなたは私の掲げた参考書をご覧になり
  ましたか? あなたの推薦書と比較して特に遜色はないと思うのですが。他にも
  大学学部程度の統計学の本は参考にしました)
4.計算にあたっては,検定式は重みつきでも重みなしでも大きく変わらないとの
  仮定をおいていた。重みつき検定式で,重みをデータによらずすべて同じと考
  えたときには重みなしの検定式と一致しなければならないと考えたからである。
5.重大な問題に出くわしたのは,下準備を終えて重みつき検定式を導こうとした
  ときだった。重みなしの場合は回帰直線を基準にしたデータの標準偏差(回帰
  残差の期待値)を1つの数値として導き,これを元として検定式を得ることが
  できるが,重みがつくと,この期待値の定義すら解釈があやふやになり,さら
  に(形式的に)計算を進めると重みなしの式とは似ても似つかぬ式になってし
  まった(重みの和の逆数の平方根)。ここには各x,yが出てこない。これが
  誤った結果だろうことはすぐにわかる。
  また,最終的にはt−分布表やF−分布表などを引いて「何%の確率で有意」
  などとするわけだが,得られた統計量の自由度が幾つになるのかも検討しなけ
  ればならない。さらに,この統計量がt−分布やF−分布をするものかどうか
  (式の形式が類似でもそうなる保証はない)も重要な問題である。
  重みつき平均の問題もあり,このまま別のアプローチをしていいものか,それ
  は正当な結果を導くか,と疑問を抱くことになった。
6.文献があればそれを用いた方が得策であると考え,まず書店で探せる本をあた
  ることにした(論文では評価が定まっていない可能性もあった)。この頃,こ
  この基調を開いた。明快に書いてある本を知っている人がいるかもしれないか
  らである。また,明快でなくとも,重みつき検定式を楽に導ける形式の本があ
  るかもしれなかった。
7.アメリカにいる共同研究者から「タイムリミット」である旨の連絡が入った。
  また,一般的でない統計を用いる際には出典を明らかにしなければ論文が受理
  されないとも通知された。誤差を考慮した検定は明らかに(少なくとも物理学
  ・医学分野では)一般的でない。そのため,今回は誤差なしの検定を用いざる
  を得なくなった。出典となる文献がないからである。
  ここで,今までの方針は修正を受けた。急ぐ必要はなくなった代わりに,出典
  となる文献を探すか,あるいは自分で出典となる論文を出すか,となった。
8.sci3927氏の推薦書を見ることができたのはこの後だった。なかなか書
  店に詰める時間がないのは残念である。この本も出典となることはできなかっ
  た。直接引用できる(導くという意味ではない)式がないためである。
9.大学時代の教授に会う。私の疑問点は理解してもらえたが,解決するためには
  時間がなさ過ぎた。まず私が文献検索をして,後はそれからということになっ
  た。
 
以上が現在までの経緯です。自分で導く努力を続けてもいいのですが,導いた結果
が重みなし検定の自然な拡張になっているかどうかを厳密に確認する手間を,私は
当面惜しみます。
自分でやらなければならなくなった場合はもちろんやります(これはこの件に関し
て「出典」とすることのできる論文を書くということです)が,先人の成果が存在
すれば当然そちらを優先します。
 
By Nori



#0008 sci3927  9009190206

計算の途中経過を打ち込むのは面倒くさいので、拡張の仕方だけをあげておこう
  重みなし          重みつき
  n             Σwi
  Σxi           Σwixi
  Σyi            Σwiyi
  −             −
  x=Σxi/n       x=Σwixi/Σwi
  −             −
  y=Σyi/n       y=Σwiyi/Σwi
  Σxi^2           Σwixi^2
  Σxiyi          Σwixiyi
  Σyi^2           Σwiyi^2
        −                −
  Σ{(xi−x)^2}     Σ{wi・(xi−x)^2}
        −                −
  Σ{(yi−y)^2}     Σ{wi・(yi−y)^2}
  Σεi^2          Σwiεi^2
  s^2=Σεi^2/(n−2) s^2=Σwiεi^2/(n−2)

検定の場合を含めて、この置き換えをすればよい。   sci3927



#0009 sci4920  9011171740

>sci3927さん,
 
非常にお久しぶりです。あなたからのレスを読んで以来初めてのアクセスに
なります。
 
まっっったく時間的余裕がなく,あなたのupした式を用いて検討すること
もできておりません。
 
ただ,1つだけ。
 
なぜxの平均の式にyの重みが現れなければならないのでしょうか?
「式の導出の過程から」というのでは納得できません。
観測可能量xとyの関係を調べる目的で用いられるのですから,そこには現
実と対応する意味が存在しなければならないという信念(妄想?)を持って
いるものですから...
 
レスはいつでもかまいません(こちらもまたいつアクセスできるかわかりま
せん)ので,勝手ですがお願いします。
 
By 自前のPCがあればなぁ.. の Nori



#0010 sci3927  9012251829

>なぜxの平均の式にyの重みが現れなければならないのでしょうか?

 重みとは、元々

 「ある観測が、基準とする他のある観測の、p(w)回分の平均値に相当する
  価値があるとみるとき、そのp(w)を、その観測または、観測値の重率
  (重み)という。」   (培風館「誤差論」一瀬正巳著p23、l2〜4)

 であるからです。          sci3927



#0011 sci4920  9104272129

 
>sci3927さん,
 
少しはアクセスできる時間が戻ってきました(ただ,私事でパソ通にそれほど
時間を割けない事情はあります)。
 
さて,新たな疑問です。
 
実際に私が回帰・相関を求めようとしているデータは次のようなものです。
 
対象:   人体の甲状腺
 
データ群1:CT装置でROI機能を用いて甲状腺を囲み(全体または一部),
      得られたCT値の平均と(多分,標本)標準偏差。母標準偏差か
      標本標準偏差かを気にすることは,ROI中のピクセル数が多い
      ので大した意味はない。
 
データ群2:データ群1を得た部位と一致する,手術によって得られた甲状腺
      摘出標本を実験炉で中性子放射化分析して得たヨウ素含有量。こ
      れと標本重量から甲状腺の単位重量当りのヨウ素量(以下,ヨウ
      素濃度)を得た。この放射化分析は非常に精度がよいので誤差は
      考慮しない。
 
「CT値」とは,X線透過率に対応してCT画像の各ピクセルがもつ値です。
12ビットのものが普通用いられるようで,X線が(ほとんど)まったく吸収
しない部分に対して負の最大値,X線を(ほとんど)まったく透過しない部分
に対して正の最大値,水の透過率に対してゼロを与えます。
ROI(Region Of Interest,関心領域)機能とは,ROIを設定することで
その領域内のCT値に関して平均値算出その他の計算・ヒストグラム化などを
行うものです。
 
データ群2(ヨウ素濃度)を元にしてデータ群1(CT値の平均値)を回帰直
線で関係づけようというわけです。本当はデータ群1を元にしたかったのです
が,手持ちのソフトが元とするデータ(以下,X)に誤差を持たせられるよう
にできていなかったので,仕方なくXとYを逆に使いました。相関が非常に強
い(誤差なしの相関係数=0.95)ので,2本の回帰直線は直線Y=Xに対称
と考えて大きな違いがないとふんだからです。ただし,これは誤差を考慮しな
い場合であって,誤差を考慮すると両者の違いは大きくなる可能性があると思
っています。
 
「新たな疑問」とは,
同一の対象から別の手法で得たデータ(つまり,データ群の間では誤差は独立。
ここでの場合,個々のXの誤差はすべて同一と考えてもよい)を処理するのに,
(誤差論の言葉を借りれば「最確値その他の算出にその価値の程度を取り入れ」
るために)Xに対して「お前には対応するYの重率と同じ重率しかないんだぞ」
と教えてやって,Xだけで考えた平均値とは異なる平均値を作ってやらなけれ
ばならないのか(これは前回提示した疑問です)? そうだと言うのなら(上
記のように考えると,本当にそうだと言えるのでしょうか。回帰とは,統計量
Xから統計量Yを推定する際,ある関数形を仮定して最も妥当と思われるただ
1つの関数を導出することと言えます。ここにその本質が隠されているのでし
ょうか? 残念ながら,あなたの前回のお答えでは私の疑問は解けていないの
です),いったい2つの平均値の差/違い/異なることとは何を表わしている
のか?
と言うことです。
 
お返事,お待ちしております。
 
By その他の皆さん,お久しぶりです,の Nori



#0012 sci3927  9105030430


友達の下宿からのアクセスです。重みつき最小自乗法で回帰するなら
xの誤差は無視して、yの重みを使うしかないでしょう。プロの人に
最小自乗法の根本的な考え方を説明するのはおこがましいのですが、
最小自乗法による回帰は元々、xの誤差は考えず、あるデーター xi
における、データーyiと、そのxiにおける回帰曲線 f(xi)との
差 ei の自乗和、Σei を最小にするという条件で関数 f(x)の
パラメーターを決定するというものですから、重みつき最小自乗法で
も、xの誤差は無視しなければいけないでしょう。

xとyとの誤差を同時に考えて..などというと、普通の最小自乗法
は使えないでしょうから、別の回帰方法を考えたほうがいいでしょう。

それから、モデムを友達に売り飛ばしてしまったので、アクセスは、
今回が、最後となります。決して、友達に、

   「サイエンスネットなんかにアクセスしてると馬鹿になるぞ。」

と脅かされたからではありません。

                 では、みなさん、さようなら。 sci3927



#0013 sci3927  9105052232

「今回が、最後となります。」といいましたが、

>残念ながら,あなたの前回のお答えでは私の疑問は解けていないのです

の一文が、いささか勘にさわったので友達の家に押し掛けて、再びアクセスしました.
私の答で疑問が解けなかったのは、私の責任ではなく、私の薦めた本を買い、自分で、
最初から計算したり、考えてたりしていない、あなた自身の責任でしょう.

数学雑誌の大学新入生用ガイダンス特集に、こんな文章がありました.

「大学は不親切なところです。・・・(中略)・・・ 赤ん坊の頃は、親が口の中へ
食物をねじ込んでくれました。・・・(中略)・・・ そこでは親から口に入れても
らえず、自分で捜し求めて、うまいものにありつくことを考えなければなりません。
・・・(中略)・・・ 未だに、小鳥の巣で雛鳥が、親鳥から嘴に餌をつっこんで
もらうまで、ぎゃぎゃあいってるのと同じ気分の人もいるでしょう。こういうのを
こういうのを乳離れしない人達と呼びます。」

大学を卒業して、なおかつ、乳離れしてない人も世の中にはいるようですが、
よくそれで大学を卒業できたものだといわざるを得ません。

私は、最初に挙げた本だけを読んで、重み付き場合の回帰直線の係数の公式を
計算しました。また、統計学の入門書とから、検定の計算もやりました。

私のタネ本は既に挙げてあるので、わからなければ自分で、その本を読むなり
確率論を基礎からやり直すなりして下さい。

「計算ができない」などというのは、私の責任では全くなく、完全に、あなた
自身の不勉強のせいなので、そのことで、私に何らかの責任があるかのように
、考えることは絶対にしないで下さい。

重み付き場合の計算は、要するに(xi,yi)に、mi個の点があるときの、
最小自乗法の回帰にすぎません。ちょっと考えれば、xiにmiがかかるのは、
当たり前であり、xiの重心である平均が変わるのも当たり前だとわかるでしょう。

また、高校の数学で学ぶことですが、分散σiと個数の1/sqrt(mi)と
の間には比例関係があるので、miは、分散σiの自乗の逆数に比例します。
これが、重みを分散σiの自乗の逆数にしてよい理由なのですが、この事を、
きちんと書いてある本は、私の知る限り、培風館の「誤差論」しかありません。

繰り返していいますが、私がいちばん最初に挙げたこの本を買って読まなかった
のは、あなたが悪いのであり、私がとやかく言われる筋合いなど、どこにもあり
はしないことでしょう。

この文章を読んで、あなたはきっとうんざりさせられるでしょうが、私も、私の
責任でないことでとやかく言われたり、なんの義務もないことを強制されること
にうんざりしていますので、後は、あなたの勝手にして下さい。

               さようなら。    sci3927


#0014 sci4920  9105082304

 
>sci3927さん,
 
おそらくこれはあなたに読まれることはないのでしょうが,万が一目に触れる
かもしれないと思い,書いています。
 
まず,私の質問の意図に対するお互いのすれ違いがあったように思います。私
がここ数回の書き込みで必要としていた/教えてもらいたかった/考え方を明
かしてほしかったのは回帰の数式的な取扱いではなく,どちらかというと哲学
的かもしれない,回帰の表式の背景にあることだったのです。
 
たしかにyのみに誤差のあるデータの最小二乗法による回帰は,xの平均値の
表現にyの誤差を含みます。この導出の過程に誤りはないでしょう。
では,なぜ違わなければならないのか? 違うからには現実に対応するなんら
かの理由があるはずだ,その理由とは何だ? というのが私の疑問の主旨なの
です。わからないことがあって,それでもなお意味もわからず利用するだけで
は,それこそ理屈のわかっていない公式を場面によって使い分けるだけの人間
と評価されてしまいますから。
私は意味付けをしようとしましたが,前回の書き込みを読めばわかるように,
はたせないままでいます。そこで,どう意味付ければ筋が通るのかということ
をあなたにお聞きしたかったのです。なんとなれば,あなたの書き込みが,x
の平均値の表現にyの誤差が現れる事実を指摘しているだけのように見えたか
らです。
これを尋ねるな,と言われても困ります。それならば(答えていただけるかど
うかは別として),このネットに限らず,学校でも,職場でも,家庭でも,何
か理解できないことを教えてもらうということが不可能になってしまいますの
で。あなたが単に「答えたくない」と答えるだけでも,何も答えなくても,そ
れはあなたの裁量範囲です。それに対して「あなたは考えていない」と答えら
れるのは心外というものです。
 
次に,誤解されてしまったようですが,私はここでxとyの誤差を同時に考え
ようとはしていません。両方の誤差を考えていいのでしたらx,yを陰関数の
形に書き表わして対等の扱いとし,未定係数法を援用することで最小二乗法の
表現を得ることができます。ただし,一般的には非線型連立方程式になるので
数値計算に頼ることになりますが。
この場合には私はyの誤差がxの平均値に現れたとしても悩みはしません。陰
関数化されているので,両者の誤差は回帰式の表現に同等に関わってこざるを
得ないからです。
私は単にxに誤差がない場合と各xの誤差がすべて同じ場合とでは回帰の方法
としては同値であるといっているだけなのです。
 
また,関連13にある分散の平方根(あなたは分散と書いていますが,それで
は次元が合いません)とデータ数に関する関係はその通りですが,その程度の
ことは私の挙げた本にも記載されています。培風館の専売ではありません。
 
さらに,ご自分で回帰公式の導出や検定計算をなさったそうですが,ご自分の
やり方が間違っていない,という確信をどこでお持ちになったのでしょうか,
あるいは持てるようになったのでしょうか(別にお答えはいりません)。
 
最後に,培風館「誤差論」の限界を1つだけ指摘しておきます。これは,一瀬
先生の限界ではなく,時代的な限界です。
指数関数の回帰において,yの対数を取って直線回帰するだけ,と記載されて
いますが,yの誤差がyの上下に同じ大きさ(誤差棒の中心にデータyが位置
する)に取られていると仮定した場合(これが普通だと思います),対数を取
ると誤差棒の上下の長さは異なってきます。
また,値がゼロに近いyの持つ誤差が,対数を取ることで非常に大きくなりま
す。そのため,小さいデータ(多くの場合,誤差も小さい)の誤差の影響を大
きく受けた回帰となりやすく,大きな値のyの誤差が大きくとも,相対的には
影響が少なくなってしまいます。
実用的ではあっても(まあ,指数関数の回帰が書いてある本は多くはこのやり
方を使いますが),厳密ではありませんし,誤差が大きい場合は肉眼でもずれ
ていると感じられます。
一般の関数に対する最小二乗法は,現代的には,逐次近似による線型化を用い
ます。逐次近似は単なる近似ではなく,コンピュータによる近似を繰り返すこ
とにより,コンピュータが物理的に許す限りの厳密な値を求めることができま
す。
 
それでは,またお見かけする機会がありましたら。
 
少しの出会いで過大な性格判断をしない方がよいと自戒を込めて,
 
By Nori


#0015 sci3927  9105110958

>あなたが単に「答えたくない」と答えるだけでも

「答えたくない」のではなく、「答えたが、あなたが、それを理解できなかった。
あるいは、理解しようとしなかった」というのが正しいでしょう。

>まず,私の質問の意図に対するお互いのすれ違いがあったように思います。

すれ違いではないですね。私は、仮にもプロの方であるから、学生実験の最初
で学ぶ、誤差論の基礎や、重みなしの最小二乗法など、当然、わかっているで
あろうと思い、返事をしていたのですが、それが大きな間違えであった、だけ
のことでしょう。 sci3927


#0016 sci4920  9105112107

>sci3927さん,
 
お返事があるかも知れないとは思っていましたが,こんなに早いとは
思いませんでした。あなたの御友人でもアクセスしているのでしょう
ね(ここではどうでもいいことですが)。
 
単に,お互い相手に文章のみで理解させる力あるいは努力が足りない
ことが一因だと考えます。
 
(当初私が必要としていたのが論文作成に必要な式の導出であり,次
 には直接に利用/引用できる式を与える convenient な文献(医学
 論文上で,本論と間接的にしか関係しない式の導出に何十行も費や
 すことはできない)であり,現在の興味の中心はxの平均にyの誤
 差が現れることの現実と対応する意義であることはご理解いただけ
 ていると思います)
 
私の欠点評はあなたにゆずるとして,あなたのこのネットへの関与の
仕方の特徴は,
 誰かが「これがわからない」と発言すると,
   1.「〜になる(説明抜き)」あるいは「〜の本を読め」
 本の内容などを理解してもらえないと
   2.「〜と〜を使えば最後には〜となる」
 途中の過程でわからないことがあると言ってきたり,変なことを書
 いてくると
   3.「努力が足りない」
のパターンに近い(もちろん極々単純化して,断定調で書いています
が)らしいということを,この基調あるいは他の基調であなたと接し
て体験しました。
 
この体験から,絶対に理解してもらう,あるいは絶対に理解させよう
とする努力は特になさっていないようにお見受けします。教育関係の
方ではないようなので当然かも知れません。また,発言のトーンが否
定的な調子になってしまったように思います。この基調や,かの「光
の重さ」の最初の方では,現在とは違い,中立的な「です・ます」調
であったようですが,話の流れからは致し方ないかと思います。私の
少ない経験では,正しい(と考えられる)書き込みに対する賛同の意
を表わす記述を,あなたの文章では見た記憶がないので否定的に感じ
るのかも知れません。現在の文体ではこう感じる人もいると思います。
「相手を見下すような文体だ」と(人のことはそうそう言えないんだ
ろうなぁとも思います)。
この辺はすべてあなたの文章からの推測にすぎません。あなたからす
れば,せっかく重要なヒントを書いてやったのになんて言いぐさだ,
とお思いかも知れませんが。
 
別にこれに関する反論が欲しいわけではありません。書き込むのでし
たら私の欠点評でも書いて下さい。しかし,いつまでも御友人のモデ
ムを拝借させてしまうのはまずいと思いますので,何も書き込まれな
くても結構ですし,私の欠点評に対する反論も致しません。話の流れ
によって私がそのようにみられる状況もできるのだと,今後の戒めに
させていただきます。
 
ここの基調に挙げた問題は,あなたの望むとおり,自分で解決する努
力をします。ただし,前にも書いたように,私にはそれほど時間が余
っているわけではありません(病院の業務の流れの中では,この問題
はあまりにも傍流です)し,この問題は現在では優先順位がかなり下
の方になっていますのでのんびりやります。いずれは解決しなければ
ならないことには違いないので,不明確な点があれば誰にでも尋ねま
すし,それを恥とも思いません。解決すべき問題を何としても解決す
る,というのもプロなのですから(でも,統計学のプロであると書い
た覚えはない。放射線計測や放射線管理,コンピュータ関連,病院物
理に関してはプロのはしくれだが,データ処理に絡む検定は医者に頼
み込まれてやり始め,それほど経験を積んではいないのだから)。
検討の結果があなたの書き込みと同じになれば,それはそれで結構な
ことですし,違う結果となって,どこの誰と検討しても違う,なんぞ
という事態でも生じたらどこかに詳しく書いておきます。またバカな
ことを書いているとお怒りになるかも知れませんが。
 
ではまたいつか,どこか別の場面で。
 
By Nori


#0017 sci4920  9105132121

>sci3927さん,
 
ちょっと重要なことを書き忘れていましたので追加します。
 
私は「私が理解できないのはあなたのせいだ」という非難の言葉を浴びせて
いるつもりはないのです。
言葉が足りなかった,あるいは誤って使ったかも知れませんが,xの平均に
yの重みが出てくる件については,私はあなたの数式を使わない解説がお聞
きしたかったと言ってもいいでしょう。数式を用いたアプローチで納得でき
ない(理解することとと納得することは違うと思います)点を納得するのに
役立つイメージが私には必要なのです。
ところが,私の(勝手な)期待に反して数学的なお返事しか見ることができ
なかった。それで「残念ながら」という記述になったのです。
 
                                以上
 
By Nori


#0018 sci6609  9105142251

 さしでがましいようですが、実り少なかった泥沼の論争を経験したものとして
のささやかな意見を述べさせてください。

 パリティブックス「いまさらエントロピー」杉本大一郎著、という本の冒頭に
「自然科学の好きな人には、二つのタイプがあるように見える。一つは、物に密
着した発想法を得意とする人たちである。もう一つは、数式で表現したほうがよ
くわかるという人たちである。」という部分があります。

 もう一つのタイプ「引用でしか意見を述べることができない人」に比べれば、
上の二つのタイプの方の論争は、他の者にとっても非常に為になります。昔のロ
グを読んで行くと、「もうネットをやめます、さようなら」などと言って消えて
いく人が多いですが、もうちょっと辛抱してもらえないものでしょうかね?
 他の論争ではどうも、「悪貨が良貨を駆逐」しているようで気になります。主
張の合理性とは関係なく、「しつこい人」「仲間が多い人」「嘘がうまい人」が
真面目な人を追い出しているような印象があります。
 この最小二乗法に関しては、私の能力を越えた話なので論評はできませんが。
是非どちらが正しいのか、問題をはっきりさせた上でもう一度お願いできません
でしょうか?
 サイエンスネットを、サイエンスらしくするために。
 以上本題とは関係なくてたいへん失礼しました。   GRG


#0019 sci4920  9105221927

>sci6609さん,

コメントどうもありがとうございました。

おそらく,私が必要としているものと,これらを書いた時点での状況を明確に
書かなかったことも大きく働いているのだと思います。

私たちは,双方とも同じ対象を考えているのだと思いますが,多分何を問題と
しているかのとらえ方が異なっているのでしょう。やはり文章だけを使った議
論には難しいものがあると改めて感じています。

目に優しい論理的な文章を書くにはまだ私は修行が足りないようです。

By Nori


#0020 sci2596  9205120028

   重みつき回帰について
  
   a と b の値は,関連 2 の通りです.
  
        測定量:  xi, yi
        推定直線: yi'=a + bxi + εi
                   εi は正規分布 N(0,σ) に従う
  分散の推定量は,
          Σwi(yi-yi')^2
        se^2=---------------
                  (n-2)
  a,b の分散は,
                  Σwixi^2
     V(a)=------------------σ^2
                          _
              ΣwiΣwi(xi-x)^2
                             _
                  1          x^2
             = {---- + --------------}σ^2 ....(i)
                 Σwi            _
                         Σwi(xi-x)^2
  
                 σ^2
        V(b)=--------------  ....(ii)
                      _
              Σwi(xi-x)^2
  
                _  Σwixi
       ただし, x=--------    ....(iii)
                    Σwi
  
  se の e はサブスクリプトです.
  
   次の関連で (i),(ii) を導いてみます.
  
  Kennywell


#0021 sci2596  9205120029

   重みつき回帰,前関連 (i),(ii) の導出.
  
   最もエレガントなのは,分散共分散行列を用いる方法でしょう.
  
   「重みつき回帰に対する回帰直線は普通の回帰の場合と同じやり方で求める.
  a と b の値は」,
        Q=Σwi(yi-a-bxi)^2 ....(iv)
  「を最小にするように定められる (参考文献 1:p.195)」
   (1) の (iv) に対する表式はここでの議論に合うよう改めました.
  
   すると,dQ/da=0,dQ/db=0(ここの d は偏微分です)から,a,b について
  の正規方程式は,
  
        aΣwi  +bΣwixi  =Σwiyi
        aΣwixi+bΣwixi^2=Σwixiyi
  
  となり,a と b の分散共分散行列は,
  
        Σwi   Σwixi
      (                 )^(-1)σ^2
        Σwixi Σwixi^2
  
  (テキストファイルでは表しにくいです!)
        a b               d/(ad-bc) -b/(ad-bc)
      (     )の逆行列は (                      )ですから,これは,
        c d               -c/(ad-bc) a/(ad-bc)
  
      (      Σwixi^2             -Σwixi      )
      | -----------------    ----------------- |
      |             _                    _     |
      | ΣwiΣwi(xi-x)^2     ΣwiΣwi(xi-x)^2  |
      |                                        |σ^2
      |      Σwixi                Σwi        |
      | -----------------    ----------------- |
      |             _                    _     |
      ( ΣwiΣwi(xi-x)^2     ΣwiΣwi(xi-x)^2  )
  
  となり,1行1列が (i),2行2列が (ii) となります.以上,(4:p.310) を
  参考にしました.
  
   次の関連で表式 (iii) について触れ,基調の,
  
  > 回帰係数の検定と信頼区間
  >y切片の検定と信頼区間
  > 回帰係数の差の検定と信頼区間
  >y切片の差の検定と信頼区間
  
  に触れます.
  
   参考文献:(1)Dunn, O.J. & Clark, V.A. 1974: Applied Statistics.
  Analysis of Variance and Regression. John Wiley & Sons, Inc.(中村慶一
  訳 1975:応用統計学 - 分散分析と回帰分析 - p.195-196,森北出版)
   (2) 野中敏雄・笹井敏夫 1959:確率・統計の演習,p.288-289,森北出版
    (3)Snedecor, G.W. & Cochran, W.G. 1980: Statistical Methods, 7th Ed.
  p.230-232, Iowa State Univ. Press.
    (4) 竹内 啓 1963:数理統計学,p.325-326,東洋経済新報社
  
  Kennywell


#0022 sci2596  9205120031

                        _
   (1) には,この場合,x は (iii) として定義される,というように書かれ
  ています.(4) にもそのようなニュアンスがうかがえ,表式としての統一性の
  ため,x の平均値に重みをつけるという印象を受けます.残念ながらNori
  さんの求められる,哲学的な意味づけはわかりませんでした.
  
   文献を見られるときに注意していただきたいのは,推定式を,
                   _
        yi'=a+b(xi-x)
                       _
  として,a の推定値を y としてある場合があることです(例:(1)).また,
        測定値:Xi,Yi
                _        _
  として,xi=Xi-X,yi=Yi-Y (大文字小文字の区別!)を用い,表式を簡単に
  してある場合もあります(例:(1),(3)).
  
   さて,(i),(ii) が求まれば,
   「(重みつき線形回帰の場合の)分散は重みのない線形回帰の場合と同様に
  信頼区間と検定に利用できる (1)」に従い,
   帰無仮説 b=b0 の検定は,
            b-b0
         ----------
         sqrt(V(b))
  が,自由度 (n-2) の t 分布に従うこと,を用い,信頼区間も,
        [b-t*sqrt(V(b)),b+t*sqrt(V(b))]
  (σとしては (i) の上の se を用いる)としてよい.a についても同様.
  
   また,b の差の検定は,(5) に従って行くと,まず,
  
        測定量:集団 1:x1i,y1i
                集団 2:x2i,y2i
  とする.同様に,各パラメーターを,サブスクリプト 1,2 で表す.
             Σw1i(y1i-y1')^2
        s1^2=---------------
                 (n1-2)
             Σw2i(y2i-y2')^2
        s2^2=---------------
                 (n2-2)
  この分散間に,有意差はないと仮定し,プールした分散を求める.
  
             (集団 1 での残差平方和)+(集団 2 での残差平方和)
        s^2=------------------------------------------------
                      (それぞれの自由度の和)
             (n1-2)s1^2+(n2-2)s2^2
           =-----------------------
                    n1+n2-4
  (ii) のσにこの s を用いて,
                     s^2
        V(b1)=-----------------
                         _
               Σw1i(x1i-x1)^2
  
                     s^2
        V(b2)=-----------------
                         _
               Σw2i(x2i-x2)^2
  
        V(b1-b2)=V(b1)+V(b2)
                         1                  1
                =(---------------- + ----------------)s^2
                            _                  _
                  Σw1i(x1i-x1)^2    Σw2i(x2i-x2)^2
  そして,
              b1-b2
        t=--------------
          sqrt(V(b1-b2))
  は,自由度 (n1+n2-4) の t 分布に従う.
  
   a についても同様.
  
   次の関連では相関係数について考えます.
  
  参考文献:(5)(Noriさんの挙げられたもの)
  > バイオサイエンスの統計学     南江堂      市原清志 著
  
  Kennywell


#0023 sci2596  9205120033

   相関係数について.
  
   相関係数 r と回帰係数 b の関係は,
            sy                            sy^2
        b=r*--, 両辺平方して, b^2=r^2*----  ....(v)
            sx                            sx^2
                     _                      _
  ここに,sx^2=Σ(xi-x)^2/(n-1),sy^2=Σ(yi-y)^2/(n-1)
  (例えば,文献 (1)p.199)
  そこで,重みつきの場合,
                     _                        _
        sx^2=Σwi(xi-x)^2/(n-1),sy^2=Σwi(yi-y)^2/(n-1)....(vi)
  を (v) に代入,関連 2 の,
                   _     _
           Σwi(xi-x)(yi-y)
        b=------------------
                     _
             Σwi(xi-x)^2
  とから,
                    sx^2
        r^2 = b^2 * ----
                    sy^2
                       _     _                 _
              [Σwi(xi-x)(yi-y)]^2     Σwi(xi-x)^2
            =---------------------- * --------------
                         _                     _
                [Σwi(xi-x)^2]^2       Σwi(yi-y)^2
                       _     _
              [Σwi(xi-x)(yi-y)]^2           1
            =---------------------- * --------------
                           _                   _
                   Σwi(xi-x)^2        Σwi(yi-y)^2
  
  これは,要するに,通常の相関係数のΣに wi をつけたものになります.
  
   次の関連では,どこが私のオリジナルか,ということに関して議論します.
  Noriさんが,文献を直接引用できるかどうかについて議論しておられます
  ので.
  
  Kennywell


#0024 sci2596  9205120034

   分散の推定量 se^2 は (1) に載っています.(1) は,Σwi=n となるような
  wi を用いているので,n が,各種推定量を wi を用いて表したときに,n の
  ままでよいのかΣwi としなければならないか,注意を要しますが,(3),(4)
  には se^2 で示した形で書いてあります.
  
   分散共分散行列による V(a),V(b) の導出は,(4) に重みなしの形でやられ
  てあるものに習ったもので,V(b) は,(1),(3),(4) の重みつき回帰で求め
  られているものと一致しています.V(a) は,(1) では,推定式が,
                  _
        y'=a+b(xi-x)
                                         _
  であるためと,重みの特殊性から,V(a)=V(y)=σ^2/n となっています.この
  (i) の表式を直接文献で確かめることはできませんでした.文献 (5)p.215 の
  V(a) 導出で,
          _   σ^2
        V(y)=------ ....(vii)
              Σwi
  と考えられれば,
               _  _    _  _
        V(a)=V(y-bx)=V(y)+x^2*V(b)
                1              1
            =(---- + x^2*------------- )σ^2
              Σwi                _
                          Σwi(xi-x)^2
  となって,(1) に一致します.(vii) が私には説明できなかったので,上のよ
  うな導出をしました.
  
   これらが求まれば,a,b に関する検定と信頼区間は,(1) で説明されてい
  るように,通常の方法に当てはめるだけでよいと思います.
  
   重みを考慮した差の検定は,文献では見いだせませんでしたが,se^2 から
  の類推で,s1^2,s2^2 の表式をこう考えればよいと思います.
  
   相関係数についても,重みを考慮した表式は文献では見いだせませんでした.
  (vi) の分母は (n-1) ではないかも知れません.ただ,ここの場合,sx^2,
  sy^2 ともに分母は同じであり,(v) で消えてしまうと思います.
  
   以上,Noriさんの,sci3927 さんとの論争点についてはお答えできず,
  実際的な求値の道筋について,思い違いをできるだけ避けるために文献を参照
  しつつ,おそらく正しいと思われる結果を書いてみました.間違いがあればご
  指摘下さい.
  
  Kennywell


#0025 sci2596  9205122343

                             _  _
   訂正:前の関連で,V(a)=V(y-bx) の導出のあと,
        "(1) に一致します "(誤) -> "(i) に一致します "(正)
  
  Kennywell


#0026 sci4920  9205130028

>Kennywellさん

死に果てた基調へのフォローをありがとうございます(ここは私の苦い思いの
こもった基調)。PCVででも尋ねてみようかと思っていたところでした。

二日間ほどアクセスしていなかったので,交流談話室の件もあり,未読の山脈
ができました (^^;)
そんなわけで,書いていただいたものは先ほどログから切り出せました。まだ
ゆっくり読んでいないですが,たいへん期待しています。

あれだけの数式を書くのは(経験上)大変だったと思います。お手数をおかけ
しました。
疑問な点が生じましたら質問させていただきたいと思います。ご迷惑かも知れ
ませんが,おつきあい下さいませ <(__)>

By Nori