毎日テキストマイニング

180日間、毎日テキストマイニングをするブログです

2018/7/16【24日目】高速で学ぶ統計学その4

連休中に学ぶと言ったのですが、難しすぎて全然進まなかったですね。とりあえず今日正規分布までは行って終わりたいと思います。そのうちその5に続きます。

最小2乗法の計算方法

最小2乗法のイメージがわかったところで公式を確認してみます。 f:id:rimt:20180717234011p:plain

シータがパラメータというやつで、これから求めるものです。 iがxとyの場所を表しています。それで、全体を2乗してマイナスを消し、2分の1をかけると求められるらしいです。 まぁ、実際に試していかないとよくわからないですね。。。とりあえず、今はこれで進むみます。

標本分布

分析の対象になる変数が特定されたら、母集団におけるその変数の分布図を求める必要があって、それを母集団分布というらしいです。それで、母集団といのはほとんどの場合、把握するのは難しいそうです。そこで、登場するのが正規分布正規分布は平均が一番高く、左右対象になる分布のことだそうです。

正規分布はmatplotlibで簡単に出るそうなので、出力してみます。xは昨日から登場していますが、リツイートの回数です。

import seaborn as sns
%matplotlib inline
sns.distplot(x, color = 'black')

実行結果

f:id:rimt:20180717234011p:plain

左右対称にならないですね。 Wikipediaによると、正規分布になるには条件があるらしいですね。

正規分布(せいきぶんぷ、英: normal distribution)またはガウス分布(英: Gaussian distribution)は、平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布である。

調べてみました、サイコロを振ってでた数というのは正規分布になるらしいのでやってみます。

saikoro = [4,1,6,5,5,1,4,1,2,2]
sns.distplot(saikoro,color = 'black')

実行結果

f:id:rimt:20180717235528p:plain

確かに、真ん中を頂点に左右ほぼ対象になってますね。 これの平均と分散をみてみたいと思います。

print(sp.mean(saikoro))
print(sp.var(saikoro, ddof=0))
3.1
3.29

この場合、平均6.3、分散3.29の正規分布というらしいです。

あまり進まなかったのですが、統計学はひとまずこの辺りで、明日からテキストマイニングに戻ります。