WEBVTT

00:00.270 --> 00:02.880
こんにちは､ ディープラーニングの講座にようこそ｡ 

00:02.880 --> 00:08.360
ソフトマックとクロスエントロピー関数について語る追加チュートリアルです｡ 

00:08.370 --> 00:15.570
このセクションのメインである畳み込みニューラルネットワークについて説明している部分をすべて見てもらうためには､

00:15.570 --> 00:21.120
100％必要なことではありません｡

00:21.120 --> 00:26.490
しかし同時に､ あなたの知識やスキルのバッグに加えるには良いものだとも思ったのです｡ 

00:26.490 --> 00:30.450
では､ これらの機能を掘り下げてみましょう｡ 

00:30.570 --> 00:46.560
まず最初に､ このセクションのメインパートで構築した畳み込みニューラルネットワークがあり､ 最後に0に対する確率をいくつかポップアウトしています｡

00:46.560 --> 00:46.560
犬1匹で95円､ 0円｡  055､

00:46.560 --> 00:47.790
猫で5％です｡

00:47.820 --> 00:52.530
左の写真を入力とすると､ これは列車が実施された後です｡ 

00:52.530 --> 00:57.120
これは実際に動いていて､ ある画像を分類しているところです｡ 

00:57.120 --> 01:00.690
ここで疑問なのは､ なぜこの2つの値が足されて1つになるのか､ ということです｡ 

01:00.690 --> 01:06.150
というのも､ 私たちが人工ニューラルネットワークについて学んできた限りでは､

01:06.150 --> 01:11.490
この2つの最終ニューロンが互いにつながっているということはないのです｡

01:11.490 --> 01:16.680
では､ それぞれがどのような値を知っているのか､ もう一方の値はどうなっているのか､ そして､

01:16.680 --> 01:20.070
その値を足して1にすることをどのように知るのでしょうか｡

01:20.070 --> 01:26.010
しかし､ 古典的なニューラルネットワークでは､ そうではありません｡ 

01:26.100 --> 01:33.720
そして､ この状況を打開するために､ ソフトマックス関数と呼ばれる特殊な関数を導入しているのです｡

01:33.720 --> 01:40.620
だから普通なら､ 犬や猫の神経細胞は何らかの実数値を持っているはずだ｡ 

01:41.400 --> 01:44.910
Bである必要はない､ 足して1である必要もない｡ 

01:44.910 --> 01:51.510
しかし､ その後に､ 上の方に書いてあるソフトマックス関数を適用すると､ これらの値が0と1の間になり､

01:51.510 --> 01:56.100
足し算が1になるのです｡

01:56.100 --> 02:03.180
Wikipediaを引用すると､ ソースマックス関数または正規化指数関数とは､ 任意の実数値からなるk次元のベクトルを､

02:03.180 --> 02:10.200
0から1の範囲で足すと1になるk次元のベクトルに､ 引用符なしで押し込むロジスティック関数の一般化である､

02:10.200 --> 02:15.240
とある｡

02:15.240 --> 02:17.460
つまり､ 基本的には私たちが望む通りの働きをしてくれるのです｡ 

02:17.460 --> 02:22.650
これらの値が0と1の間になるようにし､ 足し算が1になるようにします｡ 

02:22.650 --> 02:26.400
そして､ その方法がこれであることが可能であるということです｡ 

02:26.400 --> 02:29.790
それは､ こちらの下の方に､ 和算があるのがわかるからでしょうか｡ 

02:29.790 --> 02:36.480
だから､ 指数をとってZのべき乗にして足し算をする｡ 

02:36.480 --> 02:39.690
つまり､ Z 1はすべてのクラス､ これらの値すべてにおいて2なのです｡ 

02:39.690 --> 02:43.470
これが正常化です｡ 

02:44.130 --> 02:47.310
ソフトマックス機能はそういうものなんですね｡ 

02:47.310 --> 02:54.810
犬と猫というクラスがあったとして､ 犬のクラスの確率が80％で､

02:54.810 --> 03:02.370
猫のクラスの確率が45％だったら､ どんなにおかしいか､

03:03.450 --> 03:08.250
ということです｡

03:08.250 --> 03:08.610
そうだろ？

03:08.610 --> 03:11.190
そんなんじゃ意味がないんです｡ 

03:11.190 --> 03:15.810
したがって､ このオフマックス関数を導入すると､ 畳み込みニューラルネットワークでは､

03:15.810 --> 03:19.230
ほとんどの場合､ このようなことが起こります｡

03:19.530 --> 03:27.240
さて､ もうひとつは､ ソフトマックス関数とクロスエントロピー関数と呼ばれるものが密接に関係していることです｡

03:27.240 --> 03:28.950
そして､ それは私たちにとって非常に便利なものです｡ 

03:28.950 --> 03:30.450
では､ まず計算式を見てみましょう｡ 

03:30.480 --> 03:32.730
クロスエントロピー関数はこのようなものです｡ 

03:32.910 --> 03:36.930
実は違う計算をすることになるんです｡ 

03:36.930 --> 03:40.590
今回はこのクロスエントリーの表現を使っていますが､ 結果は基本的に同じです｡ 

03:40.590 --> 03:42.150
これは､ とにかく計算が楽なんです｡ 

03:42.270 --> 03:48.990
そして､ これは画面上に数式が表示されるだけで､ 今とは全く関係ないと思われるかもしれませんが､

03:48.990 --> 03:53.010
このセクションの最後に､ さらにお勧めの本があります｡

03:53.010 --> 03:58.290
だから､ もし今､ 数学の説明がなかったら､ みたいな感じで､ 拾えなくても心配しないでください｡

03:58.290 --> 04:01.710
しかし､ ここで重要なのは､ クロスエントロピーとは何かということです｡ 

04:01.710 --> 04:03.540
まあ､ クロスエントロピー関数ですね｡ 

04:03.540 --> 04:17.700
以前､ 人工ニューラルネットワークで､ 平均二乗誤差関数という関数がありましたが､ これはネットワークの性能を評価するためのコスト関数として使われていたのを覚えていますか？

04:17.700 --> 04:23.670
そして､ ネットワークパフォーマンスを最適化するために､ MSIを最小化することが目標でした｡ 

04:23.670 --> 04:26.700
まあ､ それが私たちのコスト関数だったわけです｡ 

04:26.700 --> 04:34.500
また､ 畳み込みニューラルネットワークでは､ まだMSIを使うことができますが､ ソフトマックス関数を適用した後の畳み込みニューラルネットワークでは､

04:34.500 --> 04:39.600
クロスエントロピー関数がより良い選択肢であることがわかりました｡

04:39.600 --> 04:45.540
そして､ 畳み込みニューラルネットワークでは､ クロスエントロピー関数を適用すると､ コストはもうコスト関数と呼ばず､

04:45.540 --> 04:49.410
損失関数と呼ばれ､ 非常によく似ています｡

04:49.410 --> 04:55.440
ちょっとした用語の違いで､ 意味するところが少し違うような気がします｡ 

04:55.440 --> 04:58.920
でも､ 私たちの目的からすると､ ほとんど同じことですし｡ 

04:59.750 --> 05:09.430
損失関数は､ ネットワークのパフォーマンスを最大化するために最小化したいものです｡

05:09.440 --> 05:15.170
では､ この機能をどのように応用できるのか､ 簡単な例を見てみましょう｡ 

05:15.170 --> 05:19.070
例えば､ 犬の画像をネットワークに登録したとします｡ 

05:19.550 --> 05:24.410
犬の予測値は0である｡  9 と､ これはトレーニング中の話です｡ 

05:24.410 --> 05:27.020
だから､ 私たちは､ 犬というラベルを知っているのです｡ 

05:27.020 --> 05:29.320
だから､ 予測値は0である｡  9.

05:29.330 --> 05:32.180
猫の予測値は0である｡  1.

05:32.180 --> 05:33.650
それから､ ここにはラベルがあります｡ 

05:33.650 --> 05:37.700
だから､ これは訓練だから犬だとわかるし､ 犬は1､ 猫は0です｡ 

05:37.700 --> 05:42.410
それで､ この場合､ 使う必要があります｡ 

05:43.330 --> 05:47.510
これらの数値をクロスエントロピーの計算式に突っ込んでみてください｡ 

05:47.530 --> 05:52.780
では､ どのようにするかというと､ 左側の値が変数に行くのですか？

05:52.780 --> 05:58.870
Q 右側の対数の下にあるのがPで､ 右側の値はPに入ります｡ ですから､ どれがどこに入るかを覚えておくことが重要です｡

05:58.870 --> 06:09.460
もし間違えると､ ゼロの値から対数を取ったり､ 1の値から対数ermを取ったりしたくないですからね｡

06:09.460 --> 06:16.960
だから､ それらを正しい場所に差し込んで､ 基本的にそれを足すだけでいいんです｡

06:16.960 --> 06:19.390
クロスエントリーはそういう仕組みなんですね｡ 

06:19.390 --> 06:26.650
そして､ 実際にこの関数を応用した具体的なステップバイステップの例を見てみましょう｡

06:26.650 --> 06:30.220
そうすれば､ クロスエントロピーの意味がもっと理解できるようになるはずです｡ 

06:30.220 --> 06:36.340
このチュートリアルでの私の目標は､

06:36.340 --> 06:48.190
クロスエントロピーをもっと身近に感じてもらうことなのです｡

06:48.190 --> 06:48.690
そうですね｡ 

06:48.790 --> 06:50.740
怖いけど､ そうでもない

06:50.740 --> 06:51.550
そこがポイントです｡ 

06:51.550 --> 06:54.010
だから､ 怖くないということを知るために､ 応用して行きましょう｡ 

06:54.010 --> 06:56.290
そこで､ ニューラルネットです｡ 

06:56.290 --> 07:01.510
また､ なぜこのようなことをするのか､ なぜさまざまなクラス関数を見るのか､ その理由も説明します｡ 

07:01.510 --> 07:06.280
つまり､ ニューラルネットワーク1､ ニューラルネットワーク2､ 2つのニューラルネットワークがあるとします｡

07:06.280 --> 07:11.890
そして､ 犬の画像を渡すと､ これは犬で､ 猫ではないことがわかります｡

07:11.890 --> 07:16.840
そして､ もうひとつの猫のイメージ......今度は動物のイメージです｡ 

07:16.840 --> 07:17.830
しかも､ 犬ではなく猫です｡ 

07:17.830 --> 07:23.590
そして､ ここには奇妙な姿の動物がいる｡ よく見ると､ 実は猫ではなく犬である｡

07:24.100 --> 07:26.280
そこで､ 私たちのニューラルネットワークがどうであったかを確認したいのです｡ 

07:26.470 --> 07:32.290
最初のケースでは､ ニューラルネットワーク1が90％犬10％猫で予測されます｡ 

07:32.290 --> 07:33.160
正解です｡ 

07:33.160 --> 07:37.510
2番目のニューラルネットワークは､ 60%犬40%猫で､ やはり正解でした｡ 

07:37.510 --> 07:39.040
もっと悪いけど正しい｡ 

07:40.120 --> 07:46.810
第二の選択肢 第一ニューラルネットワーク 10%猫犬 90%猫 正しい｡ 

07:47.160 --> 07:51.010
しかも､ 犬3割､ 猫7割の2人分しかないんでしょ？

07:51.280 --> 07:53.260
もっと悪いけど､ それでも正しい｡ 

07:53.260 --> 07:58.930
そして最後に､ ニューラルネットワーク1が画像3のニューラルネットワーク1 40%で入っています｡ 

07:58.930 --> 08:08.020
犬60%猫不正解のニューラルネットワーク2番10%犬90%猫不正解と悪化｡ 

08:08.020 --> 08:18.820
つまり､ 最後の1枚ではどちらのネットワークも間違っていたにもかかわらず､ 3枚の画像を通して､ ニューラルネットワーク1がニューラルネットワーク2を上回っていたということが重要なのです｡

08:18.820 --> 08:29.050
この場合､ ニューラルネットワークが犬に与える確率が10％であるのに対して､ 40％の確率で犬に与えるという､ 非常に高い確率のものでした｡

08:29.050 --> 08:34.990
つまり､ ニューラルネットワーク1とニューラルネットワーク2を比較すると､ ニューラルネットワーク1が全面的に勝っているわけです｡ 

08:35.440 --> 08:42.730
次に､ これまで述べてきたような､ パフォーマンスを測定するための機能を見ていきます｡

08:42.730 --> 08:44.770
そこで､ これらを表にまとめてみましょう｡ 

08:44.770 --> 08:46.180
そこで､ ニューラルネットワーク1があります｡ 

08:46.630 --> 08:49.360
行番号がありますから､ それが画像番号になります｡ 

08:49.360 --> 08:53.830
そして､ 画像1については､ 予測通り､ 犬90％､ 猫10％となっていますね｡ 

08:53.830 --> 08:57.250
これがハット変数で､ 次に実際の値があるわけですね｡ 

08:57.250 --> 08:57.430
だから

08:57.430 --> 08:59.140
ドッグコレクト

08:59.140 --> 09:00.340
猫 不正解｡ 

09:00.340 --> 09:07.630
画像番号2も同じ､ 画像番号3も同じ､ ニューラルネットワーク番号2も同じです｡

09:07.630 --> 09:12.010
つまり､ 最初の画像では犬60％､ 猫40％､ それが予測されたわけです｡ 

09:12.070 --> 09:14.440
正解は､ 猫ではなく犬､ など｡ 

09:15.010 --> 09:17.950
それでは､ 実際にどのようなエラーが出るのか見てみましょう｡ 

09:17.950 --> 09:24.550
では､ どのような誤差を計算すれば､ ネットワークの性能を推定し､ 監視することができるのでしょうか｡ 

09:24.640 --> 09:33.940
つまり､ エラーの1つは分類エラーと呼ばれるもので､ これは基本的に､ 正しく理解できたか､ できなかったかを問うだけのものです｡

09:33.940 --> 09:37.870
確率はともかく､ 当たったのか､ 当たらなかったのか､ それだけです｡ 

09:37.870 --> 09:44.980
つまり､ どちらのニューラルネットワークでも､ それぞれ､ 1つくらいは取れたということです｡ 

09:44.980 --> 09:46.240
これだけ間違っているのだ｡ 

09:46.240 --> 09:48.400
つまり､ 3つのうち1つは間違っていたわけです｡ 

09:48.400 --> 09:54.940
つまり､ ニューラルネットワーク1のエラーレートは33％､ ニューラルネットワーク2のエラーレートは33％である｡ 

09:54.940 --> 09:59.080
そして､ 基本的にこの観点からは､ どちらのニューラルネットワークも同じレベルのパフォーマンスを発揮するわけです｡ 

09:59.080 --> 10:00.100
しかし､ それが事実でないことは分かっています｡ 

10:00.100 --> 10:04.150
ニューラルネットワーク1が､ ニューラルネットワーク2を上回っていることは分かっている｡ 

10:04.930 --> 10:13.690
そのため､ 特にバックプロパゲーションの平均二乗誤差が異なる目的では､ 分類誤差は良い指標とは言えません｡

10:13.690 --> 10:16.720
ちなみに､ この計算はエクセルでやったんですよ｡ 

10:16.930 --> 10:18.340
ただ､ 退屈させたくなかったんです｡ 

10:18.340 --> 10:21.940
でも､ 紙やエクセルに座ってやるだけでも全然いいんですよ｡ 

10:21.940 --> 10:23.620
これらは非常にわかりやすい計算です｡ 

10:23.620 --> 10:32.800
基本的には二乗誤差の和をとり､ 観測値全体の平均をとればよいのです｡

10:32.800 --> 10:34.240
といったところでしょうか｡ 

10:34.840 --> 10:38.840
ニューラルネットワークの方は､ 25％ということですね｡ 

10:38.890 --> 10:42.530
ニューラルネットワークの場合は､ 2つで71％です｡ 

10:42.780 --> 10:43.260
エラー率｡ 

10:43.260 --> 10:45.840
だから､ 見ての通り､ こちらの方が精度が高い｡ 

10:45.840 --> 10:52.890
ニューラルネットワーク1は､ ニューラルネットワーク2よりもエラーレートがずっと低いということを教えてくれているのです｡ そして､ 再びクロスエントロピーが発生します｡

10:52.890 --> 10:53.760
公式を見ました｡ 

10:53.760 --> 10:54.900
計算することもできます｡ 

10:54.900 --> 10:57.900
これは､ 実は平均二乗誤差よりもさらに簡単に計算できる｡ 

10:57.900 --> 11:05.280
クロスエラークロスエントロピーの場合､ ニューラルネットワーク1と1では38%になります｡  06 ニューラルネットワーク2用

11:05.280 --> 11:10.140
そうやって見てみると､ ちょっと結果が違うのがわかると思います｡ 

11:10.140 --> 11:19.950
平均二乗誤差とクロスエントロピーを比較したとき､ なぜ平均二乗誤差ではなくクロスエントロピーを使うのかという疑問は､

11:19.950 --> 11:27.390
単に吐き出される数値のようなものだけではありません｡

11:27.390 --> 11:32.430
この計算は､ 「これは全部できるんだ」ということを示すためのものです｡ 

11:32.430 --> 11:33.630
紙の上でやればいいんです｡ 

11:33.630 --> 11:37.800
これは､ あまり激しい数学ではないんです｡ 

11:37.800 --> 11:40.920
これらは､ かなり､ シンプルでわかりやすいものです｡ 

11:40.920 --> 11:46.140
しかし､ 「なぜ､ 平均二乗誤差ではなく､ 平均クロスエントロピーを使うのか？

11:46.140 --> 11:48.150
とても､ いい質問だと思います｡ 

11:48.150 --> 11:49.200
よくぞ聞いてくれました｡ 

11:49.920 --> 12:01.320
その答えは､ 平均二乗誤差よりもクロスエントロピーの方が優れている点がいくつかあるようなのですが､ それは自明ではありません｡

12:01.320 --> 12:07.080
そこで､ 2つほど紹介しますが､ さらに詳しい情報を得ることができる場所をお知らせします｡ 

12:07.080 --> 12:22.110
その1つは､ 例えば逆伝播の一番最初の段階だと､ 出力値がとてもとてもとてもとても小さいんです｡

12:22.110 --> 12:25.470
だから､ 実際に欲しい値よりずっと小さいんです｡ 

12:25.470 --> 12:33.750
そうすると､ 最初のうちは勾配降下法の勾配が非常に低くなってしまい､ 十分な効果が得られないのです｡

12:33.780 --> 12:40.470
そうすると､ ニューラルネットワークが実際に何かを始めて､ 動き回り､ 重みを調整して､

12:40.470 --> 12:44.910
正しい方向に動き始めることは非常に難しくなります｡

12:44.910 --> 12:51.000
しかし､ クロスエントロピーを使うと､ 対数を用いているため､ ネットワークが小さな誤差を評価し､

12:51.270 --> 12:57.120
それに対して何かをするのに役立ちます｡

12:57.420 --> 12:58.410
こんなふうに考えています｡ 

12:58.410 --> 13:03.180
もう一度言いますが､ これは非常に直感的なアプローチです｡ 

13:03.180 --> 13:08.190
数学とリンクしているので､ 数学を通してこれらのことをより詳細に導き出すことができますが､

13:08.190 --> 13:10.980
非常に直感的なアプローチです｡

13:10.980 --> 13:17.520
例えば､ あなたの好きなもの､ 欲しいものが､ 1つだとします｡ 

13:17.520 --> 13:23.070
そして今､ あなたは1/1000000のところにいますよね？

13:23.070 --> 13:24.900
A 0. 000001.

13:25.020 --> 13:32.570
そして､ 次は100万分の1から1000分の1まで成果を上げるのです｡ 

13:32.580 --> 13:40.200
また､ 二乗誤差を計算する場合､ 一方を他方から引くだけ､ つまり基本的にはそれぞれのケースで二乗誤差を計算し､

13:40.200 --> 13:46.620
あるケースと他のケースを比較すると､ 二乗誤差があることがわかると思います｡

13:46.620 --> 13:48.090
そんなに変わらなかったんですね｡ 

13:48.150 --> 13:51.840
平均二乗誤差を見ると､ そんなにネットワークは改善されていないんですね｡ 

13:51.840 --> 13:58.710
しかし､ クロスエントロピーを見ると､ 対数をとって､ 一方を他方で割って比較しているので､

13:58.710 --> 14:06.090
実際にネットワークが大幅に改善されていることがわかります｡ したがって､ 平均二乗誤差が100万分の1から1000分の1に跳ね上がることは､

14:06.090 --> 14:12.750
非常に少ないことがわかります｡

14:12.750 --> 14:21.990
それは取るに足らないもので､ 勾配を高めるプロセスや逆伝播を正しい方向に導くものではありません｡

14:21.990 --> 14:26.640
正しい方向に導いてはくれますが､ それは非常にゆっくりとしたガイダンスのようなものでしょう｡ 

14:26.640 --> 14:29.280
パワーが足りなくなる｡ 

14:29.490 --> 14:34.620
しかし､ クロスエントロピーを用いれば､ 絶対値で見ればほんのわずかな変化でも､

14:34.620 --> 14:46.020
相対値で見れば大きな改善であり､ 正しい方向に進んでいると理解することができるのです｡

14:46.020 --> 14:47.160
その調子で行きましょう｡ 

14:47.160 --> 14:56.040
つまり､ クロスエントロピーは､ ニューラルネットワークが正しい状態､ 最適な状態になるのを助けてくれるのです｡ 

14:56.760 --> 15:01.020
ニューラルネットワークが最適な状態になるためのより良い方法なのです｡ 

15:01.020 --> 15:08.160
しかし､ これはクロスエントロピーが分類にのみ好ましい方法である場合にのみ機能することを心に留めておいてください｡ 

15:08.160 --> 15:13.590
ですから､ 人工ニューラルネットワークのような回帰の話であれば､

15:13.740 --> 15:17.280
むしろ私や二乗誤差の方がいいわけです｡

15:17.280 --> 15:23.610
一方､ クロスエントロピーは分類に適しており､ これもソフトマック関数を使用していることと関係があります｡

15:23.610 --> 15:26.640
それを直感的に説明したようなものですね｡ 

15:26.880 --> 15:29.280
そのあたりをもう少し詳しく知りたい方におすすめです｡ 

15:29.280 --> 15:34.440
なぜ､ 平均二乗誤差ではなく､ クロスエントロピーを使うのか？

15:35.190 --> 15:42.150
Geoffrey Hinton氏のGoogle Videoにsoft max output functionと呼ばれるものがあり､ それを解説しています｡ 

15:42.250 --> 15:42.850
とても良いですね｡ 

15:42.850 --> 15:47.800
そして､ ディープラーニングの名付け親ということで､ とにかく誰が一番うまく説明できるかということです｡ 

15:48.580 --> 15:51.610
ちなみに､ ジェフリー・ヒントン氏のビデオはどれも金字塔です｡ 

15:51.610 --> 15:54.220
彼は､ 説明する才能がものすごくあるんです｡ 

15:55.120 --> 15:58.540
とにかく､ ソフトマックスとクロスエントロピーの比較です｡ 

15:58.540 --> 16:03.100
ここで何が起こっているのか､ 直感的に理解してもらえたと思いますが､ もっと重要なことは､ クロスエントロピーという言葉に振り回されないことです｡

16:03.100 --> 16:08.980
なぜなら､ アドロンは実践的なチュートリアルでこのことに触れるからです｡

16:08.980 --> 16:11.020
そして､ そのための準備も万全にしたいと思いました｡ 

16:11.020 --> 16:17.170
これは損失関数を計算する別の方法で､ ネットワークを最適化する別の方法です｡

16:17.170 --> 16:27.730
これは分類問題､ つまり畳み込みニューラルネットワークに特化したもので､ ソフトマックス関数と一緒に使うことができるのです｡

16:28.060 --> 16:36.370
クロスエントロピーを軽く紹介したい方､ クロスエントロピーにもう少し興味がある方は､ 追加でお読みください｡

16:36.400 --> 16:43.410
もちろん､ Rob de Pietroの「A Friendly Introduction to Cross Entropy Loss」という記事も参考になります｡

16:44.110 --> 16:46.660
2016年 以下､ リンク先です｡ 

16:47.020 --> 16:48.190
とても､ 素敵です｡ 

16:49.030 --> 16:50.410
とても柔らかい｡ 

16:50.440 --> 16:51.210
何もない？

16:51.220 --> 16:52.060
いいえ､ 違います｡ 

16:52.060 --> 16:53.770
超複雑計算｡ 

16:54.130 --> 16:56.110
良い例えは良い例です｡ 

16:56.110 --> 17:01.120
自動車に例えて､ 情報とかビットとか制限の話をするんですね｡ 

17:01.900 --> 17:03.220
また､ これをどのようにエンコードするのでしょうか？

17:03.220 --> 17:03.880
それをどのようにエンコードするのか？

17:03.890 --> 17:05.770
それはそれは､ 良い記事を拝見させていただきました｡ 

17:05.770 --> 17:08.800
そして､ クロス・エントロピーの概要もしっかりお伝えします｡ 

17:09.580 --> 17:15.340
入門編ということで､ ここにあるような重い計算をしたい場合は､ How to implement

17:15.820 --> 17:21.370
a Neural Networkの記事かブログをご覧ください｡

17:21.370 --> 17:29.320
Intermezzo 2 Intermezzoとは､ 中間的なもので､

17:29.320 --> 17:36.100
劇場で第一部と第二部の間に休憩があるようなものです｡

17:36.100 --> 17:41.440
だから､ 彼はすべての段階を踏んでから､ 「ああ､ 最初にこれを説明しないといけないんだ」と言うんです｡

17:42.250 --> 17:44.020
そうそう､ だから「インテルメッツォ」なんですね｡ 

17:44.020 --> 17:46.000
それ以外の理由は､ 私が理解する限りではありません｡ 

17:46.540 --> 17:50.650
記事は同じくピーター・ロリンズ2016年｡ 

17:50.650 --> 17:52.270
つまり､ どちらもごく最近のことなのです｡ 

17:52.270 --> 18:00.020
クロスエントロピー､ ソフトマックス､ クロスエントロピーの背後にある数学について知りたい場合は､

18:00.020 --> 18:02.370
この記事をご覧ください｡

18:02.680 --> 18:03.730
そうそう､ そうなんです｡ 

18:03.730 --> 18:07.210
それがこの2人のすべてです｡ 

18:07.240 --> 18:12.670
さらに分かりやすく説明できたと思いますので､ 頑張ってください｡ 

18:12.670 --> 18:16.870
実践的なチュートリアルを楽しみながら､ It's it's going to be fun.

18:16.870 --> 18:17.950
また今度､ お会いしましょう｡ 

18:17.950 --> 18:19.840
それまでは､ ディープラーニングを楽しんでください｡