WEBVTT

00:00.430 --> 00:03.900
こんにちは､ 人工知能の講座にようこそ｡ 

00:03.910 --> 00:05.350
これまでのコースを楽しんでいただければ幸いです｡ 

00:05.350 --> 00:08.500
そして今日は､ 行動選択のポリシーについてです｡ 

00:08.890 --> 00:09.310
わかりました｡ 

00:09.310 --> 00:10.570
早速､ 飛び込んでみましょう｡ 

00:10.870 --> 00:15.940
前回は､ 単純な学習にニューラルネットワークを追加する話をしました｡ 

00:15.940 --> 00:21.000
そして今のところ､ ディープラーニングにかなりハマっています｡ 

00:21.010 --> 00:26.530
学習の部分については､ いくつかの要素を加えるなどして､ かなり話を進めてきました｡ 

00:26.530 --> 00:28.750
そして､ 今日はこの部分のお話です｡ 

00:28.750 --> 00:29.880
演技の話をしているんです｡ 

00:29.890 --> 00:30.880
では､ 見てみましょう｡ 

00:31.060 --> 00:38.410
つまり､ エージェントの現在の状態を表すパラメータやベクトルを入力すると､ その環境では学習が完了する､

00:38.410 --> 00:47.290
あるいは学習が完了する前に学習が完了する､ という演技について説明したものです｡

00:47.290 --> 00:49.420
基本的にはすべてのキュー値を取得します｡ 

00:49.420 --> 00:51.040
だから､ 今は学習には興味がないんです｡ 

00:51.040 --> 00:51.940
私たちは演技に興味があります｡ 

00:51.940 --> 00:57.060
では､ このキュー値を手に入れたら､ どれを使えばいいのか､ どのように理解すればいいのでしょうか｡ 

00:57.070 --> 01:01.870
考えてみれば､ キュー値というのは､ 簡単に言えば､ キューブ値の予測値なんですね｡ 

01:01.870 --> 01:05.950
では､ 単純な学習アルゴリズムでやったように､ 何をしたのか？

01:05.950 --> 01:10.320
私たちはただ､ キュー値が最も高い､ ベストなものを選びました｡ 

01:10.330 --> 01:16.000
最も価値の高いものを手に入れたら､ その行動を取るだけです｡ それが最も高い価値をもたらしてくれるからです｡

01:16.240 --> 01:17.050
そして､ 私たちはそれを知っています｡ 

01:17.050 --> 01:23.020
Q 価値は､ 期待する当面の報酬に､ 次の状態の価値を係数倍して計算します｡

01:23.020 --> 01:24.700
しかも､ 再帰的な計算です｡ 

01:24.700 --> 01:25.360
では､ なぜダメなのか？

01:25.360 --> 01:28.300
なぜ､ ベストキューバリューを取らないのですか？

01:28.300 --> 01:30.550
というような感じで終わっています｡ 

01:30.550 --> 01:32.860
しかし､ ここにあるように､ それほど単純なことではありません｡ 

01:32.890 --> 01:37.660
ここではソフトマックス関数を使っていますが､ ここで行動選択ポリシーについて説明します｡ 

01:37.660 --> 01:41.110
ですから､ ここでは､ 現実には､ 自己最大機能だけを持つ必要はないのです｡ 

01:41.110 --> 01:44.290
異なる行動選択方針を持つことができる｡ 

01:44.650 --> 01:54.880
例えば､ イプシロン・グレイディ､ イプシロン・ソフト､ ソフトマックスなどがあり､ これらは最もよく使われる行動選択ポリシーと言えます｡

01:54.880 --> 01:56.200
もちろん､ 他にもありますよ｡ 

01:56.200 --> 02:00.520
例えば､ 最も基本的なものは､ ここに非常にシンプルな行動選択ポリシーがあります｡ 

02:00.520 --> 02:03.730
Q値の高いもの､ ベストなものを選べばいい｡ 

02:03.730 --> 02:06.250
しかし､ なぜその行動方針が飛ばないのでしょうか｡ 

02:06.250 --> 02:10.300
また､ なぜ行動指針､ 行動選択指針の種類があるのでしょうか？

02:10.300 --> 02:19.000
さて､ すべては探索と利用に帰結します｡ これが強化学習の核心です｡ すでに少しお話しましたが､

02:19.000 --> 02:24.280
エージェントが環境で活動するとき､ ある重要な値を予測するかもしれません｡

02:24.280 --> 02:31.780
それは良いものかもしれないし､ そうでないかもしれません｡

02:31.780 --> 02:34.900
その価値観が悪いと判明して､ 探りを入れざるを得なくなるかもしれません｡ 

02:34.900 --> 02:39.460
例えば､ この場合､ Q2がベストだと予測し､ Q2を取り､ 行動2を取り､

02:39.460 --> 02:46.720
ここから行動2を取るようにすると､ 非常にネガティブな報酬を得ることができます｡

02:46.720 --> 02:56.260
Q2はとてもいいものだと思っていたのに､ 実はとても悪いものだった」ということを知ることになるからです｡

02:56.620 --> 02:58.270
だから､ 結果的にとても悪いことになった｡ 

02:58.270 --> 02:59.830
だから､ ネットワークが勝手に更新されるんです｡ 

02:59.830 --> 03:02.950
だから､ 次にこの州に来るときは､ おそらく彼はまだ選ぶかもしれない｡ 

03:02.950 --> 03:06.760
Q 2､ もしそれが､ その､ 非常に好意的なものであったなら｡ 

03:06.760 --> 03:11.800
ということは､ Q2が悪い行為だと学ぶために､ 何度か罰則や懲罰が必要なのでは､

03:11.920 --> 03:14.800
と思われるかもしれませんね｡

03:14.800 --> 03:17.410
でも､ もしかしたら､ 彼はもうすぐにそれを知ることになるかもしれない｡ 

03:17.410 --> 03:18.430
じゃあ､ 私は別のアクションを起こします｡ 

03:18.430 --> 03:21.910
今はQ値が一番良いので､ このアクションを起こします｡ 

03:21.910 --> 03:33.340
そのため､ 環境によっては､ エージェントがさまざまな行動を取るように強制されることもありますが､ エージェントが局所最大値から抜け出せなくなることもあります｡

03:33.340 --> 03:37.870
最初の探索を通じて､ そのようなことが分かるかもしれません｡ 

03:37.870 --> 03:43.750
その結果､ ああ､ これはここに行ってみようとか､ これはなかなかかっこいいアクションだなということがわかりました｡

03:43.810 --> 03:48.970
しかし､ 問題は､ 探索していないだけで､ それが最高のアクションだと思い込んでいることです｡ 

03:48.970 --> 03:57.310
上への探索は左へ､ 右への探索は右へ､ しかし､ その特定の状態から下への探索はまだです｡

03:57.310 --> 04:03.370
そして今､ この行動に偏り､ 良い行動だと思い､ 取り続け､ 手に入れようとしているのです｡

04:03.730 --> 04:06.340
彼はこの行動を取り続けることで､ 良い報酬を得ようとしているのです｡ 

04:06.340 --> 04:10.300
しかし､ もしこの行動がさらに良いものであったとしたらどうでしょう｡ 

04:10.300 --> 04:17.230
このアクションを知れば､ 実際にこのアクションに切り替わるくらいに｡

04:17.230 --> 04:23.500
でも､ 局所的に最大値に引っかかって､ こういう良い報酬を得たから､ 強化されるだけなんです｡

04:23.500 --> 04:28.270
それは､ 自分自身を強化し続けるか､ あるいは環境が「これは良い行動だ」と強化することになるのです｡

04:28.270 --> 04:29.170
それを続けてください｡ 

04:29.230 --> 04:36.850
しかし､ 実際には､ まだ見つけていない､ あるいは探ってもいない､ もっと良いアクションがあるはずなのです｡

04:36.850 --> 04:45.760
そこで､ エージェントが局所最大値にはまらないような行動選択ポリシーを考えたいのです｡

04:45.760 --> 04:48.400
そう､ 良い行動を続けることが大切なのです｡ 

04:48.400 --> 04:49.990
それが搾取の部分です｡ 

04:49.990 --> 04:53.860
見つけたものを活用したいが､ 同時にまだ探検したい｡ 

04:53.860 --> 04:55.480
私たちは､ 決して探求をやめようとは思いません｡ 

04:55.480 --> 04:57.730
人生において､ 学ぶことをやめたくないというのと同じですね｡ 

04:57.790 --> 04:58.930
学ぶことをやめれば､ 死ぬ｡ 

04:58.930 --> 04:59.220
それは

04:59.580 --> 05:03.300
成長しないときは死ぬときとか､ そういう言葉がありますね｡ 

05:03.300 --> 05:07.470
だから､ あなたは学び続けたいし､ 代理人も学び続けたいのです｡ 

05:07.470 --> 05:10.110
そこで､ このような行動選択政策が必要になるわけです｡ 

05:10.110 --> 05:12.270
ということで､ 3つをご紹介します｡ 

05:12.270 --> 05:14.100
ということで､ まずはイプシロングリーディ｡ 

05:14.100 --> 05:15.540
とてもシンプルなものです｡ 

05:15.540 --> 05:22.060
カッコイイ名前だし､ こういうカッコイイ名前のものはたいてい複雑なんだろうという意味で､ かなり複雑そうですね｡

05:22.240 --> 05:23.040
実はそうではないんです｡ 

05:23.100 --> 05:31.340
つまり､ 基本的にはQ値が最も良いものを選び､ ギリシャのεのようにεを出すということです｡ 

05:31.350 --> 05:32.670
他の場所でも聞くことができるかもしれません｡ 

05:32.670 --> 05:34.920
まるで選別政策のようだ｡ 

05:34.920 --> 05:39.870
今回は､ Q値のうち､ アクションのうち､ セレクトを選択するために使っているわけです｡ 

05:39.870 --> 05:45.750
だから､ イプシロン％以外はずっとQ値の高いものを選ぶことになる｡ 

05:45.750 --> 05:52.170
例えばイプシロンを10％に設定したら､ or 0になるわけです｡  1.

05:52.170 --> 05:56.460
すると､ 10％の確率でランダムにアクションが選択されることになります｡ 

05:56.460 --> 06:01.890
つまり､ 90%はQ値の高さを基準に最適なアクションを選択することに変わりはないのです｡ 

06:01.890 --> 06:09.390
しかし､ 10%はランダムなアクションユニフォームを選択することになり､ 絶対にランダムにアクションを起こすことになるのです｡

06:09.390 --> 06:19.140
またはイプシロンを0にした場合｡  540. 05､ つまり95％の確率で､ エージェントは最も価値の高い行動を取ることになる｡

06:19.140 --> 06:22.290
しかし､ 5％の確率でランダムな動作で選択されることに変わりはないのです｡ 

06:22.290 --> 06:25.470
だから､ 外に出て探索することになるんです｡ 

06:25.470 --> 06:28.140
だから､ イプシロンソフトはとても似ている｡ 

06:28.410 --> 06:34.920
そういえば､ イプシロン貪欲と呼ばれるのは､ そのわずかなイプシロン％を除いて､

06:34.920 --> 06:40.230
良い行動を貪欲に選択するためなんですね｡

06:40.230 --> 06:48.180
つまり､ イプシロンが低いほど､ そういう行動を貪欲に選択しているわけです｡

06:48.180 --> 06:50.280
それが最適な行動です｡ 

06:50.280 --> 06:54.630
そして､ 残すものが少なければ少ないほど､ 探検のチャンスも少なくなります｡ 

06:54.630 --> 06:55.920
イプシロンソフトはその逆です｡ 

06:55.920 --> 07:01.950
つまり､ 基本的にはランダムに､ 1マイナスεパーセントの確率で選択することになります｡ 

07:01.950 --> 07:12.120
つまり､ イプシロンが0みたいな場合です｡  1だから10％､ そうすると10％だけこの行動をして､ 90％はランダムな行動を選択することになる｡

07:12.120 --> 07:18.740
ソフトマックスは､ イプシロン貪欲アルゴリズムの次のステップというか､ より高度なバージョンというか､

07:18.960 --> 07:30.810
どちらもメリットがあって､ コーディングや実用的な場面でソフトマックスを使うことになるでしょう｡

07:30.810 --> 07:34.920
というわけで､ 今回はソフトマックスについて､ もう少し詳しくお話します｡ 

07:35.040 --> 07:36.300
では､ 見てみましょう｡ 

07:36.300 --> 07:37.770
では､ ソフトマックスの話に移ろう｡ 

07:37.770 --> 07:40.580
イプシロン成分について､ かなり明確になるといいのですが｡ 

07:40.720 --> 07:42.720
とてもわかりやすいアルゴリズムですね｡ 

07:42.720 --> 07:47.640
時々go and exploreをする以外は､ ほとんどこれを選択します｡ 

07:47.640 --> 07:55.950
また､ 最適化の過程で局所最大値に陥らないように､ 探索を行うことが重要な理由もわかってきました｡

07:55.950 --> 07:57.960
では次に､ ソフトマックスについてもう少し詳しくお話します｡ 

07:58.680 --> 08:02.700
の講座の最後にSoft Maxのチュートリアルがあるんです｡ 

08:02.700 --> 08:08.340
ソフトマックスのコンセプトについて話しているのは､ 別館の2号館だと思います｡ 

08:08.340 --> 08:09.900
ここでちょっとだけリフレッシュ｡ 

08:09.900 --> 08:12.780
そこで､ 彼らは畳み込みニューラルネットワークについて話していたのです｡ 

08:12.780 --> 08:18.780
ところで､ このセクションでは､ 畳み込みニューラルネットワークを取り上げますが､ 畳み込みニューラルネットワークを取り上げるわけではありません｡

08:18.930 --> 08:21.360
ここでは､ まだベクトルを使っています｡ 

08:21.570 --> 08:29.310
しかし､ 次の講座では､ ドゥームをプレイするAIを作るときに､ 畳み込みニューラルネットワークを使うことになります｡

08:29.310 --> 08:36.240
ですから､ 畳み込みニューラルネットワークを見てから､ ソフトマックス関数を取るのが得策かもしれませんね｡

08:36.240 --> 08:42.990
あるいは､ 後日､ コースの畳み込みニューラルネットワークとXを受講した後に､ SOF Maxについてもう少し勉強することもできます｡

08:42.990 --> 08:45.060
でも､ ここで簡単におさらいしておきましょう｡ 

08:45.060 --> 08:48.870
そこで､ 犬か猫かを判断する畳み込みニューラルネットワークを用意しました｡ 

08:48.870 --> 08:53.370
つまり､ このニューロン間の投票プロセスがあるわけです｡ 

08:53.370 --> 09:01.980
そして､ この作品は､ その特徴､ つまり､ ふわふわの耳､ 尖った､ 尖った顔のタイプを持っていると言っているのです｡

09:02.220 --> 09:09.870
そして､ 他の種類の目が持つ特徴のようなもの､ 目､ 目の見え方､ これらすべてが犬に属する特徴なのです｡

09:09.870 --> 09:13.620
つまり､ 95％の確率で犬､ 5％の確率で猫ということですね｡ 

09:13.620 --> 09:18.930
しかし､ 問題は､ どうやって､ 今話しているチュートリアルで､ これらの値の合計が1になるようにしたのか､

09:18.930 --> 09:20.310
ということです｡

09:20.610 --> 09:25.890
まあ､ 畳み込みやニューラルネットワーク全体がどうであれ､ です｡ 

09:25.890 --> 09:30.630
つまり､ 畳み込みニューラルネットワークと完全接続層､ それが吐き出した値が何であれ､

09:30.630 --> 09:33.810
ここにソフトマックス関数を適用したのです｡

09:33.810 --> 09:37.560
そして､ ここでソフトマックス関数の公式を紹介します｡ 

09:37.560 --> 09:38.640
このような感じです｡ 

09:38.640 --> 09:40.140
そして､ こんな値が出てきました｡ 

09:40.320 --> 09:43.380
というわけで､ 基本的にはざっとこんな感じです｡ 

09:43.380 --> 09:45.810
これがソフトマックスの公式です｡ 

09:45.810 --> 09:49.440
これは､ あなたが持っている出力の数を取るということです｡ 

09:49.470 --> 09:50.370
どうでもいいことです｡ 

09:50.820 --> 09:58.380
それを､ 大きさに関係なく､ 0から1の間の値にすべてつぶしてしまうのです｡

09:58.380 --> 09:58.890
ただ｡ 

09:59.290 --> 10:02.500
私の場合､ これを見ると､ 一番下に総和があるのがわかりますね｡ 

10:02.500 --> 10:04.780
つまり､ これらの値は0と1の間の0になるわけです｡ 

10:04.780 --> 10:08.170
また､ これらの値はすべて足し算で常に1つになるようにします｡ 

10:08.440 --> 10:16.720
ソフトマックス関数を使うと､ Q値が得られて､ その中から最適な値を選択することになりますから､

10:16.720 --> 10:21.340
これは非常に有益なことです｡

10:21.340 --> 10:26.650
しかし､ 実際には､ 私たちが得たこのQ値は､ 実際の数値なのですよね？

10:26.650 --> 10:28.510
つまり､ ある種の数字なんですね｡ 

10:28.840 --> 10:32.560
足して1でなくても､ 0から1でなくても､ いくつかの数字でいいんです｡ 

10:32.980 --> 10:36.040
しかし､ ソフトマックスを適用する場合､ 単に最適なものを選択するわけではありません｡ 

10:36.040 --> 10:38.140
実際にそういう数字が出るんですよ｡ 

10:38.140 --> 10:44.230
だから､ 0と1の間の数字が得られ､ それも足すと1になる｡ 

10:44.230 --> 10:47.140
それで､ 他に足し算で1つになるものがあるのでしょうか？

10:47.140 --> 10:50.110
さて､ 確率ですが､ 確率は常に足し算で1になることが分かっています｡ 

10:50.110 --> 10:57.910
だから､ ここでQ値が出たと思ったら､ ここで突然ソフトが出たり､ 確率が出たりするわけです｡

10:57.910 --> 11:02.620
だから､ これがベストな行動である可能性は90％だと言える｡ 

11:02.620 --> 11:05.770
ベストセクションのこのベスト､ 5％､ 2％､ 3％｡ 

11:05.770 --> 11:09.220
なぜなら､ Q値が高いほど良いアクションになることが分かっているからです｡ 

11:09.220 --> 11:14.710
そして､ 0から1につぶすと､ これらは確率となり､ そのように扱うことができるのです｡ 

11:14.920 --> 11:20.200
したがって､ 今はアクションが選択されたときです｡ 

11:20.200 --> 11:22.570
そして､ Q2を思いつくわけです｡ 

11:22.630 --> 11:28.280
でも､ よく見ると､ これは厳密には100％ではないし､ これらは0％でもない｡ 

11:28.300 --> 11:30.550
つまり､ これは5％､ 2％､ 3％ということですね｡ 

11:30.550 --> 11:41.230
ですから､ アルゴリズムで探索を維持するためにソフトマックスを適用する最も自然な方法は､

11:41.230 --> 11:48.520
その行動を取る頻度として正確な確率を使用することです｡

11:48.520 --> 11:54.400
つまり､ これらの確率は､ 実際に私たちが行っている行動の分布を表しているのです｡ 

11:54.400 --> 12:01.660
ですから､ 基本的にソフトマックスは､ エクスプロイトとエクスプロレーションを組み合わせる方法を非常に簡単に思いつくことができるのです｡ 

12:01.660 --> 12:06.490
つまり､ ベスト・ザ・ベストの行動は､ Q値が最も高いので､ 常に最も高い確率を持つことになる｡ 

12:06.490 --> 12:10.720
したがって､ ここでは､ ちょうど私たちはこれを分布として使うつもりです｡ そして､ よし､

12:10.720 --> 12:16.030
私たちはQから90％の時間を取るつもりですが､ 5％の時間はまだ取るつもりですと言うつもりです｡

12:16.030 --> 12:20.380
Q 1と2%で3､ 3%で取ることになる｡ 

12:20.380 --> 12:20.950
Q 4.

12:21.220 --> 12:27.040
そして､ ここでの素晴らしい点は､ これらの値が更新されるにつれて､ エージェントがネットワークを通過するにつれて､

12:27.040 --> 12:35.140
どんどん環境に慣れていき､ その結果､ これらの更新が行われるということです｡

12:35.140 --> 12:42.610
そのため､ 例えばこの値は実際にはもっと小さい､ あるいはもっと大きいということが確認されるかもしれません｡

12:42.610 --> 12:46.840
そして､ これらの確率も､ エージェントが進むにつれて変化していくわけです｡ 

12:46.840 --> 12:52.930
つまり､ ここではあなた方2人がいるにもかかわらず､ 誰も5%の確率で､ より正確にはQ1を選択し､

12:52.930 --> 12:59.290
時にはまたはアクション1がアクション1を取ることになり､ 2%の確率でアクション3を通してアクションを取り､

12:59.290 --> 13:06.370
3%の確率でアクション4が取ることになると言っているわけではありません｡

13:06.370 --> 13:17.860
ですから､ 十分な反復練習を行い､ エージェントがこれらの状態を何度も何度も繰り返す限り､ すべてのアクションがこのプロセスで活躍するチャンスがあるのです｡

13:17.860 --> 13:23.830
このように､ ディープラーニングのアルゴリズムは､ 何度も何度も繰り返して､

13:23.830 --> 13:27.100
経験から学んでいくものなのです｡

13:27.100 --> 13:34.120
したがって､ ここにあるように､ イプシロン貪欲アルゴリズムのように無作為に行うのではなく､ ごく自然に移行することができるのです｡

13:34.120 --> 13:37.330
アクションをランダムに選んでいるわけではないんです｡ 

13:37.330 --> 13:45.730
ソフトマックスの値に基づいて選択しているので､ ただ無作為に選ぶのではなく､ 何らかの論理的な裏付けがあるのです｡

13:45.730 --> 13:49.930
10%はランダムな行動を選択していますが､ その方法には何らかのロジックがあります｡ 

13:49.930 --> 13:52.690
そして､ そのQ値に基づいて､ 私たちは探求してきました｡ 

13:53.020 --> 13:58.540
それが､ この講座で使うアクションの選択方針です｡ 

13:58.540 --> 14:08.470
イプシロン・グリーディー・アクション・セレクションのポリシーも是非ご覧になってください｡

14:08.470 --> 14:11.320
そして､ 面白い読み物があるんです｡ 

14:11.320 --> 14:17.350
つまり､ これは価値差に基づく強化学習における適応的イプシロン貪欲探索と呼ばれるものです｡ 

14:17.350 --> 14:18.700
2010年の記事です｡ 

14:18.700 --> 14:24.010
それに､ マイク､ ミッシェル､ どう発音したらいいのかわからないから面白い｡ 

14:24.010 --> 14:31.450
MichelleとMichaelは､ VD VBアルゴリズムまたはε-greedy VBアルゴリズムと呼ばれる､

14:31.450 --> 14:38.950
調整されたε-greedyアルゴリズムと呼ばれる､ 異なるタイプのアルゴリズムを紹介しています｡

14:38.950 --> 14:39.880
こちらでご覧いただけます｡ 

14:40.270 --> 14:44.080
そして､ 実際にマックスのEPS成分と比較しているのです｡ 

14:44.080 --> 14:56.470
そして､ これはε-greedyアルゴリズムで､ 基本的にはエージェントの状態に応じてε-greedyの値を調整することが主な考え方です｡

14:56.470 --> 14:58.830
だから､ もしエージェントがとても心配しているのなら｡ 

14:59.000 --> 15:02.630
8つあればイプシロンが小さくなるので､ 探査が少なくなるはずです｡ 

15:02.630 --> 15:06.110
もし､ エージェントが不確かであれば､ イプシロンはより高く､ より探索的であるべきです｡ 

15:06.110 --> 15:08.120
だから､ 2010年の記事なんです｡ 

15:09.020 --> 15:23.030
この新しいアルゴリズムが広く使われているのか､ コミュニティで受け入れられているのか､ それとも人工知能がこの提案から遠ざかっているのかは分かりませんが｡

15:23.030 --> 15:30.020
しかし､ それにもかかわらず､ 我々が議論したアクション選択ポリシーに関する知識を強化するのに役立つことは間違いありません｡

15:30.020 --> 15:32.090
イプシロン成分､ ソフトMAXで対応します｡ 

15:32.090 --> 15:39.230
並べて比較することで､ 人工知能を向上させたいと考えたときに､ 実際にどのような方向で考えているのかを知る機会にもなると思います｡

15:39.230 --> 15:47.360
もしあなたが､ 人工知能の限界を超えるような面白いアルゴリズムを作ろうと思っているなら､

15:47.360 --> 15:54.560
人工知能の規範や2010年当時の規範を改善しようとするときに､

15:54.560 --> 16:03.470
人々がどのような方向に考えるかを知る良い方法かもしれません｡

16:03.800 --> 16:04.670
そうそう､ そうなんです｡ 

16:04.700 --> 16:09.860
本日のチュートリアルでは､ アクションの選択方法について説明しましたが､ いかがでしたでしょうか｡ 

16:10.040 --> 16:18.050
イプシロングリーディー､ イプシロンソフト､ ソフトマックスについて学び､ これでさらに実践的な準備が整いましたね｡

16:18.050 --> 16:20.720
というわけで､ 次回もよろしくお願いします｡ 

16:20.720 --> 16:22.130
そしてそれまで､ お楽しみに｡ 

16:22.130 --> 16:22.670
I.