WEBVTT

00:00.360 --> 00:06.360
Olá e seja bem vindo ao tutorial divertido deste primeiro automóvel de auto-condução do módulo, será épico.

00:06.360 --> 00:11.850
Nós vamos testar nosso olho no meio ambiente e nós vamos testá-lo em quatro níveis diferentes.

00:11.850 --> 00:16.620
Isso é que vamos jogar um jogo, o jogo terá quatro níveis de dificuldade e o objetivo terá

00:16.620 --> 00:18.280
que passar por esses quatro níveis.

00:18.420 --> 00:20.640
Então, vamos ser esses quatro níveis.

00:20.640 --> 00:27.480
Primeiro nível um, o primeiro nível será chegar ao aeroporto e fazer algumas viagens de ida e volta entre o aeroporto

00:27.480 --> 00:29.160
e o centro da cidade.

00:29.340 --> 00:35.430
essas viagens redondas. Bem, nós passamos nível 1, e Nível 2 Nível 2 será ainda fazer essas viagens de ida e volta.

00:35.450 --> 00:37.490
Então, assim que vemos o carro fazer

00:37.560 --> 00:43.290
Mas na estrada específica que nos desenhamos, mas será uma estrada fácil porque é nível

00:43.290 --> 00:43.840
2.

00:43.980 --> 00:49.030
E é claro que o carro terá que se auto-dirigir ao permanecer naquela estrada.

00:49.170 --> 00:53.420
Então, será uma estrada que vai do aeroporto para o centro da cidade e depois do outro lado.

00:53.420 --> 00:57.010
E assim o carro terá que fazer essas viagens de ida e volta ao lado dessa estrada.

00:57.210 --> 01:00.980
Se o fizer, passaremos pelo nível 2 e nível 3.

01:01.030 --> 01:07.410
criar alguns obstáculos no mapa para ver se o carro consegue evitar os obstáculos e ainda alcançar seu objetivo.

01:07.410 --> 01:08.850
O nível 3 será

01:08.910 --> 01:12.730
Portanto, nenhuma preocupação desencadeará alguns obstáculos difíceis que o carro terá que evitar.

01:12.930 --> 01:20.010
E veremos se conseguiu chegar ao aeroporto e ao centro da cidade e, finalmente, para o nível mais desafiador

01:20.010 --> 01:25.380
do carro, será desenhar uma estrada muito difícil para chegar ao centro da cidade.

01:25.440 --> 01:28.060
Então eu não sei que você sabe que será uma estrada como um ziguezague.

01:28.200 --> 01:31.720
Eu não sou um arquiteto brilhante, mas vou tentar fazer uma estrada desafiadora.

01:31.950 --> 01:37.830
Então, esperemos que possamos passar pelo menos o primeiro nível que seria ótimo, então esperemos que possamos passar pelo

01:37.920 --> 01:39.190
nível dois e três.

01:39.420 --> 01:42.180
E se nós passamos nível 4 que seria maravilhoso.

01:42.180 --> 01:44.540
Então, vamos fazer isso, vamos fazer o desafio.

01:44.610 --> 01:49.840
Bem, na verdade, o carro auto-dirigido vai levar o desafio, mas nós somos os cérebros por trás disso.

01:49.860 --> 01:52.110
Então, diga como isso funciona.

01:52.110 --> 01:57.280
Tudo bem, então a primeira coisa que vou fazer é apenas dar uma lembrete rápido sobre o mapa.

01:57.330 --> 01:59.060
Então esse é o mapa.

01:59.190 --> 02:03.810
E, primeiro, vamos olhar para o mapa, vamos olhar para o carro auto-dirigido sem o

02:04.020 --> 02:09.540
AI para que seja apenas um carro que tenha essas ações aleatórias que você viu no início deste modelo.

02:09.600 --> 02:10.970
Então, como podemos observar isso.

02:11.040 --> 02:15.330
Bem, temos que desativar a IA e a atividade.

02:15.570 --> 02:19.590
Nós simplesmente precisamos colocar uma temperatura igual a zero.

02:19.620 --> 02:22.380
Lembre-se que o parâmetro aqui é a temperatura.

02:22.560 --> 02:24.240
E agora é igual a sete.

02:24.300 --> 02:25.830
Isso é uma temperatura baixa.

02:25.830 --> 02:27.280
Vamos aumentar isso depois.

02:27.510 --> 02:32.700
seja se não quisermos ativar a AI, simplesmente precisamos ajustar a temperatura para zero igual a zero.

02:32.700 --> 02:36.210
Mas se não quisermos que o carro tenha um cérebro que

02:36.210 --> 02:39.980
E o mesmo aqui, claro, essa é a temperatura real no frio também.

02:39.990 --> 02:40.460
Aqui vamos nós.

02:40.470 --> 02:45.580
E então não devemos nos esquecer de dizer porque, de outra forma, isso não incluirá a mudança.

02:45.800 --> 02:47.120
Acho que agora não temos nenhum.

02:47.130 --> 02:49.210
Eu vejo que eu costumava ativá-lo.

02:49.260 --> 02:53.180
Então, vamos dar uma olhada no mapa apenas para nos dar uma rápida atualização.

02:53.220 --> 02:55.370
Uma rápida lembrança sobre o que parece.

02:55.530 --> 03:01.070
Então vou selecionar tudo e pressione enter.

03:01.090 --> 03:01.630
Tudo bem.

03:01.630 --> 03:03.840
E o nosso mapa e o nosso carro.

03:03.880 --> 03:09.540
Então, como você pode ver o carro está tendo ações totalmente aleatórias, você sabe ir para a esquerda

03:09.540 --> 03:16.480
para ir direto para a direita e, portanto, não está chegando ao aeroporto, que eu lembro no canto superior esquerdo do mapa e

03:16.870 --> 03:17.500
não alcançá-lo.

03:17.550 --> 03:18.410
Bem, ele simplesmente fez.

03:18.470 --> 03:20.230
Isso é totalmente aleatório.

03:20.230 --> 03:26.680
Você vê isso agora é no aeroporto e não está alcançando o outro objetivo que está no centro, no

03:26.680 --> 03:28.220
canto inferior direito do mapa.

03:28.480 --> 03:34.030
Então, éramos exatamente aqui, mas podemos ver claramente agora que as ações são totalmente aleatórias.

03:34.030 --> 03:40.270
Não está indo a lugar nenhum e definitivamente não há inteligência artificial, mas não tem preocupações.

03:40.270 --> 03:42.080
Vamos ativá-lo agora.

03:42.370 --> 03:49.480
Eu vou fechar o mapa e então vou reiniciar o kernel, reinicie o DeCarlo.

03:49.760 --> 03:52.390
Você clicou neste botão da ferramenta aqui e sim sim.

03:52.820 --> 04:00.730
agora, hora do show, finalmente vamos colocar este trem que fizemos no carro e ativa o AI.

04:00.730 --> 04:01.350
E

04:01.700 --> 04:04.090
Estou super animado para ver o que vai acontecer.

04:04.180 --> 04:10.730
Vamos ativar o ar agora e, para fazer isso, precisamos elevar a temperatura para mudar

04:10.730 --> 04:17.300
a temperatura que é substituída em zero por bem, vamos começar com sete como antes.

04:17.450 --> 04:19.660
Então, especifique sete aqui.

04:19.670 --> 04:21.510
Tudo bem, não nos esqueçamos de dizer.

04:21.590 --> 04:26.870
E agora vamos voltar ao nosso mapa e agora podemos apenas re-executar isso novamente porque

04:26.870 --> 04:27.790
reiniciamos o kernel.

04:27.890 --> 04:29.470
Então digamos isso.

04:29.990 --> 04:31.790
E aí nós vamos, temos o carro.

04:31.790 --> 04:33.600
E o que está fazendo?

04:33.890 --> 04:41.180
Bem, está tentando encontrar o seu caminho, é explorar o seu entendimento do que tem que fazer e está prestes a chegar

04:41.180 --> 04:47.900
ao aeroporto e lá vamos primeiro, chegamos maravilhosamente e agora o próximo objetivo é chegar ao centro da cidade e

04:48.140 --> 04:50.540
lá morto, apenas chegar ao centro da cidade.

04:50.810 --> 04:56.750
E agora está tentando encontrar o aeroporto de volta para o aeroporto e lá lá novamente Wonderfalls

04:56.750 --> 04:57.450
que funciona.

04:57.470 --> 05:03.200
Não demorou muito para explorar aprender com os erros que você conhece, o erro aqui é se

05:03.200 --> 05:04.380
afastar da vida.

05:04.520 --> 05:08.770
É aí que punimos o carro dando uma recompensa ligeiramente negativa.

05:08.780 --> 05:10.270
Você sabe que é menos 0. 2.

05:10.550 --> 05:16.760
Então, ele aprende com esse erro e, aprendendo com esse erro, conseguiu obter as

05:17.000 --> 05:18.980
recompensas positivas aproximando-se do objetivo.

05:19.310 --> 05:21.940
E agora, finalmente, entendeu o que tem a fazer.

05:21.980 --> 05:28.530
É definitivamente chegar ao aeroporto e, em seguida, chegar ao centro da cidade e depois fazer essas viagens de ida e volta.

05:28.550 --> 05:29.970
Perfeito.

05:29.990 --> 05:36.090
Nós temos um carro auto-dirigido, mas não posso deixar de notar que parece um inseto.

05:36.170 --> 05:38.510
O carro realmente não parece seguro.

05:38.510 --> 05:40.610
Não, não tem um movimento muito confiante.

05:40.610 --> 05:44.570
É como a sua esquerda e direita que não está se movendo como um movimento de carro.

05:44.660 --> 05:46.090
Parece mais um bug.

05:46.490 --> 05:47.820
Então, vamos consertar isso.

05:47.930 --> 05:54.560
temperatura é o parâmetro na função Mac suave que podemos aumentar para que a ação seja retornada com mais certeza.

05:54.560 --> 05:59.690
E como você pode ter adivinhado a maneira de corrigir isso é aumentar a temperatura porque

05:59.690 --> 06:00.730
lembre-se que a

06:00.830 --> 06:05.630
Então, isso faz sentido que, se aumentarmos a temperatura, poderemos acabar comprando um carro com

06:05.630 --> 06:09.750
certeza, porque a AI ficará mais segura de qual ação deveria desempenhar.

06:10.220 --> 06:15.350
E isso lembra é porque a ação será jogada com maior probabilidade.

06:15.350 --> 06:20.780
O único problema com isso aumentando a temperatura é que lembre-se que a AI é

06:20.780 --> 06:26.380
menos explorar as outras ações, porque ao aumentar a temperatura das outras ações, teremos baixas probabilidades.

06:26.380 --> 06:31.760
isso não parece ser um problema porque o carro parece não ter problemas para alcançar seus objetivos.

06:31.760 --> 06:32.310
Mas agora,

06:32.420 --> 06:38.840
O aeroporto para o centro, para que possamos aumentar totalmente a temperatura se quisermos que isso

06:38.840 --> 06:41.140
pareça um inseto como um carro.

06:41.390 --> 06:42.620
Então vamos fazer isso.

06:42.620 --> 06:45.530
Eu vou fechar isso agora.

06:45.530 --> 06:46.370
Aqui vamos nós.

06:46.370 --> 06:48.310
Reinicie o kernel novamente.

06:49.430 --> 06:50.590
E pressione sim.

06:50.830 --> 06:52.810
E agora vamos aumentar a temperatura.

06:53.200 --> 06:54.090
Então vamos fazer isso.

06:54.100 --> 07:02.170
Volto para o meu arquivo e substitui sete por 100. Lá vamos.

07:02.340 --> 07:03.410
Então, economizamos.

07:03.720 --> 07:07.890
E agora temos um carro auto-dirigido seguro de si mesmo.

07:07.890 --> 07:11.990
Então, podemos obter melhores resultados e podemos obter algo que parece mais um carro.

07:12.270 --> 07:15.780
Vamos pegar um mapa e depois vamos fazer isso novamente.

07:16.610 --> 07:18.900
Tudo bem, o que aconteceu.

07:18.920 --> 07:19.730
ESTÁ BEM.

07:19.830 --> 07:21.340
Fez algum tipo de burnout.

07:21.350 --> 07:22.190
Não tenho certeza por quê.

07:22.310 --> 07:25.980
Mas de qualquer maneira, agora temos algo que parece mais um carro.

07:26.060 --> 07:28.240
Você pode ver que está indo mais direto.

07:28.240 --> 07:31.190
Não está a fazer estes rápidos movimentos à esquerda e à direita.

07:31.190 --> 07:36.410
Isso é porque agora o carro está mais seguro de qual direção tomar e cada vez que você sabe que

07:36.410 --> 07:40.720
quer tomar a melhor direção indo para o aeroporto e depois para o centro da cidade.

07:41.000 --> 07:44.490
Então, claramente podemos dizer que passamos no primeiro nível.

07:44.510 --> 07:47.840
O carro está fazendo essas viagens de ida e volta entre o aeroporto e o centro da cidade.

07:47.990 --> 07:52.610
Então, vamos salvar isso, e vou mostrar-lhe como salvar o cérebro.

07:52.610 --> 07:59.520
Nós só precisamos clicar neste botão de salvamento e se olharmos o que acontece aqui.

07:59.520 --> 08:04.640
Bem, nós temos a curva do que estávamos no começo, podemos observar alguns erros que cometeu.

08:04.740 --> 08:06.990
Então é aí que a recompensa é negativa.

08:07.170 --> 08:14.280
Mas então ele aprendeu com seus erros e a recompensa aumentou pouco a pouco até chegar a uma recompensa positiva

08:14.280 --> 08:19.100
constante igual a abrir uma, mas essa é a máxima recompensa que estabelecemos.

08:19.200 --> 08:21.640
E isso porque acabou explorando.

08:21.870 --> 08:23.490
Essa é a fase de expiração.

08:23.670 --> 08:26.200
E então só sabia o que tinha que fazer.

08:26.230 --> 08:32.230
Foi aí que estava fazendo essa rodada Rountree entre o aeroporto e o centro da cidade sem nenhum erro.

08:32.640 --> 08:33.450
Então vamos lá.

08:33.450 --> 08:34.470
Passamos nível um.

08:34.470 --> 08:35.850
Parabéns.

08:35.850 --> 08:38.170
Agora vamos fazer as coisas mais desafiadoras.

08:38.190 --> 08:40.120
Vamos levar as coisas no próximo nível.

08:40.140 --> 08:45.810
Vamos tentar passar ao nível do qual eu lembro que nós fazemos essas viagens de ida e volta em uma estrada específica.

08:45.830 --> 08:47.060
Nós vamos nos desenhar.

08:47.120 --> 08:49.170
Então vamos verificar isso no próximo trabalho.

08:49.200 --> 08:50.780
E até então eu.
