WEBVTT

00:00.830 --> 00:04.470
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.580 --> 00:09.520
Espero que você esteja entusiasmado com o tutorial de hoje porque estamos dando o primeiro passo para

00:09.520 --> 00:10.170
o mundo.

00:10.460 --> 00:13.150
E hoje estamos falando sobre o aprendizado de reforço.

00:13.280 --> 00:18.710
É uma história muito importante porque apoiará tudo o que acontecerá neste curso.

00:18.770 --> 00:21.010
Então vamos começar aqui.

00:21.020 --> 00:27.140
Temos um pequeno labirinto e este labirinto é a nossa representação de um ambiente e é

00:27.140 --> 00:29.210
isso que vamos tratar neste curso.

00:29.210 --> 00:34.040
Nós vamos lidar com certos ambientes nos quais a nossa inteligência artificial

00:34.040 --> 00:39.950
vai estar executando, vai tomar medidas, ela vai estar procurando vencer isso no meu caminho,

00:39.950 --> 00:42.350
ela estará procurando ganhar nesses ambientes.

00:42.350 --> 00:44.190
E aqui temos um agente.

00:44.360 --> 00:46.990
O agente é a nossa inteligência artificial.

00:47.030 --> 00:52.910
Essa é a pessoa ou essa é a mente que vai estar navegando nesses ambientes e aprendendo

00:53.000 --> 00:57.110
com o feedback que suas mentes vão dar para realizar determinadas ações.

00:57.150 --> 01:02.180
E assim, a maneira como funciona é que o agente realiza certas ações nesse ambiente.

01:02.360 --> 01:09.050
E, como resultado, o estado em que se encontra mudará para que seja mais ou mais próximo ou mais à esquerda

01:09.050 --> 01:10.070
mais à direita.

01:10.070 --> 01:15.030
Pode ter uma espécie de outros parâmetros que descrevem esse estado e esses parâmetros.

01:15.100 --> 01:20.720
Então, o estado vai mudar por causa da ação e também receberá recompensas com base na

01:20.720 --> 01:20.970
ação.

01:20.970 --> 01:24.950
Então, cada vez que leva uma ação, o estado mudará e receberá recompensa.

01:24.950 --> 01:29.170
Agora tenha em mente que, às vezes, pode acontecer que não altere o estado em que

01:29.170 --> 01:33.070
a ação não alterará uma estadia ou não haverá uma recompensa por tomar essa ação.

01:33.110 --> 01:34.530
Nesse sentido, era.

01:34.670 --> 01:38.480
Mas, no entanto, o agente vai continuar fazendo isso, vai tomar atitudes para enganar

01:38.480 --> 01:42.510
o estado, recebendo recompensas, mudando a ação tomando ações mudando o estado e recebendo recompensas.

01:42.800 --> 01:47.840
E ao fazer esse processo, estará aprendendo sobre o que seria explorar o meio

01:48.200 --> 01:53.970
ambiente, entendendo quais ações levam a boas recompensas e estados favoráveis ​​e quais ações as

01:53.990 --> 01:55.840
duas recompensam um estado desfavorável.

01:56.000 --> 01:59.690
E este é um problema muito global de representação muito global.

01:59.690 --> 02:04.390
Então, se você pensa sobre isso, os ambientes realmente não precisam ser apenas labirintos.

02:04.400 --> 02:09.170
Não se trata apenas de sair de um labirinto ou encontrar um tesouro em um labirinto.

02:09.170 --> 02:11.740
Um ambiente pode ser praticamente qualquer coisa na vida.

02:11.750 --> 02:15.180
Então imagine que você acorda de manhã e cozinhe uma omelete.

02:15.410 --> 02:22.010
Então, para fazer essa omelete você precisa passar por certas etapas que você precisa para obter o sal, pegue os

02:22.010 --> 02:27.770
ovos para obter as frigideiras que disparam e assim por diante e soa como uma coisa comum rotineira.

02:27.770 --> 02:29.870
Mas tornou-se uma rotina porque você fez isso tantas vezes.

02:29.960 --> 02:34.670
ações que você está levando para colocar você no fogo, colocando uma frigideira no fogo, você está colocando

02:34.670 --> 02:40.250
todos os ovos na frigideira e você coloca um pouco de sal nos ovos e você está virando e assim por diante.

02:40.250 --> 02:43.190
Mas, na realidade, é um ambiente onde você está realizando certas

02:43.190 --> 02:49.970
Então, como você pode ver, são ações de ações do CRN que estão levando certos estados e essas ações levam

02:49.970 --> 02:52.460
a certos outros estados e às vezes recompensam.

02:52.460 --> 02:57.650
Então, por exemplo, quando você coloca o fogo e espera, espere, espere, espere, espere, espere,

02:57.650 --> 03:01.900
espere, espere, espere, aguarde muito e então coloque os ovos na frigideira.

03:01.910 --> 03:03.560
As recompensas serão muito negativas.

03:03.560 --> 03:05.120
Tudo vai queimar.

03:05.120 --> 03:10.130
então também é muito importante entender que as ações devem ser tomadas nos momentos corretos no tempo.

03:10.130 --> 03:13.850
Por outro lado, se você fizer todas as ações corretas na hora correta,

03:13.850 --> 03:20.090
Então, por exemplo, colocar o sal na frigideira antes de colocar os ovos pode não ser a

03:20.090 --> 03:20.770
melhor idéia.

03:20.780 --> 03:26.190
Você pode querer tomar essa ação de colocar o sal na frigideira depois que os ovos estão lá,

03:26.200 --> 03:28.320
de modo que em um estado diferente.

03:28.370 --> 03:29.620
Portanto, é importante lembrar disso.

03:29.780 --> 03:34.070
E ao mesmo tempo, então, se você tomar todas as ações corretas na ordem correta nos

03:34.580 --> 03:38.840
estados corretos, sua recompensa final pode ser que você obtenha uma omelete que você possa comer.

03:38.900 --> 03:44.660
E assim é uma atividade muito básica em sua vida, mas se você pensa sobre isso, é realmente um ambiente e

03:44.990 --> 03:50.060
você é o agente que passa por esse ambiente e executa uma tarefa que você realmente não precisa aprender

03:50.060 --> 03:52.190
nada porque você já conhece muito bem .

03:52.220 --> 03:56.170
Mas, ao mesmo tempo, você poderia aprender, talvez você pudesse aprender a fazer um omelete melhor ou, especialmente,

03:56.340 --> 03:59.010
se é sua primeira omelete que você está fazendo, você provavelmente vai estragar.

03:59.030 --> 04:04.010
Mas você aprenderá disso porque você entenderá quais ações levam a estados e rotas e qualquer

04:04.490 --> 04:05.890
outra coisa na vida.

04:06.050 --> 04:11.900
e vender e obter feedback certo do mercado no sentido de retornar retornos positivos ou negativos.

04:11.900 --> 04:16.390
Por exemplo, mesmo negociando no mercado de ações e você sabe comprar

04:16.430 --> 04:20.160
Esse também é um ambiente que você está participando desse ambiente como idoso.

04:20.210 --> 04:25.220
Conduzir um carro também é um ambiente onde você pode girar o volante, você pode acelerar, você pode

04:25.220 --> 04:29.510
quebrar e assim por diante e você está recebendo comentários do meio ambiente e você sabe

04:29.510 --> 04:35.840
que um desses comentários é o policial que lhe dá uma multa acelerada se você ' indo acima do limite de velocidade aceitável

04:35.840 --> 04:36.960
ou permitido nessa rodovia.

04:37.040 --> 04:41.900
E, portanto, a partir daí, você aprende que não é algo que deve ser feito porque leva

04:41.900 --> 04:43.020
a uma recompensa negativa.

04:43.220 --> 04:45.590
Portanto, recompensas não precisam estar no final do processo.

04:45.590 --> 04:48.020
Eles podem estar durante toda a jornada ao longo do processo.

04:48.020 --> 04:49.490
Então, esses são alguns exemplos.

04:49.490 --> 04:54.980
E, em termos de eu, a maneira mais simples de pensar em reforçar a aprendizagem é como treinar um cão quando você

04:54.980 --> 05:00.270
treina o cão para dar certos comandos e se obedecer a esses comandos, então você dá um alcance você dá como

05:00.440 --> 05:04.820
um biscoito ou algo assim Se não é Abeles Kamaz, você diz que é um cão ruim

05:04.820 --> 05:06.600
ou você simplesmente não dá um deleite.

05:06.830 --> 05:13.820
para fazer a ação que precisa levar em certos estados e os estados são os comandos que você está dando.

05:13.820 --> 05:18.470
E através desse processo, ele aprende quais determinados comandos ou o que precisa

05:18.470 --> 05:22.700
E com base nisso, obterá algumas recompensas certas, é claro, no mundo da AI.

05:22.700 --> 05:24.590
Não é tão complexo.

05:24.590 --> 05:26.910
Você não precisa dar os deleites.

05:26.960 --> 05:32.120
Você não tem que ter como uma bolsa de biscoitos com você toda vez que você apenas dá uma

05:32.120 --> 05:37.290
mais uma ou uma menos, então é uma grande vantagem que, no mundo da IA, criamos esses AIs nós mesmos.

05:37.310 --> 05:42.680
Então, as recompensas que estamos dando a eles se você achar wow, isso é realmente uma recompensa legal, dando-lhes que

05:42.680 --> 05:48.490
eles realmente não existem. Eles são apenas um plus ou menos um ou mais um ou um zero ou algo assim.

05:48.500 --> 05:51.100
Então, é toda a inexistência de todo o material imaginário.

05:51.110 --> 05:56.300
Mas, ao mesmo tempo, leva a ótimos resultados, pois podemos criar essas incríveis coisas dessa

05:56.300 --> 06:01.760
incrível inteligência artificial, como por essa incrível inteligência artificial apenas fornecendo recompensas, nós realmente não existem.

06:01.790 --> 06:05.670
Plus e menos um não custa nada além de resultados de liberação da mesma hora.

06:05.900 --> 06:08.170
Muito semelhante ao mundo real.

06:08.210 --> 06:15.140
E você sabe, por exemplo, Docks. Mas aqui as recompensas são digitais e apenas números.

06:15.140 --> 06:20.920
então isso é apenas em fotos, não necessariamente, aquele cão de robô exato que você conhece que é treinado

06:20.920 --> 06:26.630
através do reforço aprendendo alguns dos cães robôs, especialmente os mais antigos que você teria um algoritmo lá.

06:26.710 --> 06:31.050
E com isso em mente, podemos falar sobre cães robô, eu amo este exemplo,

06:31.370 --> 06:39.260
E este é realmente um bom exemplo da diferença entre os agentes pré-programados e o agente de aprendizado de

06:39.260 --> 06:46.120
reforço para que você possa ter um cão robô que é pré-programado para como andar ele dirá.

06:46.160 --> 06:51.500
Então, no algoritmo por trás do cão, o software irá dizer OK, então, para andar, você precisa mover sua perna esquerda para a

06:52.370 --> 06:58.160
frente perna esquerda para a frente, em seguida, sua perna direita para trás, em seguida, sua perna direita da frente para a frente e sua

06:58.160 --> 07:02.480
perna esquerda para a frente para a frente e repita essa ação e você sabe que essa é

07:02.480 --> 07:04.870
a definição de andar é uma função dentro desse cachorro.

07:05.040 --> 07:09.060
E então talvez você saiba como se sentar como ficar e coisas assim.

07:09.680 --> 07:16.360
Considerando que, em um cão robô que é treinado através do reforço, aprender o que acontece é que você não o

07:16.360 --> 07:16.710
préprograma.

07:16.730 --> 07:23.810
Este é o conceito-chave para tudo aqui que você não tem nenhum algoritmo dentro que seja codificado

07:23.810 --> 07:24.850
no cão.

07:24.860 --> 07:28.300
Em vez disso, você tem o que estaremos discutindo no futuro.

07:28.460 --> 07:36.710
Você tem esse algoritmo de aprendizado de reforço que é dito que OK, então o objetivo é chegar de onde

07:36.860 --> 07:41.990
você agora não está sabendo nada para o final da sala, por exemplo.

07:42.170 --> 07:44.270
E aqui estão as ações que você pode tomar.

07:44.270 --> 07:48.950
Você pode mover o pé direito, você pode mover o pé esquerdo, você pode mover o pé direito para trás, você está

07:48.950 --> 07:53.000
de volta para o pé, então, aqui todos os graus de liberdade que você pode fazer você pode movê-lo

07:53.000 --> 07:59.180
assim, você pode se mover assim, assim como uma lista de as ações que você pode tomar e suas recompensas são cada vez que você dá um passo à

07:59.210 --> 08:01.430
frente, você ganha um mais cada vez que você cair.

08:01.430 --> 08:04.090
Você recebe um menos e isso é tudo aí.

08:04.160 --> 08:07.390
E então eles simplesmente deixam o cachorro e deixam-no descobrir por conta própria.

08:07.400 --> 08:13.460
Então, o cão tenta ficar de pé cai, então percebe que OK, eu não deveria fazer aquela ação que me levou a cair porque cada

08:13.460 --> 08:17.040
vez que eu caio eu recebo um menos que não é bom para mim então.

08:17.060 --> 08:21.560
Da mesma forma, a outra ação que o ajudou a levantar-se e, então, as figuras são apenas

08:21.560 --> 08:26.090
experimentos experimentos experimente aleatoriamente as coisas de Tri e, em seguida, descobre que pode dar um passo

08:26.090 --> 08:31.410
adiante, movendo-se o pé direito da frente e ele recebe um mais e percebe o que eu deveria faça mais disso.

08:31.460 --> 08:35.620
OK, então agora aprende que deve fazer mais disso e menos disso.

08:35.630 --> 08:42.270
E através deste processo de aprendizado, ele rapidamente compreende rapidamente como ele pode andar.

08:42.410 --> 08:49.130
aqueles aqueles cachorros que descobriram por conta própria podem às vezes andar melhor do que os cães que são pré-programados porque as

08:49.130 --> 08:53.930
coisas realmente pré-programadas olhamos para os cães da vida real e ou você sabe que usamos

08:53.930 --> 08:59.960
nossa própria imaginação como fazê-lo, enquanto um cão de aprendizado de reforço pode otimize as coisas por conta própria.

08:59.960 --> 09:00.300
E

09:00.320 --> 09:03.540
E porque na AI às vezes pode obter resultados ainda melhores.

09:03.680 --> 09:05.290
E é assim que eles podem treinar esses robôs.

09:05.320 --> 09:07.320
Os mesmos cães de robô para jogar futebol.

09:07.520 --> 09:12.970
Você pode treinar um cão normal para jogar futebol, porque você sabe que simplesmente toda a abordagem é diferente.

09:12.980 --> 09:20.900
E não é algo que você sabe que provavelmente um cão normal foi treinado para fazer ou já fez

09:20.900 --> 09:23.030
no processo de sua evolução.

09:23.030 --> 09:28.190
que você diga o que as recompensas são quais são as metas que as ações possíveis podem levar.

09:28.190 --> 09:32.760
Considerando que um robô de aprendizado de reforço pode facilmente entender como jogar futebol, desde

09:33.080 --> 09:36.390
Então é assim que o aprendizado de reforço funciona.

09:36.410 --> 09:39.160
Em geral, há uma visão geral rápida da aprendizagem de reforço.

09:39.170 --> 09:45.500
Espero que você tenha ficado entusiasmado com o que aconteceria depois, porque é um mundo completamente diferente em

09:45.530 --> 09:51.980
comparação com as soluções do préprograma, um programa difícil de soluções codificadas, onde você tem as demais condições.

09:51.980 --> 09:53.750
Isso é muito diferente.

09:53.840 --> 09:56.010
E vamos falar mais sobre isso.

09:56.150 --> 10:03.400
se você quiser ter alguns materiais de apoio. Aqui está um ótimo artigo sobre o qual você pode olhar e olhar.

10:03.700 --> 10:06.810
Enquanto isso, temos algumas leituras adicionais para você, então,

10:06.830 --> 10:09.300
É chamado de aprendizagem de reforço simples com fluxo tensor.

10:09.430 --> 10:10.570
Tem dez partes.

10:10.570 --> 10:14.790
O link está aqui e você encontrará o link clicável completo em.

10:14.820 --> 10:22.540
No curso dos recursos pelo artigo de Arthur Giuliani em 2016 e você pode seguir este curso e também

10:22.540 --> 10:24.770
obter informações adicionais desse artigo.

10:24.790 --> 10:30.010
pi torche, uma implementação tão diferente, mas implantações, mas ao mesmo tempo você pode pegar algumas

10:30.520 --> 10:35.830
coisas aqui e ali que podem complementar sua aprendizagem que somos Estará a fazer neste curso.

10:35.830 --> 10:41.260
Mas tenha em mente que esse artigo tende a fluir onde, como neste curso, estamos usando

10:41.260 --> 10:44.910
Então, ótimos artigos seguem você se você está pensando em segui-lo com certeza.

10:44.920 --> 10:45.820
Ainda pelo caso.

10:45.820 --> 10:51.890
Verifique se a primeira parte e veja se você gosta, veja se você gostaria de ler um pouco mais.

10:52.210 --> 10:58.210
E então, temos específico para este tutorial uma aplicação da lei de fronteira, há um artigo de Richard Sutton,

10:58.210 --> 11:00.380
que é chamado de aprendizagem de reforço.

11:00.420 --> 11:08.170
ao mesmo tempo, você pode aprender um pouco sobre o reforço aprendendo alguns dos exemplos como esse, o exemplo de omlet e outros exemplos

11:08.170 --> 11:13.960
de onde o aprendizado de reforço pode ser aplicado e apenas uma visão geral da aprendizagem de reforço.

11:13.960 --> 11:17.710
Uma introdução é que os artigos de 1998 são bastante antigos, mas,

11:17.710 --> 11:23.220
Se você está procurando alguma leitura adicional e, nessa nota, vamos encerrar este tutorial.

11:23.230 --> 11:24.640
Não posso esperar para vê-lo na próxima vez.

11:24.640 --> 11:26.560
E até então, desfrute da AI.