WEBVTT

00:00.590 --> 00:03.970
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.070 --> 00:05.420
Espero que você esteja gostando do curso até agora.

00:05.420 --> 00:09.050
E hoje estamos falando sobre a ação das políticas de seleção.

00:09.050 --> 00:11.010
Tudo bem, vamos entrar diretamente nisso.

00:11.030 --> 00:17.930
Anteriormente, falamos sobre a adição de uma rede neural ao nosso aprendizado simples

00:18.020 --> 00:21.230
e, até agora, estamos aprendendo profundamente.

00:21.230 --> 00:26.620
Nós conversamos um pouco sobre a parte de aprendizagem, incluindo a adição de alguns elementos.

00:26.630 --> 00:30.020
E hoje estamos falando sobre essa parte, estamos falando sobre a atuação.

00:30.020 --> 00:31.290
Então vamos dar uma olhada.

00:31.310 --> 00:38.690
Então, aqui, temos o que discutimos sobre a atuação que, uma vez que você inseriu os valores, os parâmetros são o vetor que

00:38.690 --> 00:45.230
descreve o agente do estado é claramente nesse ambiente, então é depois de todo o aprendizado é feito ou mesmo

00:45.230 --> 00:47.290
antes que o aprendizado seja feito.

00:47.420 --> 00:52.000
Basicamente, nós obtemos todos os valores de q, então não estamos interessados ​​em aprender agora,

00:52.010 --> 00:57.350
insistimos em agir, então, uma vez que temos esses valores fundamentais, como entendemos qual deles precisamos usar.

00:57.350 --> 00:58.910
Bem, se você pensar sobre isso.

00:58.910 --> 01:01.890
Os valores de Q são simplesmente previsões para o cubo.

01:01.910 --> 01:08.630
Então, como fizemos no algoritmo de aprendizagem simples, o que fizemos, acabamos de selecionar aquele com o melhor

01:09.180 --> 01:10.420
do maior valor.

01:10.430 --> 01:15.380
Uma vez que temos o valor de QI mais alto, nós apenas tomamos essa ação, porque isso nos

01:15.380 --> 01:20.330
traz o valor mais alto e sabemos que a recompensa imediata da calculadora de Duval que esperamos receber

01:20.360 --> 01:23.100
mais o fator DK vezes o valor da próxima data.

01:23.120 --> 01:29.480
E é um cálculo recursivo, então por que não, por que você não tiraria o melhor valor, e esse é

01:29.480 --> 01:30.570
o fim do fim.

01:30.800 --> 01:35.360
aqui, estamos usando uma função máxima macia e é aqui que vamos falar sobre políticas de seleção reais.

01:35.360 --> 01:37.910
Mas, como você pode ver aqui, não é tão simples

01:37.940 --> 01:41.210
Então, na realidade, não precisamos ter apenas uma função de software.

01:41.300 --> 01:49.190
Podemos ter diferentes políticas de seleção de ações, por exemplo, temos o Epsilon gentil Epsilon suave e nós temos os

01:49.470 --> 01:54.950
Macs suaves e aqueles são como as políticas de seleção de ação mais usadas,

01:54.960 --> 01:56.300
é claro, existem outras.

01:56.300 --> 02:02.120
Por exemplo, o mais básico é uma ação muito simples, é só selecionar o melhor.

02:02.120 --> 02:03.770
Aquele com o valor Q mais alto.

02:03.980 --> 02:09.800
esse pulso de ação não voa e por que temos diferentes tipos de políticas de seleção de ação de pulso de ação.

02:09.800 --> 02:10.510
Mas por que

02:10.520 --> 02:15.270
Bem, tudo se resume à exploração versus exploração.

02:15.560 --> 02:22.670
E esse é o núcleo da aprendizagem de reforço porque já falamos sobre isso um pouco que o seu

02:22.880 --> 02:28.400
agente quando ele está operando em um ambiente, ele pode prever certos valores de fila

02:28.400 --> 02:34.970
que podem ser bons e pode resultar ótimo, pode afirmar que estão disponíveis e será forçado a explorar.

02:34.970 --> 02:40.640
Então, se, por exemplo, neste caso, preveamos que o Q2 é o melhor e, em seguida, leva Q

02:40.640 --> 02:42.350
To para agir e para ele.

02:42.500 --> 02:46.880
Então, daqui até a Seção 2 e depois obtém uma recompensa muito negativa.

02:46.880 --> 02:51.980
Então, o ambiente está forçando o agente a ir e a explodir, porque agora ele vai

02:51.980 --> 02:56.740
aprender que, na verdade, pensei que o Q2 seria muito bom, mas acabou muito mal.

02:56.780 --> 02:58.370
Então, os resultados não são muito ruins.

02:58.370 --> 03:02.730
Então, as redes podem atualizar-se, então da próxima vez que ele estiver no estado, ele provavelmente vai comer minha

03:02.720 --> 03:04.010
alma, apenas chegar a ela.

03:04.190 --> 03:09.470
Você sabe como se fosse muito muito favorável, então você pode pensar que é como se você soubesse

03:09.470 --> 03:14.900
que você precisaria de um par de vezes um par de penalidades ou punições para aprender sobre a ação.

03:14.990 --> 03:20.030
vou tomar uma ação diferente e tomar a ação do pulso porque agora tem o melhor valor.

03:20.030 --> 03:22.020
Mas talvez ele já aprenda logo que

03:22.160 --> 03:28.880
Então, às vezes, o ambiente força o agente a tomar diferentes para explorar ações diferentes, mas às vezes o

03:29.180 --> 03:36.860
agente pode conseguir que ele se encontre preso em um máximo local que possa achar que ele seguiu através de sua

03:36.860 --> 03:42.110
exploração inicial e descobriu que é uma ação muito legal como Eu vou aqui mesmo.

03:42.200 --> 03:43.920
E essa coleção d'esprit.

03:43.940 --> 03:49.760
é a melhor ação, simplesmente porque não explorou, é explorada subindo seu nariz ou indo para a esquerda é

03:49.760 --> 03:55.850
explorar indo certo, mas não explorou a queda desse estado específico em que está e agora que é tipo de

03:56.360 --> 04:01.490
tendencioso em relação a esta ação e pensa que uma boa ação continuará levando, ela continuará recebendo.

04:01.490 --> 04:03.800
Mas o problema é que ele pensa que

04:03.840 --> 04:06.570
Ele vai continuar a tomar, na verdade, vai continuar a receber uma boa recompensa.

04:06.620 --> 04:14.000
Mas e se essa ação tivesse sido ainda melhor se essa ação tivesse sido muito melhor que, se soubesse sobre essa

04:14.060 --> 04:19.310
ação, ele realmente mudaria para essa ação, mas porque ficou preso em um máximo local

04:19.310 --> 04:23.580
é conseguir que essas boas recompensas apenas aconteçam para ser reforçada.

04:23.630 --> 04:27.770
Isso vai continuar reforçando isso ou a violência vai reforçá-lo de que esta é uma boa

04:27.770 --> 04:29.450
ação a seguir, continue fazendo isso.

04:29.510 --> 04:35.330
Mas, na verdade, a realidade é que existe essa outra ação que ainda não encontrou ou nem sequer explorou.

04:35.570 --> 04:37.090
Isso teria sido muito melhor.

04:37.130 --> 04:43.790
Então, o que queremos fazer é que queremos criar uma política de seleção real que permita que nosso agente não

04:43.910 --> 04:45.800
fique preso em um máximo local.

04:45.800 --> 04:50.120
Sim, é importante para você saber continuar fazendo as boas ações que são a parte de exploração.

04:50.180 --> 04:52.000
Não exploraremos o que encontramos.

04:52.100 --> 04:56.720
Mas, ao mesmo tempo, ainda queremos explorar, nunca queremos parar de explorar, como na vida, você nunca quer

04:56.720 --> 04:59.000
parar de aprender, você não consegue aprender a morrer.

04:59.120 --> 05:05.030
você está morrendo ou algo assim é que você quer continuar aprendendo e seu agente quer continuar aprendendo.

05:05.090 --> 05:07.580
É assim que, quando você não está crescendo,

05:07.760 --> 05:10.200
E é aí que essas políticas de seleção de ações entram.

05:10.400 --> 05:16.190
Então nós temos três que você listou aqui, então o primeiro é Epsilon ganancioso, é muito simples, isso parece

05:16.190 --> 05:22.140
bastante complexo no sentido de que, como se ele tivesse um nome legal e geralmente coisas com nomes cirúrgicos.

05:22.370 --> 05:23.170
Na verdade não é.

05:23.180 --> 05:31.530
Então, basicamente, o que ele faz é que ele selecionará aquele com o melhor valor de Q e epsilon como Epsilon, você

05:31.540 --> 05:35.240
pode ouvir outros lugares, é como uma política de seleção.

05:35.240 --> 05:41.210
como o que tem o valor Q mais alto o tempo todo, exceto para o percentual Epsilon do tempo.

05:41.540 --> 05:45.980
Então, neste caso, estamos usando isso para escorregar, então nossos valores Al-Q são por vendas,

05:45.980 --> 05:53.300
Então, por exemplo, se você definir epsilon para 10 por cento, então você está indo para ou 0. 1 do que 10% do tempo em

05:53.300 --> 05:56.740
que a ação será selecionada aleatoriamente.

05:56.750 --> 06:01.990
Então, 90 por cento do tempo você ainda estará selecionando a melhor ação com base no valor mais alto.

06:02.120 --> 06:05.580
Mas 10 por cento do tempo vai selecionar uma ação aleatória.

06:05.600 --> 06:11.120
Uniforme, será absolutamente aleatoriamente uma ação ou se você disser

06:11.420 --> 06:18.380
epsilon para zero ponto cinco para 0. 05, o que significa que 95 por cento do tempo que o agente vai tomar a ação

06:18.380 --> 06:19.200
com o maior valor.

06:19.220 --> 06:22.470
Mas 5 por cento do tempo ainda está selecionando e ação aleatória.

06:22.490 --> 06:25.550
Então, vai sair e explorar.

06:25.790 --> 06:31.640
Então, o soft de Epsilon é muito parecido com a forma como gosta do motivo pelo

06:31.750 --> 06:39.780
qual se chama FCL ganancioso porque então você está escolhendo a ação com ganância, a boa ação, exceto pelo pequeno episódio.

06:39.780 --> 06:40.290
Algumas vezes.

06:40.280 --> 06:46.970
Então, quanto menor o negócio de EPS, eles diminuirão o Lepp Epsilon, mais graciosamente você está selecionando esse tipo

06:46.970 --> 06:53.870
de ação que é a ação ideal e menos você deixa menos chances de sair para a exploração. O

06:53.870 --> 06:56.000
soft de Epsilon é o oposto.

06:56.000 --> 07:02.000
Então, basicamente, você está selecionando aleatoriamente, você está selecionando um centavo menos Epsilon do tempo.

07:02.000 --> 07:08.240
Então, se você gostar de 0. 1 a 10 por cento, então apenas 10 por cento do tempo que você está tomando essa ação.

07:08.490 --> 07:12.410
E 90 por cento do tempo que você está selecionando uma ação aleatória.

07:12.410 --> 07:19.000
Então, muito simples, apenas algoritmos invertidos e um Max suave é um pouco como o próximo passo ou

07:19.070 --> 07:24.350
é uma versão mais avançada, eu diria sobre o algoritmo epsilon voraz, embora ambos tenham

07:24.350 --> 07:26.570
mérito e ambos tenham um lugar.

07:26.610 --> 07:30.860
Nós vamos usar a autofinanciamento em nossa codificação em nosso tipo prático.

07:30.860 --> 07:35.270
Então, é isso que vamos falar com mais detalhes sobre soft max.

07:35.330 --> 07:36.380
Então vamos dar uma olhada.

07:36.380 --> 07:38.440
Então, vamos para o próximo esperançoso.

07:38.450 --> 07:42.800
É bem claro que Ebsen concorda que é um algoritmo bastante direto.

07:42.800 --> 07:45.100
Selecione este.

07:45.230 --> 07:47.790
Na maioria das vezes, exceto por vezes, vá e explore.

07:47.800 --> 07:53.820
E agora também vemos por que é importante fazer essa exploração para que não acabemos nos máximos locais

07:53.840 --> 07:58.780
em nosso processo de otimização, então agora vamos conversar um pouco mais sobre soft Macs.

07:58.880 --> 08:02.680
Há um tutorial sobre soft notes no final do curso.

08:02.750 --> 08:09.560
Eu acho que é um anexo número dois, onde falamos sobre o conceito de Maxim, porque você atualiza um

08:09.560 --> 08:14.650
pouco aqui, então estamos falando sobre redes neurais e, por sinal, todos nós estaremos

08:14.720 --> 08:15.290
cobrindo convolucional.

08:15.290 --> 08:18.170
Não estamos abrangendo as redes neurais de evolução nesta seção.

08:18.210 --> 08:21.470
Claro que nesta seção ainda estamos usando um vetor.

08:21.800 --> 08:27.770
Mas na próxima seção do curso, quando estivermos criando um AI para jogar Doom, iremos usando uma rede

08:27.770 --> 08:32.870
neural convolutiva para que possa ser benéfico para você olhar em redes neurais relacionais e,

08:32.870 --> 08:38.300
em seguida, tomar uma auto máx. Funciona ou você pode aprender um pouco mais sobre Max macio.

08:38.300 --> 08:43.020
Depois de tomar as redes neurais convolutivas e, claro, mais tarde.

08:43.250 --> 08:48.130
Mas aqui está uma rápida atualização. Então, aqui temos nossa rede neural convolutiva que decide se é um

08:48.130 --> 08:48.950
cão ou gato.

08:48.950 --> 08:56.090
Então, aqui, temos o processo de votação entre esses neurônios e este diz que é que tem os recursos

08:56.090 --> 09:04.250
que você conhece as orelhas macias. Qual é o tipo de face pontiaguda e o tipo de características são os tipos de

09:04.250 --> 09:09.930
olhos com o olho com Olhos olham todas essas características que pertencem a um cachorro.

09:09.930 --> 09:13.890
Então, é uma chance de 95% que seja um cachorro e a chance de 5% de que seja um gato.

09:13.910 --> 09:19.460
é como chegamos naquele Tauriel, estamos falando sobre como podemos obter esses valores para adicionar até um.

09:19.490 --> 09:20.530
Mas a questão

09:20.870 --> 09:27.650
Bem, seja o que for convolutivo, todas as nossas redes neurais completas são a rede neural convolutiva,

09:27.650 --> 09:33.300
mais os Lares totalmente conectados, independentemente dos valores que aplicamos à função máxima macia,

09:33.300 --> 09:33.980
estão aqui.

09:34.010 --> 09:37.720
É aqui que apresentamos a fórmula para a próxima função suave.

09:37.810 --> 09:38.620
É o que parece.

09:38.780 --> 09:40.420
E então obtivemos esses valores.

09:40.620 --> 09:43.460
E, basicamente, isso é uma rápida atualização.

09:43.460 --> 09:46.050
Esta é a fórmula para o Max suave.

09:46.100 --> 09:50.900
É o que faz, é necessário, no entanto, muitas saídas que você tem não importa.

09:50.900 --> 09:58.130
Vai levá-los e os abobirá em valores entre 0 e 1, independentemente de quão grande eles sejam justos, é para mim

09:58.130 --> 10:03.720
que você pode ver que há uma soma total na parte inferior para que esses dispositivos

10:03.720 --> 10:04.860
sejam zero e dentro.

10:04.860 --> 10:08.630
E também todos esses valores vão adicionar até um sempre.

10:08.700 --> 10:16.770
E isso é muito benéfico para nós, porque quando estamos usando a função maxima macia, o que acontece é

10:16.800 --> 10:21.390
que nós obtemos esses valores, selecionamos esse melhor valor de exibição.

10:21.390 --> 10:26.740
Mas, na realidade, o que acontece é que esses valores que chegamos são verdadeiros números.

10:26.750 --> 10:28.760
Então, este é algum tipo de números.

10:28.920 --> 10:31.720
Eles não têm que adicionar um máximo e não precisam estar entre 0 e 1.

10:31.730 --> 10:32.830
Apenas alguns números.

10:33.140 --> 10:38.520
Mas quando aplicamos Soft Max, não selecionamos apenas o melhor em que realmente recebemos números assim,

10:38.520 --> 10:44.310
para que possamos obter nossos números no intervalo entre 0 e 1 e também isso também somam 1.

10:44.310 --> 10:47.220
E então, o que mais sabemos, isso se resume a um.

10:47.340 --> 10:53.010
podemos dizer aqui que temos valores de q, mas aqui, de repente, temos soft ou temos probabilidades.

10:53.010 --> 10:57.990
Bem probabilidades, sabemos que as probabilidades sempre têm que adicionar até 1, por isso

10:57.990 --> 11:02.740
Portanto, podemos dizer que a probabilidade de esta ser a melhor ação é de 90%.

11:02.840 --> 11:08.610
Esta seção lésbica 5 por cento 2 por cento 3 por cento porque sabemos que quanto mais alto seu valor, melhor

11:08.610 --> 11:09.290
será a ação.

11:09.390 --> 11:14.920
Então, se os esmagarmos de 0 a 1, estes se tornam possibilidades e podemos lidar com eles como tal.

11:15.090 --> 11:22.840
E, portanto, agora é quando a ação é selecionada e é assim que surge o Q2.

11:22.890 --> 11:28.580
Mas se você olhar isso de perto, isso não é um 100 por cento rígido e estes não são Saroo 0 por cento.

11:28.590 --> 11:30.670
Então, isso é de 5% a 3%.

11:30.810 --> 11:42.360
Portanto, a maneira mais natural de aplicar o Max suave para preservar a exploração no algoritmo é usar essas probabilidades

11:42.480 --> 11:48.600
exatas como a freqüência em que vamos tomar essa ação.

11:48.600 --> 11:55.710
Então, essas probabilidades realmente apresentam a distribuição dessas ações que estamos tomando, basicamente, Soft Max

11:55.890 --> 12:01.740
torna muito fácil para nós encontrar uma maneira de combinar exploração e exploração.

12:01.740 --> 12:06.930
Portanto, a melhor das melhores ações sempre terá a alta probabilidade porque tem o valor Q mais alto e, portanto,

12:06.930 --> 12:11.190
aqui vamos usar apenas essas como nossa distribuição ou vamos dizer que sim, vamos tomar Q2

12:11.190 --> 12:16.080
90 por cento do tempo, mas 5 por cento do tempo que ainda estamos a tomar Q1 e 2

12:16.120 --> 12:21.170
por cento do tempo que chegamos a 3 e 3 por cento do tempo que vamos estar a tomar Q4.

12:21.420 --> 12:27.090
E a beleza aqui também é que, à medida que esses valores se atualizam à medida

12:27.090 --> 12:35.220
que o agente passa pela rede cada vez mais, torna-se mais familiarizado com o ambiente e, portanto, com essas atualizações, então esse valor,

12:35.210 --> 12:41.640
por exemplo, pode se tornar como se pudesse verificar que esse valor é realmente menor ou isso realmente

12:41.640 --> 12:47.060
é maior e, portanto, essas probabilidades também mudarão à medida que um agente passar.

12:47.070 --> 12:49.190
Então, mesmo assim, temos Choo-Choo.

12:49.200 --> 12:55.560
Ninguém deve dizer que, às vezes, 5 por cento do tempo para ser mais preciso, iremos selecionar o Q1 como

12:55.560 --> 13:00.040
a ação a ser tomada e as vezes ou a ação será uma ação.

13:00.180 --> 13:05.280
através de duas ações, três por cento do tempo e a ação será tomada cerca de 3 por cento.

13:05.280 --> 13:06.400
Às vezes, estaremos agindo

13:06.420 --> 13:13.800
Então, cada ação tem chance de jogar neste processo, desde que tenhamos suficientes iterações, um agente passa por muitas

13:13.800 --> 13:17.930
e muitas vezes através desses estados em que eles estão.

13:17.940 --> 13:23.880
E é assim que é assim que funciona assim qualquer tipo de algoritmo de aprendizado profundo que você

13:23.880 --> 13:30.030
deseja fazer muitas vezes para que você aprenda com a experiência e, portanto, como você pode ver aqui,

13:30.030 --> 13:31.840
é uma transição muito natural.

13:31.860 --> 13:37.590
que ele pareça ter alguma lógica por trás disso, não apenas não apenas aquele 10% aleatório do tempo em que

13:37.590 --> 13:44.100
estamos selecionando uma ação aleatória, mas há alguma lógica por trás de como a estamos fazendo e com base nos valores-chave que exploramos.

13:44.190 --> 13:48.780
Nós não somos apenas aleatoriamente como um algoritmo irritado da Epson e não apenas selecionando aleatoriamente

13:48.780 --> 13:53.200
as ações que estamos selecionando com base em seus valores máximos suaves, o que faz com

13:53.280 --> 13:58.620
E essa é a política de seleção de ações que vamos usar neste curso.

13:58.620 --> 14:04.590
Você pode conferir definitivamente a seção de ação de Ebsen Greedy, Polsce, se você quiser, mas

14:04.590 --> 14:10.920
vamos usar predominantemente a política de seção de ação suave Max e eu tenho uma leitura interessante

14:10.920 --> 14:11.490
para você.

14:11.490 --> 14:17.430
Então, isso é chamado de desenvolvimento adaptativo Epsilon ganância em aprendizagem de reforço com base em diferenças de valor

14:17.430 --> 14:18.870
é o artigo de 2010.

14:18.930 --> 14:27.270
E é interessante porque Mike Michel não tenho certeza de como pronunciar Michelle e Miquel tóxico apresenta

14:27.450 --> 14:36.420
um tipo diferente de Algren e algoritmo Epsilon codicioso e chamado algoritmo VDB VDB ou algoritmo VDB voraz

14:37.230 --> 14:40.030
epsilon que você pode ver aqui.

14:40.410 --> 14:46.590
E ele realmente compara se compara ao Ebsen ganancioso e macio Max e é um

14:46.650 --> 14:55.740
algoritmo ganancioso absoluto que basicamente a principal idéia por trás disso é ajustar o valor de epsilon dependendo do estado em que o

14:55.740 --> 14:56.550
agente está.

14:56.550 --> 15:01.820
Então, se, se o agente estiver muito certo sobre o estado, Epsilon deve ser menor, então eles devem ser

15:01.820 --> 15:06.340
menos explorados se o agente for respondido. O Epson deve ser maior deve ser mais exploração.

15:06.350 --> 15:08.930
Então, é um artigo de 2010.

15:09.260 --> 15:17.930
Não tenho certeza se é se este novo algoritmo proposto é amplamente utilizado ou está sendo aceito na comunidade

15:18.010 --> 15:23.090
ou, ou se o Times artificiais tiver uma maneira dessa sugestão.

15:23.090 --> 15:29.450
Mas, no entanto, certamente irá ajudá-lo a reforçar o seu conhecimento sobre as políticas de seleção de ações

15:29.450 --> 15:33.180
que discutimos o Epsom Ingredion, o Naxal suave, ajudando você

15:33.200 --> 15:38.900
a oferecer uma oportunidade para compelir o site Subha e também em que direção as pessoas

15:38.900 --> 15:46.040
realmente pensam quando querem melhorar a inteligência artificial então, se você já planeja criar algoritmos realmente interessantes que estão empurrando

15:46.040 --> 15:51.770
a vantagem da inteligência artificial de Elche e empurrando o envelope neste espaço, então isso poderia

15:52.130 --> 16:00.140
ser uma boa maneira para você ver em que direção as pessoas pensam às vezes quando tentam para melhorar as normas de

16:00.200 --> 16:04.070
inteligência artificial ou as normas que existiam na época em 2010.

16:04.070 --> 16:04.760
Então vamos lá.

16:04.790 --> 16:11.020
Espero que você tenha gostado do tutorial de hoje sobre as políticas de seleção de ações e aprendemos sobre o

16:11.060 --> 16:18.240
sal da Epson abseil gengibre e os Macs suaves e agora você está ainda mais preparado para o lado prático das coisas.

16:18.290 --> 16:20.840
E nessa nota aguardo com expectativa o próximo passo.

16:20.840 --> 16:22.570
E até então, desfrute da AI.