WEBVTT

00:00.720 --> 00:03.210
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:03.210 --> 00:08.400
Hoje estamos falando sobre a primeira parte da A-3 para ver a parte crítica do ator.

00:08.400 --> 00:10.540
Então, temos uma vantagem síncrona.

00:10.550 --> 00:12.380
Algoritmo crítico de ator.

00:12.420 --> 00:15.440
E vamos falar sobre o Akrotiri sublinhado.

00:15.570 --> 00:17.210
É aí que vamos começar.

00:17.400 --> 00:21.960
começar tecnicamente em qualquer lugar, mas só faz muito mais sentido começar com

00:22.320 --> 00:29.640
um crítico, porque dessa forma teremos uma explicação muito consecutiva sobre a compreensão intuitiva sobre o que está acontecendo nos facilitará.

00:29.640 --> 00:30.470
Você pode

00:30.480 --> 00:33.970
Mas se começarmos a surpreender no final desta aberração.

00:34.170 --> 00:41.840
Tudo bem, até agora neste curso, surgimos um aprendizado profundo de Kule condicional que é ilustrador aqui, então nós temos

00:41.880 --> 00:48.780
o computador vendo os pixels para que a imagem real e os pixels não sejam apenas um vetor.

00:48.780 --> 00:53.610
Então, não é enganar, é realmente ver exatamente o que um ser humano vê que vê os

00:53.610 --> 01:00.540
monstros que vê a saúde que vê os parâmetros na parte inferior que vê o cartão ou vê a arma, é exatamente o mesmo

01:00.540 --> 01:03.080
que um ser humano veria ao jogar isso jogos.

01:03.090 --> 01:09.450
como lembrar que temos esses valores de cubo, então aplicamos uma política de seleção de ação para eles.

01:09.450 --> 01:16.380
Então, essa imagem é passada através de um covil convolucional e depois é passada através de lariats puxando se abaixa e

01:16.380 --> 01:20.270
entra em uma rede neural e, em seguida, na saída, temos ações

01:20.270 --> 01:24.540
Então, por exemplo, aplicamos um Max suave e descobrimos quais ações queremos tomar.

01:24.540 --> 01:28.470
E então há uma exploração mais exploração em andamento.

01:28.470 --> 01:29.860
Há uma combinação dos dois.

01:30.270 --> 01:33.480
Então é assim que o aprendizado legal convolucional profundo funciona.

01:33.640 --> 01:34.980
Mas agora vamos ver o que vamos fazer com isso.

01:34.970 --> 01:39.510
que seja mais fácil para nós operarmos seja porque vamos ajustar essa imagem e movê-la.

01:39.510 --> 01:41.770
Então, por motivos de simplicidade, apenas para

01:41.790 --> 01:46.490
Vamos substituir círculos por quadrados com estas ou estas caixas retangulares.

01:46.560 --> 01:53.190
E também vamos nos livrar dessas linhas e entre apenas mudá-las para as setas, então isso não

01:53.190 --> 01:54.440
muda a essência.

01:54.450 --> 01:56.590
Esta é apenas a representação neste gráfico.

01:56.610 --> 02:01.620
Ainda assim, essa representação ainda é profunda. O aprendizado Kule convincente só será

02:01.620 --> 02:05.520
mais fácil para nós modificá-lo e mostrar exatamente o que é.

02:05.520 --> 02:08.820
Então é assim que vamos representar as coisas daqui.

02:08.820 --> 02:13.070
E o que isso ou esta parte específica está começando.

02:13.080 --> 02:16.680
Lembremos que estamos começando como passo a passo, estamos começando com a peça crítica ativa.

02:16.680 --> 02:23.490
Então, vamos ver como nós passamos do crucial Kule aprendendo para A-3, veja passo a passo e primeiro passo, vamos

02:23.490 --> 02:27.520
apresentar este crítico de ator PARTOVI aqui, então vamos falar sobre isso.

02:27.750 --> 02:32.490
Então, a primeira coisa que acontece é esse último bit.

02:32.640 --> 02:36.990
A saída é, na verdade, nós apenas vamos redesenhá-lo assim, então é exatamente a mesma

02:36.990 --> 02:40.350
saída exatamente os mesmos q valores são exatamente a mesma ação.

02:40.350 --> 02:45.810
possíveis, que as colocará no topo, então elas ocuparão menos espaço, então nada, até agora, nada mudou.

02:45.810 --> 02:50.280
Então, se ele, se você tivesse oito possíveis ações, você ainda tem oito ações

02:50.280 --> 02:52.080
Isto e isso é exatamente o mesmo.

02:52.080 --> 02:55.080
Mas agora é aqui que entra a parte crítica crítica.

02:55.110 --> 02:56.580
Vamos ter um segundo resultado.

02:56.580 --> 03:02.460
Nós vamos ter o primeiro como um conjunto de resultados e aqui vamos ter uma saída individual

03:02.460 --> 03:06.040
separada, de modo que tecnicamente vamos usar nossa rede neural.

03:06.040 --> 03:08.310
Então, uma vez por hora.

03:08.340 --> 03:14.720
Ou a imagem e tudo como os valores passam pela rede da esquerda para a direita aqui.

03:14.730 --> 03:17.910
Eles não apenas cuspiram um conjunto de valores que custam na verdade dois conjuntos.

03:17.910 --> 03:23.910
E assim, o top disse que realmente sabemos o que é, é que é possível ações, mas aqui, na verdade,

03:23.910 --> 03:26.970
teremos outro valor extra, então vamos dar uma olhada nisso.

03:27.000 --> 03:28.430
Qual é esse valor.

03:28.620 --> 03:31.260
Então, vamos lá, é o topo.

03:31.380 --> 03:35.190
Então, apenas gostamos de reduzir o tamanho desta ilustração.

03:35.340 --> 03:41.210
A saída superior é os valores do cubo como discutimos anteriormente para as ações.

03:41.220 --> 03:42.500
Então eles são o mesmo.

03:42.510 --> 03:43.240
Tudo é o mesmo.

03:43.410 --> 03:47.640
Mas agora, agora, esta parte inferior e a parte superior são chamados de X ou vamos

03:47.640 --> 03:53.400
dar um nome que é o ator, porque essa é a parte em que o agente escolhe o que quer fazer para

03:53.400 --> 03:59.160
que seja como se fosse agir como se fosse Está se apresentando no palco e vai fazer mais sentido quando tivermos o

03:59.160 --> 04:00.730
segundo nome na tela também.

04:00.900 --> 04:08.120
E então a segunda saída é como um valor e é V de S, de modo que é o valor do estado.

04:08.130 --> 04:16.800
q de S é o Q de A é o valor q de uma determinada ação e, como você pode ver, é por isso que há ação uma ação duas ações

04:16.980 --> 04:21.450
três são até a ação seis ou mais ações de significado que possivelmente existem nesse estado.

04:21.450 --> 04:22.030
Então, se

04:22.030 --> 04:28.410
Então, em um determinado estado s Qual é o valor q de agir uma ação para ação uma ação para e assim por diante.

04:28.460 --> 04:34.900
Então, aqui, também estamos prevendo que também estamos usando a rede neural para prever qual é

04:34.900 --> 04:40.620
o valor do estágio em que estamos realmente e essa parte é chamada crítica.

04:40.820 --> 04:47.070
E isso é o intuitivo para o tipo de intuição intuitiva, mesmo assim, como o começo da intuição

04:47.880 --> 04:53.260
por trás do ator, prevê que existem duas saídas da rede neural não apenas uma.

04:53.380 --> 04:56.470
P antes que acabamos de ter aquele em outbred que chamamos a ação agora.

04:56.470 --> 04:59.040
Mas agora temos duas saídas Akshara e crítica.

04:59.250 --> 05:02.320
E haverá uma dinâmica entre eles, que exploraremos ainda mais.

05:02.370 --> 05:08.850
Mas, por enquanto, é importante entender que estamos prevendo não apenas os valores das ações que o agente pode tomar do

05:09.330 --> 05:14.100
estado atual, mas também prevêem o valor de estar nesse tipo de estado usando essa rede

05:14.100 --> 05:15.750
de mesmo ano de idade.

05:15.750 --> 05:20.700
Então esse é o núcleo do primeiro passo para o crítico ativo.

05:20.790 --> 05:24.990
E agora vamos precisar conversar sobre um síncrono que vamos fazer no próximo tutorial, para

05:24.990 --> 05:30.900
entender exatamente o que está acontecendo entre o dever e o final para hoje é que todos esses valores-chave, como sabemos,

05:30.900 --> 05:32.640
também é chamado de Pulso .

05:32.640 --> 05:39.720
Então, em alguma literatura em alguns blogs e algumas discussões que você pode encontrar no crítico ativo, você pode

05:39.720 --> 05:47.400
encontrar o autor falando sobre os valores de Cue do lado do ator em alguns outros artigos e postagens de blog

05:47.400 --> 05:53.780
e discussões você encontrará a agrah o autor falando sobre a política e, geralmente, é usar o

05:53.860 --> 05:59.810
usuário como uma letra grega P para representar a política ou simplesmente dizer política de estado.

05:59.970 --> 06:05.790
Por isso, esta é a política de estado, porque, como lembramos, a política é que se

06:05.790 --> 06:11.660
você juntar todas as ações nas ações possíveis e depois decidir quais as ações a serem tomadas.

06:11.660 --> 06:15.400
Então, estas serão as probabilidades de tomar cada ação, de modo que essa seja a política.

06:15.540 --> 06:19.410
Então, não seja descartado se você ver um ou outro.

06:19.410 --> 06:21.090
Eles basicamente significam o mesmo.

06:21.090 --> 06:24.720
Então, por um lado, você tem a política ou os valores de q, por outro lado, você tem

06:24.720 --> 06:27.620
o valor real do estado e eles estão sendo preditos a partir desse ano.

06:27.750 --> 06:31.770
Então, esse é o começo do crítico ativo continuará nisso no próximo tutorial quando

06:31.770 --> 06:34.320
falarmos sobre uma síncrona e procure por ver lá.

06:34.380 --> 06:35.910
Até então, aproveite o.