WEBVTT

00:01.160 --> 00:04.720
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.740 --> 00:07.950
Hoje estamos falando sobre a diferença temporal.

00:08.100 --> 00:14.310
Agora é muito importante para o julgamento porque a diferença temporal é o coração e a alma do algoritmo de

00:14.340 --> 00:15.100
aprendizagem Q.

00:15.120 --> 00:22.410
Esta é, na verdade, como tudo o que aprendemos até agora vem em jogo dentro da aprendizagem chave.

00:22.410 --> 00:23.880
Então vamos dar uma olhada.

00:23.910 --> 00:28.040
Lembre-se do momento em que falamos sobre pesquisa determinística versus não determinista.

00:28.410 --> 00:34.960
E lembre-se de como dissemos neste caso é quando o agente quer subir, ele sobe e quando.

00:35.070 --> 00:38.740
Nesse caso, ele quer subir de uma chance de 10 por cento de que ele vá para os tempos e as hipóteses

00:38.730 --> 00:41.390
mais baixos, e vá para a direita e uma chance de 80 por cento vai direto.

00:41.400 --> 00:42.390
Siga em frente.

00:42.450 --> 00:46.410
Embora esses números sejam, obviamente, arbitrários e podem ser diferentes.

00:46.410 --> 00:52.260
E este conceito inteiro pode ser diferente e problemas diferentes, de modo que não precisa se preocupar de

00:52.320 --> 00:57.090
que jeito ele está movendo apenas que há algo de aleatoriedade que está fora do

00:57.300 --> 00:59.930
controle do agente que acontece dentro desse ambiente.

01:00.060 --> 01:07.470
que, no exemplo determinista, foi muito fácil calcular os valores do Wii, embora não necessariamente sempre seja muito fácil.

01:07.470 --> 01:11.030
E o efeito que teve é, como você lembra,

01:11.040 --> 01:16.530
Mas, no nosso caso, poderíamos simplesmente calculá-los usando a equação de Belman e nós tínhamos os

01:16.530 --> 01:17.120
valores exatos.

01:17.370 --> 01:24.810
E então, como você lembra, eu mencionei muito cuidadosamente que esses valores para o exemplo de pesquisa não

01:24.810 --> 01:27.810
determinista estão no topo da minha cabeça.

01:27.840 --> 01:29.220
Eles não são Kalka, nós sabemos.

01:29.270 --> 01:33.090
A última vez que eu disse não é que precisamos calcular porque é muito complexo.

01:33.090 --> 01:39.390
o computador pode fazê-lo e nós apenas fomos junto com esses valores que são apenas valores que eu compus.

01:39.390 --> 01:39.600
Mas

01:39.600 --> 01:41.310
Mas eles fizeram o trabalho.

01:41.310 --> 01:43.030
Eles nos ajudaram a entender o conceito.

01:43.290 --> 01:47.790
Bem, agora vamos voltar a isso um pouco e entender o que exatamente está acontecendo aqui.

01:47.790 --> 01:55.420
Por que é muito mais difícil calcular esses valores no exemplo não determinista ou geralmente falando nesses

01:55.420 --> 01:59.570
problemas nesses ambientes e o agente que os atravessa.

01:59.580 --> 02:00.400
Por que é isso.

02:00.510 --> 02:03.030
Por que pode ser tão difícil calcular esses valores.

02:03.030 --> 02:09.010
Bem, quando você pensa sobre isso, porque quando o agente se move, por exemplo, daqui para a

02:09.090 --> 02:15.270
direita, ele não sempre sempre se move dessa maneira às vezes como uma chance de ele ir para

02:15.450 --> 02:22.290
ganhar em vez de ir direto, então vamos chamar esses nordeste-sudoeste, então é um pouco indo para o oeste.

02:22.470 --> 02:27.360
O agente pode, às vezes, ir para o sul e, por exemplo, daqui a norte é uma espécie de norte.

02:27.360 --> 02:29.220
Ele pode às vezes ir para o leste.

02:29.460 --> 02:30.240
Sinto muito.

02:30.240 --> 02:34.680
Então, em lugar de ir para o leste, ele pode às vezes ir para o sul e ele está indo para o norte.

02:34.710 --> 02:40.200
para o leste ou para o oeste e, em vez de ir para o norte, ele pode às vezes ir para oeste, leste ou oeste e assim por diante.

02:40.200 --> 02:41.160
Ele pode, às vezes, ir

02:41.160 --> 02:47.010
Então, portanto, para calcular esse valor, você precisaria saber qual é esse valor, mas o interessante é

02:47.010 --> 02:51.110
que, para calcular esse valor, você precisa saber qual é esse valor.

02:51.120 --> 02:56.790
Então, há muita recursão acontecendo aqui e, portanto, você não pode simplesmente decidir definir quais são

02:56.790 --> 02:57.340
esses valores.

02:57.360 --> 03:01.140
E, além disso, essa recursão não é determinista.

03:01.140 --> 03:06.000
Às vezes, acontece assim, por vezes, é uma espécie de subida para ir à direita às vezes, em

03:06.000 --> 03:08.250
vez de levantar-se e ir às vezes às vezes.

03:08.730 --> 03:09.540
Quando ele quer subir.

03:09.540 --> 03:10.520
Ele vai subir.

03:10.560 --> 03:17.460
Por isso, está sujeito a hipóteses e talvez talvez muitas vezes o agente atravesse esse caminho e ele subirá de cima

03:17.460 --> 03:22.050
e você pensará que daqui você sempre subiu e o valor do estado irá

03:22.050 --> 03:27.370
será bom e, de repente, ele vai cair no poço e esse valor irá cair.

03:27.620 --> 03:33.600
E, portanto, você pode ver como há alguma aleatoriedade estocástica para todo esse cálculo nesses

03:33.600 --> 03:35.370
valores porque todos estão interligados.

03:35.370 --> 03:40.920
tem essa aleatoriedade neste inerente ao meio ambiente porque há uma marca de processo de decisão.

03:40.920 --> 03:42.320
Mais no topo, você

03:42.540 --> 03:47.790
Então é aí que tudo isso se junta e é aí que vamos introduzir

03:47.790 --> 03:52.370
o conceito da diferença temporal que permitirá ao agente calcular esses valores.

03:52.530 --> 03:55.560
E aqui estávamos lidando com os valores.

03:55.560 --> 03:59.390
E desde então, já nos mudamos para os valores de Q, então é isso que vamos trabalhar.

03:59.400 --> 04:01.980
Nós estaremos olhando para valores enormes.

04:02.010 --> 04:06.090
Então, como me lembro, esta é a nossa equação de Belman para valores de q.

04:06.180 --> 04:15.090
imediatamente após executar uma ação e você obtém o máximo, você obtém a gama da soma de todos os possíveis .

04:15.090 --> 04:22.770
Então, o valor AQ ou o valor de executar um tipo de ação A no estado s é igual

04:22.770 --> 04:26.720
à recompensa que você obteve depois de realizar essas ações

04:26.910 --> 04:31.680
Então, você obtém o valor esperado do estado em que você vai acabar.

04:31.680 --> 04:37.710
Então, como você lembra, havia uma fórmula para a equação de Beldon e agora, apenas por simplicidade, dizemos

04:37.710 --> 04:43.670
que vamos reescrevê-la à moda antiga e, de uma maneira que costumávamos falar sobre a equação dos bellmen

04:43.680 --> 04:45.850
antes de sabermos sobre o seqüestrador.

04:45.880 --> 04:53.100
Então lembre-se que esta foi a nossa equação de Belman no sentido de um exemplo de busca determinista, porque aqui você não

04:53.100 --> 04:57.600
tem esse valor esperado, você não tem o mesmo em todas as probabilidades.

04:57.750 --> 05:03.110
Você apenas tem isso como se estivesse determinado que você vai acabar com o estado em que você vai acabar

05:03.110 --> 05:05.450
e então você lhe dirá Max nesse único estado.

05:05.570 --> 05:12.170
E a razão pela qual estamos reescrevendo é simplesmente o único motivo porque é mais fácil escrevê-lo e será

05:12.200 --> 05:14.550
mais fácil cair junto com a fórmula.

05:14.550 --> 05:19.340
Então, vamos lembrar que substituímos esta parte desta barra.

05:19.430 --> 05:25.400
E também você encontrará esta notação em muita literatura, então será mais fácil para você

05:25.400 --> 05:28.310
acompanhar outras fontes se estiver estudando essas.

05:28.370 --> 05:35.390
essa abordagem probabilística aqui em vez de esta notação é mais fácil para nós operar isso e entender o que está acontecendo.

05:35.500 --> 05:39.130
Mas lembre-se de que, de fato, o que queremos dizer é que

05:39.140 --> 05:44.180
Eu só gosto de olhar as equações para que elas não estejam muito confusas, mas, mais uma vez,

05:44.180 --> 05:48.050
lembre-se de que, de fato, o que queremos dizer é essa abordagem probabilística aqui.

05:48.290 --> 05:52.130
E então, estamos realmente sabendo que Tom Silis dá uma olhada no que está acontecendo.

05:52.190 --> 06:00.350
Então, aqui está o nosso estado em branco do labirinto, nós não temos nenhum valor de q, vejamos ou quando possamos, mas vamos deixá-lo

06:00.500 --> 06:05.510
em branco por agora, vamos apenas olhar para um dos estados ou uma das células.

06:05.570 --> 06:07.280
Este especificamente.

06:07.820 --> 06:11.240
E aqui temos respostas para a ação de subir.

06:11.240 --> 06:14.290
Nós temos um valor q que calculamos.

06:14.290 --> 06:18.070
Então, não é que não temos nenhum valor de q, mas nós o fazemos.

06:18.080 --> 06:19.930
Mas não estamos ilustrando nada.

06:19.930 --> 06:22.520
Estamos apenas mantendo um espaço em branco por motivos de simplicidade.

06:22.610 --> 06:28.570
Mas nós temos a idade andando por algum tempo e digamos hipoteticamente, de alguma forma,

06:28.580 --> 06:36.560
ele calculou este valor de cubo de subir ou Norf desse estado a partir desta célula específica e os valores.

06:36.560 --> 06:40.240
Q S e A e agora, agora, o que temos.

06:40.240 --> 06:45.070
Então ele está atualmente com seu ponto de setas azul e o agente está sentado nesta célula.

06:45.590 --> 06:48.560
E agora ele precisa fazer uma escolha para onde ele está indo.

06:48.590 --> 06:57.290
E ele sabe o valor desta ação indo para o norte e isso é q Senay e aqui estou dizendo antes e a razão para

06:57.290 --> 07:01.940
isso é porque ele é antes de tomar. Na verdade, ele não tomou

07:01.940 --> 07:10.760
medidas ainda assim ele ainda está na cela e Antes de tomar a ação, o valor aqui é q e SNH e agora ele realmente adota

07:10.760 --> 07:11.370
a ação.

07:11.390 --> 07:13.670
Então, digamos que ele decide é o melhor.

07:13.670 --> 07:16.440
Ele toma a ação e ele se move para a célula.

07:16.730 --> 07:24.320
recompensa de tomar essa ação, mais a gama vezes o máximo deste novo estado em que ele acabou de entrar Prime.

07:24.350 --> 07:30.650
Bem, agora o que acontece agora é depois, então, depois que ele tomou a ação, podemos medir

07:30.650 --> 07:35.640
o que é esse valor, vamos apenas calcular esse valor, o valor da

07:35.640 --> 07:39.030
E, portanto, o máximo em todas as ações possíveis e aspirina.

07:39.080 --> 07:44.770
E então, o que temos aqui é o valor antes dessa ação.

07:44.810 --> 07:47.650
E depois calculamos essa métrica depois.

07:47.660 --> 07:54.860
Mas, como você pode se lembrar dos quatro meses anteriores, se voltarmos muito rapidamente da fórmula anterior, onde acabamos de calcular é de fato o

07:55.630 --> 08:02.180
valor que é como Q de s. uma. a é calculado.

08:02.210 --> 08:07.930
Então, essa parte de Arite simplesmente foi calculada separadamente, mas depois de tomar medidas.

08:08.330 --> 08:15.470
Então, como novamente antes de conhecermos um Q de um S e um valor algo que calculamos através de nossas iterações,

08:15.470 --> 08:16.860
o Preuss é algo.

08:17.000 --> 08:19.990
Então, um valor que está armazenado em nossa memória.

08:20.000 --> 08:26.990
Então, assim como um número que conhecemos e agora, depois que a ação está sendo realizada, sabemos qual recompensa ele

08:27.050 --> 08:30.270
realmente obteve o que recompensa o agente realmente obteve.

08:30.440 --> 08:33.320
E podemos calcular esse novo valor.

08:33.320 --> 08:39.690
Então, em essência, estamos rectificando esse valor, mas agora com novas informações a nova informação é

08:39.690 --> 08:41.120
a recompensa que obtivemos.

08:41.600 --> 08:47.330
E mais o que ficou, acabamos e o máximo do que esse

08:47.420 --> 08:50.540
novo valor é para esses dados específicos.

08:50.570 --> 08:54.480
Então, qual é o valor desse ser nesse estado?

08:54.500 --> 09:02.060
Então, basicamente, a Cure Vanessa-Mae, mas forneceu novas informações e agora a diferença temporal é definida como

09:02.150 --> 09:07.700
um tanto de um e s desses dois da diferença entre esses dois.

09:07.700 --> 09:11.770
Então, aqui, o primeiro elemento é o valor off-Terra.

09:11.780 --> 09:16.250
Então, o tipo de Q de Esson um pouco calculado depois.

09:16.550 --> 09:21.880
E o quvenzhan anterior que você armazenou em sua memória.

09:22.070 --> 09:24.170
E a questão é que eles são diferentes.

09:24.290 --> 09:26.240
Então, idealmente, eles deveriam ser os mesmos.

09:26.240 --> 09:31.750
Idealmente, este deve ser o mesmo que isso simplesmente porque esta é a fórmula para calcular isso.

09:31.790 --> 09:38.060
Mas o que é que isso não é algo que nós, Kalka, é algo que temos de evidências empíricas, algo

09:38.060 --> 09:41.320
que temos de atravessar o labirinto várias vezes e calcular.

09:41.320 --> 09:44.330
Então, isso é algo que chegamos até agora.

09:44.360 --> 09:46.820
Não está relacionado com a iteração atual.

09:46.820 --> 09:52.070
surgimos anteriormente há muito tempo, mas em uma de nossas iterações anteriores que atravessam o labirinto.

09:52.070 --> 09:53.180
É algo que

09:53.510 --> 09:57.740
Enquanto isso é algo que calculamos agora e não há garantia de

09:57.740 --> 10:04.720
que eles sejam os mesmos ou por causa da aleatoriedade que existe no labirinto porque isso poderia ter sido calculado

10:04.750 --> 10:10.260
e visto alguns eventos aleatórios CRN foram desencadeados e isso pode ser chamado para eventos aleatórios

10:10.300 --> 10:11.290
diferentes que foram desencadeados.

10:11.740 --> 10:15.680
E agora, escrevemos os nossos heróis apenas mova-o para lá.

10:15.700 --> 10:16.900
Então, como podemos usar isso.

10:16.900 --> 10:20.470
A questão está OK então, temos essa diferença temporal.

10:20.470 --> 10:21.340
Como usamos isso.

10:21.400 --> 10:23.450
E por que isso é chamado de diferença temporal.

10:23.590 --> 10:28.960
Bem, o motivo é chamado de diferença temporal porque você está basicamente calculando o mesmo que você

10:28.990 --> 10:33.460
está calculando Q de S e A, de modo que o valor Q dessa ação.

10:33.640 --> 10:36.140
Seu Calcott aqui e você está calculando isso aqui.

10:36.340 --> 10:38.310
Mas a diferença é o tempo.

10:38.320 --> 10:44.140
Este é o Q de S e eles anteriormente esse é yo Q de S e A.

10:44.140 --> 10:49.090
Agora, sua nova cura é inata e a questão é que houve uma diferença.

10:49.090 --> 10:51.700
Tem havido uma mudança entre eles no tempo.

10:52.060 --> 10:56.830
E como podemos usar isso para nossa vantagem se realmente houve uma mudança no tempo.

10:57.040 --> 11:02.790
Bem, uma coisa que podemos fazer é que poderíamos dizer OK, você conhece nossa Q de s. uma. a não faz.

11:02.830 --> 11:07.490
Este novo valor não é igual a antigo, então vamos nos livrar do antigo ou esquecer o antigo e

11:07.510 --> 11:09.610
vamos usar isso é tudo um novo valor.

11:09.970 --> 11:11.920
Mas isso não seria inteligente.

11:11.950 --> 11:17.960
E o motivo disso é que, em nossos ambientes, eventos aleatórios podem às vezes acontecer.

11:18.140 --> 11:25.500
E se o nosso antigo QSA do s. uma. A era algo que sempre acontece como 80% do tempo.

11:25.780 --> 11:28.750
E então, como foi representado pelo que acontece 80 por cento do tempo.

11:28.750 --> 11:33.280
E, em seguida, esse novo, exatamente o que aconteceu devido à aleatoriedade.

11:33.280 --> 11:39.610
Nesse caso, vamos descartar aquele que é responsável pela maior parte da situação e vamos substituí-lo por

11:39.760 --> 11:43.900
algo que acontece apenas 10 ou 20 por cento do tempo.

11:43.900 --> 11:50.650
Essa não seria a melhor abordagem para ir e é por isso que é exatamente por isso que não queremos mudar

11:50.650 --> 11:51.990
completamente os valores Opu.

11:52.060 --> 11:56.890
Nós queremos usar como mudar um pouco a cada passo um pouco por pouco.

11:56.890 --> 12:01.980
uma maneira específica, então vamos dizer que aqui está uma fórmula, vamos tomar nossa sugestão de SNH.

12:02.020 --> 12:05.080
E é por isso que vamos usar esta diferença temporal de

12:05.560 --> 12:07.120
E vamos atualizá-lo de tal maneira.

12:07.120 --> 12:12.450
Vamos tomar o antigo valor da cura Senay e vamos adicionar todas as cinco vezes

12:12.460 --> 12:13.380
a diferença temporal.

12:13.420 --> 12:15.730
Então, Alpha vai aprender tudo corretamente.

12:15.730 --> 12:17.410
Esse é um novo parâmetro que estamos apresentando.

12:17.410 --> 12:20.070
É assim que é rápido o aprendizado do algoritmo.

12:20.080 --> 12:26.390
estamos tomando essa diferença e, o que quer que seja, estamos adicionando isso à nossa cobra KJo anterior.

12:26.480 --> 12:27.210
Então, basicamente,

12:27.220 --> 12:31.970
Agora, esta fórmula provavelmente não faz nenhum sentido ou, assim, apenas parece que não faz sentido porque você conseguiu

12:31.970 --> 12:34.040
Covisint aqui e nos da um A aqui.

12:34.060 --> 12:39.460
É o mesmo, então provavelmente deve se negar, mas devemos reescrever isso de uma

12:39.460 --> 12:40.090
maneira diferente.

12:40.390 --> 12:44.080
Então vou mostrar-te novamente, então estou apenas adicionando tempo a essas fórmulas.

12:44.090 --> 12:48.070
Então, aqui é q t menos um nos anos anteriores.

12:48.070 --> 12:49.780
Q T menos 1 nos anos anteriores.

12:49.780 --> 12:56.080
Q T O Novo, este deve ser um círculo aqui em círculo aqui também, mas não importa e aqui tenha

12:56.080 --> 12:56.750
diferença alfa-temporal.

12:56.810 --> 12:58.750
Então você a diferença temporal atual.

12:58.750 --> 13:01.190
Então, você pode ver o que estamos fazendo, estamos dizendo.

13:01.220 --> 13:04.200
OK, vamos tomar nossa corrente.

13:04.240 --> 13:10.880
Q será igual a todos os anteriores Q mais qualquer diferença temporal que encontramos o Times Alpha.

13:11.150 --> 13:16.330
Esta fórmula aqui é o coração e a alma do algoritmo de aprendizagem do cubo.

13:16.330 --> 13:18.250
É assim que o cubo é ou atualiza.

13:18.280 --> 13:24.460
E é bom que já aprendemos quais valores q são o que a gama é o que é e o que

13:24.460 --> 13:25.300
é tudo isso.

13:25.420 --> 13:31.740
E agora tudo o que precisamos ver é que você tem um valor Q anterior Sim, isso é bom.

13:31.990 --> 13:37.870
E então, o que pode acontecer é que, quando você toma quando você realmente toma a ação quando o agente

13:37.870 --> 13:42.530
toma medidas, você saberá que receberá uma recompensa e ele vai acabar em um estado.

13:42.610 --> 13:46.400
E, com base nisso, ele pode calcular Aha.

13:46.420 --> 13:53.220
OK então, o que seria o que deveria ter sido o valor Q desse movimento que eu fiz.

13:53.530 --> 13:56.390
E agora essa é essa parte da equação.

13:56.470 --> 14:02.870
Subtrair o valor Q antigo obtém você uma diferença temporal e agora você precisa tirar uma diferença de amostra de tempo

14:02.920 --> 14:05.410
Alpher e é assim que você consegue ajustar.

14:05.430 --> 14:06.370
Q Você tem o que você quer dizer.

14:06.370 --> 14:10.240
Eu só acho que você vai e agora apenas para terminar com isso.

14:10.240 --> 14:14.890
Isso é meio que isso é suficiente para entender o que está acontecendo, mas apenas para esclarecer

14:14.890 --> 14:18.370
as coisas ainda mais ou talvez talvez confunda ainda mais as coisas.

14:18.460 --> 14:23.320
O que precisamos fazer para tomar essa diferença temporal ou essa diferença simples ou aqui uma maneira de conectá-la

14:23.320 --> 14:24.180
a este formato.

14:24.190 --> 14:29.840
Então, vamos pegar toda essa parte e conectá-la a esta fórmula e acabar com uma enorme equação.

14:29.920 --> 14:31.490
Aqui vamos nos.

14:31.660 --> 14:32.590
Existe nossa equação.

14:32.590 --> 14:38.470
Então esta é a equação completa com a diferença temporal escrita completamente.

14:38.560 --> 14:43.690
E a razão pela qual eu escrevi isso também, em primeiro lugar, você provavelmente encontrará isso

14:43.690 --> 14:45.560
em outra literatura se você estudar.

14:45.730 --> 14:50.810
E a segunda coisa é que faz com que algumas coisas um pouco mais complexas tenham fórmulas mais longas, mas também tornem

14:50.810 --> 14:52.300
algumas coisas um pouco mais claras.

14:52.300 --> 14:55.940
Então, por exemplo, você pode ver aqui o papel que o Alpha reproduz.

14:55.960 --> 14:58.310
Você pode vê-lo melhor, pois olha isso.

14:58.320 --> 14:58.860
Aqui.

14:58.900 --> 15:01.410
Q T menos um e aqui você vai.

15:01.420 --> 15:03.760
Q T menos um com um sinal negativo.

15:03.760 --> 15:12.170
Então, se você conectar o Alpha igual a 1 se você colocar um 1 aqui, isso negará isso.

15:12.190 --> 15:16.170
Então, eles vão se destruir e tudo o que você terá deixado é essa parte.

15:16.480 --> 15:23.080
é exatamente essa situação em que dissemos Tudo bem, então você tem um novo valor que deveria ter sido.

15:23.140 --> 15:24.750
E o que isso significa

15:24.850 --> 15:29.570
Vamos atualizar o nosso valor Q com o novo valor e esquecer o que tivermos anteriormente.

15:29.710 --> 15:35.470
E, como discutimos, não é a melhor abordagem porque há eventos aleatórios aqui e queremos atualizar as

15:35.470 --> 15:36.820
coisas passo a passo.

15:37.530 --> 15:43.590
E, por outro lado, se você disse que o Alpher é igual a zero, o que acontece, então, é que

15:43.590 --> 15:48.960
você esqueceu completamente essa parte inteira e você é fofo, o novo ou o atual será sempre igual

15:48.960 --> 15:51.720
ao anterior, então você está não vai aprender nada.

15:51.720 --> 15:56.730
no labirinto não importa porque você decidiu sobre você Kuchi valor há muito tempo e você apenas vai mantê-lo.

15:56.730 --> 15:58.940
E isso significa que tudo o que está acontecendo

15:59.230 --> 16:03.200
Então, é por isso que a Alfas não deve ser 0 ou deveria ser uma que deveria estar em algum lugar intermediário.

16:03.240 --> 16:09.330
E vai permitir que você aprenda lentamente passo a passo vai permitir que você, como seu ou o

16:09.360 --> 16:12.720
agente, ao longo do labirinto, vai ter a diferença temporal.

16:12.960 --> 16:19.530
E, lenta mas seguramente, esse valor irá obter atualização e atualizar o ibed e o

16:19.680 --> 16:25.440
que acontecerá eventualmente é que, em algum momento, espero que o algoritmo converja.

16:25.710 --> 16:30.960
mais próxima de zero e, eventualmente, estará bem muito perto de zero ou mesmo 0 0

16:30.960 --> 16:37.860
0 0 e o que isso significa é que cada vez que seu novo valor cutesie ou seu novo valor calculado.

16:37.860 --> 16:43.050
E o que isso significa é que essa diferença temporal começará a se tornar cada vez

16:43.350 --> 16:44.430
O que deveria ter sido.

16:44.440 --> 16:49.950
Então, não este, mas o que hipoteticamente deve ser suficiente para dar o passo será igual ao seu

16:49.950 --> 16:51.030
valor Q2 anterior.

16:51.030 --> 16:55.650
E então, um que é zero e isso significa que quando sua diferença

16:56.070 --> 17:02.720
de temperatura é zero, seu algoritmo convergiu e não é realmente necessário continuar atualizando o que está acontecendo.

17:02.720 --> 17:06.270
Isso faz essa pesquisa para continuar atualizando seus valores de cubo.

17:06.270 --> 17:12.780
continuar a executar esse conjunto, você sabe atualizar os valores da fila se o ambiente estiver mudando constantemente.

17:12.810 --> 17:19.140
A ressalva aqui é que a única vez, provavelmente, uma das únicas vezes em que você ainda deseja

17:19.170 --> 17:23.100
Se não é que não está lá, apenas tem alguns randoms para os eventos Kostic.

17:23.220 --> 17:28.750
Mas o próprio ambiente está modificando, assim como o morphing está mudando com o tempo.

17:29.040 --> 17:34.260
Então você continua a aprender, porque não é possível para você aprender tudo e criar

17:34.260 --> 17:39.210
a política ideal porque as políticas ótimas também mudaram com o ambiente o tempo todo.

17:39.240 --> 17:44.730
Nesse caso, você precisará continuar CALKIN e diferença temporal e calcular os valores de Q.

17:44.730 --> 17:46.830
Mas, além disso, é como uma complicação extra.

17:46.830 --> 17:53.370
seus valores e encontrando exatamente o que está acontecendo nesse ambiente, para que ele possa encontrar a política ideal.

17:54.090 --> 17:59.490
Além disso, é assim que a atualização de valores Q é assim, esta é a principal

17:59.490 --> 18:05.250
fórmula do algoritmo de aprendizagem Q e isso é como a versão expandida disso e agora deve

18:05.250 --> 18:12.870
se unir e ter sentido por que temos a equação de Belman e não apenas o que representa o gewgaws, mas também

18:12.870 --> 18:14.620
como o agente atua atualizando

18:14.640 --> 18:21.570
Então, eu sei muito para entrar, mas espero que tenha gostado deste tutorial e espero que você possa

18:21.570 --> 18:28.680
tirar os conceitos subjacentes e a intuição por trás dos seus valores e qual é a noção total

18:28.680 --> 18:36.990
de diferença temporal e por que é importante por que isso nos ajuda a treinar lentamente agentes e entenda seus ambientes

18:37.050 --> 18:39.230
em que eles estão operando.

18:39.270 --> 18:45.540
E se você gostaria de aprender um pouco mais sobre as diferenças temporais, então um artigo muito popular

18:45.540 --> 18:52.470
é aprender a prever pelos métodos das diferenças temporais por Richard Sutton de mil novecentos e oitenta e oito.

18:52.620 --> 18:57.060
Nós já tivemos uma referência por Richard Sutton, mas isso é como outro

18:57.060 --> 19:04.620
e, na verdade, tem um livro, então, se você entendeu, você conhece seu estilo de escrita e seu estilo de comunicação, então confira

19:04.620 --> 19:05.660
seu livro também.

19:05.810 --> 19:08.630
É como uma versão mais expandida de todas essas coisas.

19:08.640 --> 19:12.820
Eu não li o livro, mas é isso que eu estou imaginando ao mesmo tempo.

19:12.960 --> 19:19.530
papel e você pode aprender um pouco mais ou, provavelmente, muito mais sobre diferenças temporais lá.

19:19.530 --> 19:21.050
Isso vai adicionar ao

19:21.300 --> 19:22.950
E espero que tenha gostado também.

19:23.060 --> 19:24.270
Nós a veremos na próxima vez.

19:24.270 --> 19:26.250
Até então, desfrute da AI.