WEBVTT

00:00.620 --> 00:04.010
Olá e bem-vindo de volta ao curso sobre inteligência artificial.

00:04.010 --> 00:05.940
No tutorial de hoje, nos divertiremos.

00:05.960 --> 00:11.900
Vamos dar uma olhada e a inteligência artificial realmente atravessando aquele labirinto sobre o qual falamos há

00:11.900 --> 00:18.740
tanto tempo e vamos usar matar aprender a navegar no seu caminho e encontrar a saída e veremos o

00:18.830 --> 00:24.350
que acontece com a q valores iriam acontecer com a política e assim por diante.

00:24.350 --> 00:26.310
Então vamos dar uma olhada.

00:26.330 --> 00:31.910
Nós vamos usar alguns materiais gentilmente fornecidos pela Universidade de Berkeley.

00:31.910 --> 00:40.700
Então, se você for para um, eu não Birk apenas o E R K E L E Por que você não acede a esse link novamente.

00:40.790 --> 00:47.510
Você verá este site e saberá o que vamos analisar é a necessidade de ir

00:47.550 --> 00:49.130
para os projetos PacMan.

00:49.130 --> 00:58.160
Eu acho que os projetos do Pacman e aqui se você se deslizar para baixo e você olha para eles em primeiro aprendizado, isso é o

00:58.160 --> 00:59.050
que estamos trabalhando.

00:59.180 --> 01:01.700
Então, você pode baixar o arquivo zip.

01:01.700 --> 01:03.500
Então, se você quiser.

01:03.530 --> 01:08.330
Então, você não precisa disso é que não vamos passar por uma solução juntos neste teste,

01:08.330 --> 01:11.860
apenas informando de onde isso é tudo porque somos muito parecidos.

01:11.870 --> 01:12.930
Realmente apreciamos isso.

01:12.980 --> 01:16.180
A UC Berkeley disponibilizou estes materiais.

01:16.190 --> 01:19.300
Mas se você deseja experimentar com isso por conta própria.

01:19.400 --> 01:20.660
Basta ter em mente que isso não faz parte.

01:20.680 --> 01:23.310
Não vai fazer parte dos nossos cursos como parte do curso de Berkeley.

01:23.330 --> 01:27.860
Não tenho certeza de como funciona para fins de ilustração, mas se você quiser experimentar com

01:27.860 --> 01:31.340
isso, você pode encontrar aqui o arquivo zip e todas as instruções antigas.

01:31.430 --> 01:38.450
eu queria mostrar é que aqui nós temos as informações de licenciamento, então isso é o que eu quero dizer.

01:38.450 --> 01:42.790
E nós só vamos entrar em Python imediatamente e a primeira coisa que

01:42.870 --> 01:47.720
Temos muita sorte de terem dito que somos livres para usar ou estender esses projetos para fins educacionais

01:47.720 --> 01:51.120
desde que você conheça a distribuição de soluções publicitárias que não faremos.

01:51.200 --> 01:56.750
Você mantém este aviso que temos e você fornece um arcebispo claro para a UC Berkeley, incluindo um link para

01:56.780 --> 01:57.860
o qual também temos.

01:57.860 --> 02:00.750
Então, mais uma vez, se você quiser saber mais, o link.

02:00.770 --> 02:01.720
Você pode dar uma olhada.

02:01.730 --> 02:07.490
E muito obrigado a todas essas pessoas que trabalharam neste projeto, então aqui está o mundo da grade.

02:07.490 --> 02:09.370
Nós vamos trabalhar se houver uma solução lá.

02:09.460 --> 02:15.110
Você teria que fazê-lo funcionar, você teria que resolvê-lo sozinho ou possivelmente encontrar uma solução.

02:15.110 --> 02:18.980
Talvez algumas das suas pessoas que alguém conheça possam ajudá-lo com isso.

02:19.160 --> 02:24.260
Se novamente, o que você quer, não é necessário, porque nós apenas vamos ver isso nesta

02:24.320 --> 02:25.110
tela agora.

02:25.160 --> 02:29.720
Então, depois de criarmos todos esses arquivos, poderíamos iniciá-lo aqui.

02:29.720 --> 02:36.680
Então, existem alguns parâmetros que estão envolvidos neste mundo inteiro e não vamos mostrar apenas o

02:36.680 --> 02:39.080
que parece se o lançarmos.

02:39.080 --> 02:41.540
Então, vamos tentar iniciá-lo no modo manual.

02:41.540 --> 02:47.070
Então, se eu for menos um desses panoramas são manuais, então eu posso comandar seu agente de controle.

02:47.090 --> 02:52.820
Então, aqui, você pode ver todas as redes para que eu possa subir para que você possa ver que está tomando medidas

02:52.820 --> 02:54.980
começando e começando nos estados onde eu estava.

02:55.100 --> 03:00.650
E então você viu que eu pressionei e tomei a ação na Norf e, pela primeira vez, acabei em zero depois

03:00.650 --> 03:01.310
de subir.

03:01.490 --> 03:05.000
Mas na segunda vez que tomei medidas, Norf e eu terminamos no mesmo triste, não nos mudamos.

03:05.000 --> 03:08.440
Então, algo aconteceu, você sabe que a aleatoriedade aconteceu, eu fui para a esquerda ou para a direita.

03:08.780 --> 03:10.910
E, por padrão, os parâmetros são definidos.

03:10.910 --> 03:16.910
Você pode ver aqui, por padrão, eles estão configurados exatamente sobre o que discutimos, a que frequência realmente resulta

03:16.940 --> 03:18.250
em direção não intencional.

03:18.270 --> 03:20.960
20 por cento do tempo para 10 por cento para a esquerda, um pouco para a direita.

03:21.230 --> 03:23.520
Então, se eu subir e dizer que eu subi eu vou direto.

03:23.520 --> 03:26.810
Fui certo agora não aconteceu.

03:26.810 --> 03:29.790
Certo novamente e certo e acabei.

03:29.790 --> 03:35.810
precisa clicar novamente para sair desta saída final, então, de lá, clique novamente e você terminou.

03:35.810 --> 03:37.140
Mas nesta implementação você

03:37.190 --> 03:40.700
Esse é um estado terminal para que possamos executar o nosso manual.

03:40.730 --> 03:45.620
Você pode ver isso se eu for direita direita à esquerda.

03:45.740 --> 03:50.060
Então, aqui, o que vimos anteriormente, que o agente não iria direto para a direita.

03:50.060 --> 03:53.300
Qual é o objetivo de subir se houver uma chance de entrar no poço.

03:53.300 --> 03:54.580
Então, vamos ver o que o agente faria.

03:54.610 --> 03:56.780
Vai para a esquerda e vai para o oeste, iria para o oeste.

03:56.780 --> 04:00.820
E você vê que eu cliquei para a esquerda, mas subiu e aqui eu clicaria direito.

04:00.860 --> 04:05.390
E eu termino na fase de saída final e você vê a recompensa de Deus igual a uma.

04:05.390 --> 04:07.190
Então, é isso que parece manualmente.

04:07.190 --> 04:12.520
Agora vamos conectar um AI para isso e deixá-lo passar.

04:12.510 --> 04:16.800
Então vamos fazer um H aqui e vamos adicionar alguns Brandner.

04:16.820 --> 04:24.170
Então, deixe-me apenas ver o que eu digitei aqui, então, espero que você possa ver pelo mundo da grade, porque então,

04:24.230 --> 04:25.370
menos nossos meios.

04:25.370 --> 04:27.980
Essa é a recompensa pela vida.

04:27.980 --> 04:31.840
Então eu tenho dois deles, então eu provavelmente deveria remover esse.

04:32.190 --> 04:35.050
Então, k k é quantas iterações.

04:35.060 --> 04:36.690
Isso é muitas outras iterações.

04:36.690 --> 04:41.180
Vamos fazer menos Vamos fazer como 10 iterações devem ser suficientes.

04:41.180 --> 04:42.710
Minus a é agente.

04:42.710 --> 04:47.040
Que tipo de agente não quer fazer honra e imagem e algum valor ou uma Q.

04:47.060 --> 04:49.120
Q Então eu quero uma Q.

04:49.190 --> 04:57.090
O agente de aprendizado Q fazendo isso menos s é qual é a velocidade do s, de modo que é muito grande

04:57.090 --> 05:04.780
uma força que apenas usa a velocidade máxima por enquanto menos R é uma penalidade viva, portanto, por padrão, é zero.

05:04.820 --> 05:11.000
Então, lembre-se, no início, reinicie 0 penitências de vida, então, ligue para isso também 0 0 e

05:11.000 --> 05:16.040
pode simplesmente remover este parâmetro e D é o que é desconto d.

05:16.040 --> 05:20.660
Então, eu apenas um tipo de fator, então vamos manter o ponto zero e muito

05:20.660 --> 05:27.880
similar ao que estamos começando nesta seção no curso, então vamos rodar esse OK, muito rápido novamente, tudo realmente tão bonito para que

05:27.880 --> 05:30.130
você possa ver como ele é explorando.

05:30.580 --> 05:35.650
E até agora ele bateu negativo três vezes e você pode ver como os valores q estão

05:35.650 --> 05:36.690
sendo atualizados nesses quadrados.

05:36.700 --> 05:37.860
Portanto, estes são valores-chave.

05:37.870 --> 05:39.310
Eles são uma espécie de zero.

05:39.320 --> 05:40.740
Você pode ver agora o valor Q.

05:40.740 --> 05:45.220
Então ele aprendeu que este é um implemento um pouco diferente porque, uma vez que você chegar ao estágio

05:45.220 --> 05:46.560
final, você tem que sair disso.

05:46.660 --> 05:48.990
Você deve clicar em mais um botão para sair.

05:49.000 --> 05:51.740
E por isso é muito próximo a um, mas não exatamente um.

05:51.760 --> 05:57.530
valor lentamente, as mãos cristalizadas são um ponto em que um ex-colega está chegando a algum lugar, mas eles são tão longe

05:57.520 --> 06:02.290
que eles são um pouco de zero porque ele não tem informações suficientes para entenda o que está acontecendo.

06:02.290 --> 06:05.470
Mas, ao mesmo tempo, você pode ver que aqui você conhece o

06:05.470 --> 06:08.710
Ok, então vamos ver, vamos ver o que acontece aqui.

06:10.180 --> 06:13.620
Explorando a explorar o que vai acontecer.

06:13.710 --> 06:15.300
Bem, foi um tempo.

06:15.670 --> 06:17.940
E nós conseguimos isso algum envolvimento aleatório aqui.

06:18.100 --> 06:20.100
Então, há uma boa por vezes.

06:20.110 --> 06:22.500
Agora, ele só recebe 10 iterações.

06:22.510 --> 06:26.780
Então ele tem que aprender rápido, eu preciso de você lá.

06:27.220 --> 06:29.280
Vamos ver o que está acontecendo.

06:29.320 --> 06:30.050
Vamos.

06:30.060 --> 06:31.820
Saia desse labirinto já.

06:32.840 --> 06:38.450
E sim 10 episódios tão médios que acabam por isso.

06:38.590 --> 06:40.430
Isso não está realmente interessado nisso.

06:40.460 --> 06:41.760
Então, aqui vamos ver.

06:41.760 --> 06:43.060
Nunca vi um clique suficiente.

06:43.100 --> 06:43.460
Certo.

06:43.460 --> 06:43.810
Aqui vamos nós.

06:43.820 --> 06:47.780
Então, você pode ver que esta é a política que ele criou.

06:48.020 --> 06:50.860
Mesmo com apenas 10 episódios ele já tem pulso.

06:50.890 --> 06:55.820
Eu vou subir de uma bomba e aqui eu vou descer aqui, vou descer aqui, vou entrar

06:55.820 --> 06:58.320
na parede e depois irei saltar, estamos aqui.

06:58.550 --> 06:59.620
Isso é bem legal.

07:00.000 --> 07:00.250
ESTÁ BEM.

07:00.260 --> 07:02.530
Então, agora vamos aumentar a velocidade.

07:02.650 --> 07:04.220
Qual foi o parâmetro s lá.

07:04.220 --> 07:06.240
E isso é como uma falta de lei.

07:06.260 --> 07:13.070
Isso é quádruplo da velocidade e aumentamos o número de iterações, então digamos 20 para racionar este tempo e vamos

07:13.070 --> 07:16.390
ver se ele pode passar por um pouco mais agora.

07:16.790 --> 07:18.700
Então você pode ver que ele está indo um pouco mais rápido.

07:19.600 --> 07:25.900
E ele está aprendendo que ele está aprendendo que não é realmente você sabe desse estado, não há muitas ações

07:25.900 --> 07:30.220
boas Orio essas ações que o direito e direito não são tão bons.

07:30.250 --> 07:32.400
Definitivamente, isso definitivamente não era bom.

07:32.410 --> 07:34.680
Ele ainda precisa aprender que, daqui, também é bom.

07:34.680 --> 07:36.820
Você pode ver que esta ação é muito boa.

07:36.820 --> 07:37.330
Tudo bem.

07:37.330 --> 07:38.380
O que ele conseguiu.

07:38.530 --> 07:39.100
ESTÁ BEM.

07:39.100 --> 07:42.200
Então política interessante aqui você decidimos subir.

07:42.330 --> 07:43.270
Apenas não há informações suficientes.

07:43.270 --> 07:45.610
Então vamos fazer isso.

07:46.850 --> 07:50.370
E vamos aumentar a velocidade para gostar de 100.

07:50.630 --> 07:56.570
Super rápido e o número de iterações lhe dará 100 iterações desta vez é executado

07:56.570 --> 08:02.930
essa cena como louco rápido e você pode ver isso porque há tantas mais iterações. Ele

08:02.930 --> 08:09.500
tem mais informações para mais experimentar e realmente construir esta matriz ou matriz esses valores para

08:09.500 --> 08:10.240
cada estado.

08:10.250 --> 08:13.220
Ele agora sabe que você pode ver esse ponto zero oitenta e nove.

08:13.250 --> 08:16.050
O que dissemos no nosso ponto zero 86.

08:16.120 --> 08:20.660
Outra coisa a lembrar é o valor de qualquer estado dado.

08:20.720 --> 08:24.230
Lembre-se que a fórmula que tivemos é o máximo dos valores do cubo.

08:24.230 --> 08:27.160
Lembre-se daquilo que criamos uma fórmula de atalho.

08:27.170 --> 08:30.690
Então, o que é o que com o valor neste estado seja o V disso.

08:30.900 --> 08:32.060
Seria 0. 18.

08:32.060 --> 08:37.870
Porque esse é o mais alto dos quatro aqui o valor desse estado 0. 7 você quer o valor deste

08:37.870 --> 08:38.180
dia.

08:38.210 --> 08:40.260
Existe o ponto sessenta e um, e assim por diante.

08:40.400 --> 08:41.480
Então é algo para lembrar.

08:41.490 --> 08:45.590
Lembro-me de quando acabei, acho que tivemos como zero ponto 86 ou algo assim praecox.

08:45.770 --> 08:55.060
E então, se vamos no próximo ano, simplesmente desaparecer ou desaparecer novamente e isso pode fazer com que ele volte.

08:55.170 --> 08:55.750
ESTÁ BEM.

08:55.760 --> 08:56.210
ESTÁ BEM.

08:56.210 --> 09:00.680
Lentamente lentamente, encher lentamente alguns espaços.

09:00.970 --> 09:01.450
Entendo.

09:01.490 --> 09:06.170
E também é bastante aleatório porque não só o ambiente tem aleatoriedade, mas também a maneira como

09:06.170 --> 09:10.750
ele explora que a estrela realmente não conhece a política é que ele está explorando ao acaso.

09:11.190 --> 09:12.150
Apenas continua a desaparecer.

09:12.170 --> 09:13.420
Eu não entendo o porquê.

09:13.680 --> 09:18.650
De qualquer forma, vamos ver o que acontece se você aumentar o número aqui e, aqui,

09:18.650 --> 09:23.060
deve levar a mesma quantidade de tempo se a velocidade não tiver um limite.

09:23.480 --> 09:27.610
OK, então ele é como se ele tivesse mais oportunidades de explorar coisas.

09:27.650 --> 09:30.850
OK, vamos ver como tudo corre.

09:31.260 --> 09:35.010
E você pode ver os valores que estão convergindo, eles vão para cima e para baixo, dependendo de

09:35.010 --> 09:38.640
você, porque há alguma aleatoriedade e ele pode acabar como no poço, mesmo que ele vá assim.

09:38.640 --> 09:44.940
Mas, ao mesmo tempo, estão começando lentamente a convergir para algum tipo de valores e valores de referência.

09:44.950 --> 09:48.540
Provavelmente, mil é um pouco demais em termos de tempo.

09:48.540 --> 09:53.250
Não parece que a velocidade também esteja aumentando proporcionalmente.

09:53.610 --> 09:55.560
Então, pode cortar essa parte.

09:55.650 --> 09:57.560
Quero dizer, como reduzir a velocidade.

09:57.600 --> 10:02.850
Você sabe, enquanto isso é muito baixo, você não precisa assistir até o final deste tutorial.

10:02.850 --> 10:08.430
Eu só quero experimentar um pouco, de modo a dar-lhe alguns exemplos do que trabalhamos, mas você

10:08.430 --> 10:10.920
entendeu que Ele passa por tudo isso.

10:10.950 --> 10:14.800
Tem alguma aleatoriedade como o Rambler incorporado ao seu comportamento.

10:14.820 --> 10:20.720
Então, mesmo quando tem como uma política, ela continuará explorando, então não será como uma vez que tenha uma

10:20.720 --> 10:23.420
política básica que não apenas continuará seguindo sua política.

10:23.460 --> 10:29.130
Ele ainda experimentará outras variações de vez em quando para aprimorar sua política, talvez não tenha encontrado

10:29.130 --> 10:31.350
a melhor política já de imediato.

10:31.350 --> 10:33.240
Talvez possa melhorar a política.

10:33.360 --> 10:40.080
E é por isso que, mesmo depois de tantas iterações, você ainda pode ver alguns efeitos aleatórios, é às vezes salta para estados aleatórios,

10:40.080 --> 10:45.060
não apenas por causa da aleatoriedade no ambiente, mas também porque existe algum nível como um parâmetro que

10:45.060 --> 10:50.750
você poderia controlar, o que você poderia configurar para o seu agente dizendo que você sabe a maior parte do

10:50.820 --> 10:56.040
tempo 80 por cento do tempo faça o que quer que sua política lhe diga para fazer, mas 20

10:56.040 --> 11:00.930
por cento do tempo você apenas tem alguma experiência divertida e ver o que acontece e usar

11:00.930 --> 11:03.410
as informações que você reunir para atualizar sua política.

11:03.410 --> 11:05.300
OK, isso está demorando muito.

11:05.310 --> 11:06.360
Vamos tentar isso de novo.

11:06.560 --> 11:11.640
Sim, é assim que o agente aprende em diferentes estados.

11:11.640 --> 11:14.270
Talvez vamos passar mais um pouco por curiosidade.

11:14.280 --> 11:16.590
Então, há algo mais que possamos mudar sobre isso.

11:18.420 --> 11:20.110
Iterações.

11:21.630 --> 11:22.400
ESTÁ BEM.

11:22.430 --> 11:24.280
OK, vamos dar uma olhada.

11:24.550 --> 11:26.680
Sim, podemos mudar a discussão, por exemplo.

11:26.680 --> 11:39.860
Então, neste caso, poderíamos dizer que K menos cem menos um Q menos dois e menos são OK mil.

11:39.920 --> 11:41.380
Então, recompensa.

11:41.390 --> 11:47.920
Nós queremos mantê-lo talvez, vamos manter isso em 0. isso, mantenha sempre a recompensa em meu ponto zero do deserto.

11:47.920 --> 11:49.270
04 Mas, digamos, defronte com

11:49.280 --> 11:58.340
E então aqui vamos dizer que o desconto não é zero nove pontos, mas é como ponto zero ponto

11:58.340 --> 11:59.030
cinco.

11:59.060 --> 12:02.300
Então, ele é bastante descontado enquanto você passa pelo jogo.

12:02.600 --> 12:08.960
Então, na verdade, agora será incentivado a aproximar-se do acabamento em vez de uma nova rota, os estados próximos ao

12:08.960 --> 12:14.060
final obterão um valor alto para que você possa ver que os valores realmente cai, não

12:14.060 --> 12:15.400
é tão verde quanto antes.

12:16.360 --> 12:20.190
Então, você pode ver que esta é a política agora.

12:20.380 --> 12:26.490
Então, é assim como esse, semelhante ao que vimos antes, provavelmente, apenas as diferenças

12:26.500 --> 12:28.830
de aqui saltando diretamente aqui.

12:28.840 --> 12:29.980
Então é um.

12:30.000 --> 12:32.500
E ok, vamos apenas correr mais um.

12:32.500 --> 12:33.510
Isso é tão divertido.

12:33.580 --> 12:39.020
Vamos apenas rodar mais um k menos k 100 a q descartar.

12:39.130 --> 12:48.960
Mantenha-o como original Então, vamos apenas rodar esta configuração básica de baunilha, ok, ok, ok.

12:49.110 --> 12:51.110
Vai ver se isso nos mostrará a política.

12:51.210 --> 12:54.820
E sim, conseguimos a política.

12:54.840 --> 12:55.150
Sim.

12:55.150 --> 12:56.350
Bom acabamento.

12:56.350 --> 12:58.820
Então, aqui temos a política.

12:58.900 --> 12:59.830
Você sabe que isso é familiar.

12:59.830 --> 13:05.260
Lembre-se daquele momento em que vimos que a IA superou a bomba humana na parede para ir lá

13:05.290 --> 13:08.530
e boom na parede para ir assim para aumentar o problema.

13:08.530 --> 13:09.270
Então vamos lá.

13:09.280 --> 13:17.020
Esse é um exemplo de inação da inteligência artificial muito, muito simples, mata os ganhos, então não há aprendizado

13:17.020 --> 13:18.190
profundo nesta fase.

13:18.610 --> 13:23.810
Mas, ao mesmo tempo, já é bastante inteligente e espero que você tenha gostado do tutorial de hoje.

13:23.810 --> 13:29.210
E, mais uma vez, agradeço a UC Berkeley e espero que você tenha gostado do tutorial de hoje e eu olho para a frente

13:29.230 --> 13:29.630
scenics eles.

13:29.650 --> 13:31.120
Até então, desfrute da AI.