WEBVTT

00:01.110 --> 00:04.770
Olá bem-vindo de volta ao curso sobre inteligência artificial.

00:04.770 --> 00:09.420
Hoje vamos discutir o plano de ataque para a seção que estamos falando sobre matar aprender.

00:09.450 --> 00:15.000
E nós temos alguns tutoriais, então eu acho que é uma boa idéia

00:15.000 --> 00:20.580
para nós passar rapidamente por eles para entender o que esperar nos próximos vídeos.

00:20.580 --> 00:21.650
Aqui vamos nos.

00:22.140 --> 00:22.560
Tudo bem.

00:22.560 --> 00:25.230
O que aprenderemos nesta seção.

00:25.230 --> 00:31.650
e como se relaciona com coisas que observamos na vida real são realmente coisas que fazemos nós mesmos .

00:31.690 --> 00:37.890
Em primeiro lugar, primeiro falaremos sobre o que a aprendizagem de reforço é realmente e o que o filosófico

00:37.890 --> 00:44.540
por trás do aprendizado de reforço é e como o aprendizado de reforço realmente pode ser visto na vida real

00:44.790 --> 00:51.630
Eles não falam sobre a equação do capitão, conceito muito fundamental que sustenta tudo ou muitas coisas que estão

00:51.630 --> 00:56.580
acontecendo e para o reforço aprendendo, especialmente no espaço da aprendizagem CULE e sobre

00:56.940 --> 01:01.700
o que vamos discutir nesta seção do curso e em as seguintes seções.

01:01.800 --> 01:09.280
Então, vamos falar sobre o plano e o plano que, e a inteligência artificial de ferro

01:09.300 --> 01:15.990
cru, surgiram para navegar em ambientes internos, veremos o que isso se junta muito rápido,

01:15.990 --> 01:17.270
mas bastante interessante.

01:17.720 --> 01:22.890
Lá vamos conversar sobre o mercado de processos de decisão e seu conceito, vamos

01:22.890 --> 01:31.620
apresentar um conceito muito novo que, lentamente, adicionará uma camada de sofisticação à nossa equação de Belman a todo o nosso reforço aprendendo

01:31.800 --> 01:37.070
com nossos conceitos de aprendizagem CULE e esse é o caminho Esta seção é

01:37.290 --> 01:43.080
estruturada que introduzimos a equação de Bollmann de forma muito simplista e depois lentamente ao

01:43.260 --> 01:48.550
longo dos tutoriais, adicionamos camadas de sofisticação a ela para chegar à versão final.

01:48.690 --> 01:53.880
Esse é o destino designado em termos de Hillary, mas vamos chegar lá devagar.

01:54.000 --> 01:58.830
Para que possamos ter tempo suficiente para processar toda essa informação e deixá-la resolver.

01:58.890 --> 02:05.400
ao que discutimos ou o que teremos ou discutido até lá, falará sobre políticas versus planos.

02:05.400 --> 02:11.220
E a marca de proses dissidentes é uma camada extra de sofisticação em relação

02:11.220 --> 02:13.830
Outro interessante Tauriel são todos interessantes.

02:13.830 --> 02:19.590
Apenas outro tutorial rápido sobre como a política é diferente dos planos e quais são

02:19.590 --> 02:25.980
as diferenças e estes são termos que você provavelmente ouvirá ou lerá na literatura, se você for

02:25.980 --> 02:29.980
investigar isso para obter informações adicionais sobre o aprendizado de reforço.

02:29.980 --> 02:34.590
Todos falam sobre a adição de uma pena de vida para nossos ambientes.

02:34.770 --> 02:41.850
E essa é uma espécie de outra forma de agregar complexidade aos ambientes em que nossos

02:41.850 --> 02:43.340
agentes estarão operando.

02:43.370 --> 02:48.780
Todos eles falam sobre a intuição por trás de continuar aprendendo até esse tutorial,

02:48.780 --> 02:50.690
vamos falar valores de estados.

02:50.790 --> 02:57.300
E então, finalmente, vamos mudar para falar sobre valores ou ações ou valores de cubo e

02:57.300 --> 02:59.880
então vamos introduzir a diferença temporal.

02:59.910 --> 03:06.690
Este é um tutorial onde tudo o que aprendemos vai se juntar para explicar exatamente

03:06.690 --> 03:13.930
como os agentes ou artificiais aprendem a inteligência artificial como atualiza seus valores através de todo

03:14.090 --> 03:16.420
o processo iterativo que está passando.

03:16.830 --> 03:23.100
na prática e isso nos ajudará ainda mais a entender esse conhecimento que vamos sair na seção.

03:23.100 --> 03:29.550
E então, finalmente, vamos olhar para uma zação visível de aprendizagem, então vamos levar tudo o que

03:29.730 --> 03:35.870
aprendemos e vamos ver isso acontecer na frente de nossos olhos e assistir a uma inteligência

03:35.880 --> 03:42.600
artificial realmente executar o aprendizado CULE e fazer todas as coisas que vamos discutir em um nível

03:42.810 --> 03:44.530
intuitivo vai realmente fazer

03:44.550 --> 03:47.460
Então, espero que esteja muito entusiasmado com esses próximos tutoriais.

03:47.460 --> 03:48.800
Eu definitivamente estou.

03:48.810 --> 03:55.380
E há alguns slides muito interessantes que chegam e mais importantes os conceitos em si são muito

03:55.380 --> 03:59.540
muito interessantes e tenho certeza que você vai apreciá-los bastante.

03:59.760 --> 04:01.410
E espero vê-lo na próxima vez.

04:01.410 --> 04:03.080
Até então, desfrute da AI.