WEBVTT

00:00.240 --> 00:02.710
Hallo en welkom terug bij de cursus over diep leren.

00:02.970 --> 00:08.140
Dit is een extra tutorial om te praten over de softmax- en cross-entropiefuncties.

00:08.550 --> 00:15.300
Het is niet 100 procent nodig om door alle delen te gaan die we hebben doorgenomen in

00:15.300 --> 00:21.060
het hoofdgedeelte van dit gedeelte waar we het hebben over de convolutionele neurale netwerken.

00:21.210 --> 00:26.490
Maar tegelijkertijd dacht ik dat het een goede aanvulling zou zijn op je zak met kennis en vaardigheden.

00:26.500 --> 00:30.270
Dus laten we doorgaan en in deze functies graven.

00:30.750 --> 00:37.470
Om te beginnen hebben we hier het convolutionele neurale netwerk dat we in het hoofdgedeelte van de sectie

00:37.470 --> 00:38.430
hebben gebouwd.

00:38.640 --> 00:45.150
En dan, aan het einde, verschijnen er enkele kansen voor nul komma vijfennegentig voor een hond en nul komma nul

00:45.150 --> 00:50.200
vijf of vijf procent voor een kat, gezien die foto aan de linkerkant als invoer.

00:50.910 --> 00:52.520
Dit is nadat de training is gevolgd.

00:52.530 --> 00:56.970
Dit is eigenlijk dat het draait en het classificeert een bepaald beeld.

00:57.210 --> 01:00.540
En dus is de vraag hier hoe komt het dat deze twee waarden optellen tot één?

01:00.810 --> 01:06.330
Want voor zover we weten, van alles wat ik heb geleerd over kunstmatige neurale netwerken, is

01:06.330 --> 01:11.400
er niets om te zeggen dat deze twee laatste neuronen met elkaar verbonden zijn.

01:11.610 --> 01:16.530
Dus hoe zouden ze weten wat de waarde van de hoe voor elk van hen is, wat de waarde van de ander

01:16.530 --> 01:19.890
is en hoe zouden ze weten dat ze hun waarden bij één moeten optellen?

01:20.280 --> 01:25.890
Het antwoord is dat ze dat niet zouden doen in de klassieke versie van een kunstmatig neuraal netwerk.

01:26.160 --> 01:31.500
En de enige manier waarop ze dat doen, is omdat we een speciale functie introduceren, de softmax-functie genaamd, om

01:31.770 --> 01:33.580
ons uit de situatie te helpen.

01:33.840 --> 01:41.580
Dus wat er normaal gesproken zou gebeuren, is dat de neuronen van honden en katten enige echte waarde hebben die ze niet hoeven te

01:41.580 --> 01:44.670
zijn, ze hoeven niet op te tellen tot één.

01:45.090 --> 01:51.510
Maar dan zouden we de softmax-functie toepassen, die daar bovenaan staat geschreven, en dat zou deze waarden

01:51.510 --> 01:55.950
tussen nul en één brengen, en ze zouden optellen tot één.

01:56.280 --> 02:03.210
En om Wikipedia te citeren, de softmax-functie of de genormaliseerde exponentiële functie is een generalisatie van de logistische

02:03.210 --> 02:10.230
functie die unquote aanhaalt en een belangrijke dimensionale vector van willekeurige reële waarden verplettert tot een K-dimensionale vector van

02:10.230 --> 02:15.260
reële waarden in het bereik van nul tot één die optellen tot een.

02:15.270 --> 02:17.280
Dus eigenlijk doet het precies wat we willen.

02:17.520 --> 02:22.400
Het brengt deze waarden tussen nul en één en zorgt ervoor dat ze optellen tot één.

02:22.830 --> 02:27.720
En de manier waarop het werkt is dat de manier waarop dit mogelijk is, is omdat je onderaan hier

02:27.720 --> 02:29.840
kunt zien dat er een sommatie is.

02:29.850 --> 02:38.010
Dus het neemt de exponent en plaatst het in de macht van Z en telt het op, zodat zodra de twee over al je klassen,

02:38.010 --> 02:39.490
al deze waarden zijn.

02:39.810 --> 02:43.320
En dat is dus je normalisatie die daar plaatsvindt.

02:44.310 --> 02:47.340
Dus zo werkt de softmax-functie.

02:47.340 --> 02:54.540
En het is logisch om de softmax-functie in convolutionele neurale netwerken te introduceren, want hoe vreemd zou het zijn

02:54.900 --> 03:03.990
als je een mogelijke klasse van een hond en een kat had en voor de hondenklasse had je een kans van 80 procent, en

03:03.990 --> 03:08.040
voor de kattenklasse, je had een kans van 45 procent.

03:08.470 --> 03:11.100
Het heeft gewoon geen zin zo.

03:11.250 --> 03:15.720
En daarom is het veel beter als je de softmax-functie introduceert en dat is wat

03:15.900 --> 03:19.050
je meestal zult zien gebeuren in convolutionele neurale netwerken.

03:19.650 --> 03:25.980
Het andere is dat de softmax-functie hand in hand gaat met iets dat de cross-entropiefunctie wordt genoemd,

03:25.980 --> 03:28.950
en het is erg handig voor ons.

03:28.980 --> 03:30.480
Laten we dus eerst naar de formule kijken.

03:30.540 --> 03:32.550
Zo ziet de kruis-entropiefunctie eruit.

03:33.090 --> 03:38.760
We gaan eigenlijk een andere berekening gebruiken, we gaan deze voorstelling van de eeuw

03:38.760 --> 03:39.330
gebruiken.

03:39.340 --> 03:40.590
Maar de resultaten zijn in principe hetzelfde.

03:40.620 --> 03:42.000
Dit is gewoon makkelijker te berekenen.

03:42.420 --> 03:48.990
En wat ik weet, klinkt op dit moment misschien helemaal niets met wat dan ook, alleen formules op je scherm, maar er

03:48.990 --> 03:53.010
zal wat extra aanbevolen lectuur zijn aan het einde van dit gedeelte.

03:53.010 --> 03:58.290
Dus maak je geen zorgen als je de wiskunde niet oppikt, alsof we de wiskunde nu niet hebben uitgelegd.

03:58.290 --> 04:03.560
Maar het punt hier is dat wat over entropie is, nou ja, over entropiefunctie.

04:03.570 --> 04:11.460
Weet je nog hoe we eerder in kunstmatige neurale netwerken een functie hadden genaamd de gemiddelde A-kwadraat

04:11.460 --> 04:17.700
foutfunctie, die we gebruikten als de kostenfunctie voor het beoordelen van onze netwerkprestaties.

04:17.700 --> 04:23.520
En ons doel was om de MSE te minimaliseren om onze netwerkprestaties te optimaliseren.

04:23.850 --> 04:25.680
Nou, dat was toen onze kostenfunctie.

04:25.860 --> 04:31.770
Ze zijn er en in convolutionele neurale netwerken kunnen we MASC nog steeds gebruiken.

04:31.770 --> 04:38.040
Maar een betere optie in convolutionele neurale netwerken nadat je de softmax-functie hebt toegepast, blijkt de

04:38.040 --> 04:39.480
kruis-entropiefunctie te zijn.

04:39.690 --> 04:45.570
En in convolutionele neurale netwerken, wanneer je over letselfuncties toepast, worden de kosten niet meer de

04:45.570 --> 04:46.560
kostenfunctie genoemd.

04:46.560 --> 04:47.730
Het heet de verliesfunctie.

04:48.150 --> 04:49.370
En ze lijken erg op elkaar.

04:49.410 --> 04:55.440
Het zijn slechts kleine terminologische verschillen en houden van een beetje anders en wat ze betekenen.

04:55.440 --> 04:58.740
Maar voor onze doeleinden is het vrijwel hetzelfde en.

04:59.780 --> 05:07.460
Wat er gebeurt, is dat de verloren functie opnieuw iets is dat we willen minimaliseren om de prestaties van

05:07.460 --> 05:09.350
ons netwerk te maximaliseren.

05:09.620 --> 05:15.190
Laten we dus een snel voorbeeld bekijken van hoe deze functie kan worden toegepast.

05:15.200 --> 05:23.150
Dus laten we zeggen dat we een afbeelding van een hond in het netwerk hebben gezet, de voorspelde waarde voor hond nul punt negen.

05:23.150 --> 05:24.430
En dit is tijdens de training.

05:24.440 --> 05:25.430
Dat weten we dus.

05:25.430 --> 05:26.850
We kennen het label dat een hond is.

05:27.200 --> 05:32.090
Dus de voorspellende waarde, nul komma negen, de voorspellende waarde voor kat is nul komma één.

05:32.240 --> 05:37.250
Dan hebben we hier het label, zodat we weten dat het een hond is, want dit is training en een voor honden is voor een

05:37.250 --> 05:37.610
kat.

05:37.820 --> 05:42.230
En dus in dit geval moet je gebruiken.

05:43.130 --> 05:47.310
U moet deze getallen in uw formule voor de kruis-entropie stoppen.

05:47.690 --> 05:52.760
Dus hoe je het doet, zijn de waarden aan de linkerkant die naar de variabele gaan.

05:52.760 --> 05:58.880
Q Degene die onder de logaritme aan de rechterkant staat en de waarden van rechts zouden in P

05:58.880 --> 05:59.360
gaan.

05:59.360 --> 06:04.280
En dus is het belangrijk om te onthouden welke daar waar naartoe gaat, want als je ze verkeerd

06:04.280 --> 06:09.460
hebt, wil je geen logaritme nemen van a vanaf een waarde van nul en of een logaritme van een één.

06:09.500 --> 06:16.430
Dus je wilt ze gewoon aansluiten, zorg ervoor dat je ze op de juiste plaatsen aansluit en dan tel je dat in feite

06:16.430 --> 06:16.960
op.

06:16.970 --> 06:19.400
Dus zo werkt de cross country.

06:19.400 --> 06:24.950
En we zullen nu kijken naar een specifiek stapsgewijs voorbeeld van het toepassen van deze functie

06:25.190 --> 06:26.660
in het echte leven.

06:26.660 --> 06:30.230
En het zal een beetje logischer zijn wat kruis-entropie is.

06:30.230 --> 06:36.620
En het zal minder zijn zoals mijn doel in deze tutorial is om je meer op je gemak te

06:36.620 --> 06:41.810
stellen met cross-entropie, omdat het erg ingewikkeld kan klinken en geen woordspeling bedoeld is.

06:42.590 --> 06:51.050
Het kan van convolutionele neurale netwerken houden en het kan erg complex en eng klinken, maar daar gaat het niet

06:51.050 --> 06:51.560
om.

06:51.590 --> 06:54.010
Dus laten we doorgaan en het toepassen, zodat we weten dat het niet eng is.

06:54.020 --> 06:56.300
Dus hier is het neurale netwerk.

06:56.300 --> 07:01.340
En dit zal ook verklaren waarom we dit doen, waarom we naar verschillende klassenfuncties kijken.

07:01.670 --> 07:06.590
Dus een neuraal netwerk zoals een neuraal netwerk, laten we zeggen dat we twee neurale netwerken hebben en

07:06.590 --> 07:11.720
dan passeren we een afbeelding van een hond en weten we dat dit een hond is en geen kat.

07:12.020 --> 07:17.840
En dan hebben we nog een afbeelding van een kat, deze keer een dier, en het is een kat, geen hond.

07:17.850 --> 07:23.430
En hier hebben we een raar uitziend dier, dat in feite een hond is, geen kat, als je heel goed kijkt.

07:24.200 --> 07:27.080
Dus we willen zien wat onze neurale netwerken zullen voorspellen.

07:27.440 --> 07:30.050
In het eerste geval, neuraal netwerk een 90 procent.

07:30.050 --> 07:32.330
Hond 10 procent katten.

07:32.330 --> 07:32.930
Correct.

07:33.200 --> 07:37.490
Neurale netwerk nummer twee, 60 procent hond 40 procent kat nog steeds correct.

07:37.550 --> 07:38.840
Erger, maar correct.

07:40.160 --> 07:45.980
Tweede optie, eerste neuraal netwerk 10 procent kattenhond 90 procent katten.

07:45.980 --> 07:46.610
Correct.

07:47.240 --> 07:53.020
Neurale netwerk nummer twee 30 procent hond 70 procent kat erger maar nog steeds correct.

07:53.420 --> 07:59.840
En dan tot slot, neuraal netwerk één in een afbeelding drie neuraal netwerk één 40

07:59.840 --> 08:07.910
procent hond 60 procent kat onjuist neuraal netwerk nummer twee 10 procent hond 90 procent kat onjuist en erger.

08:08.180 --> 08:15.320
Dus de sleutel hier is dat, hoewel beide netwerken het bij de laatste fout hadden, bij alle drie de afbeeldingen,

08:15.500 --> 08:18.820
neuraal netwerk één beter presteerde dan neuraal netwerk twee.

08:18.830 --> 08:26.960
Dus zelfs in het laatste geval was het erg dat het een hond een kans van 40 procent gaf, in tegenstelling tot een neuraal netwerk om de hond maar

08:26.960 --> 08:29.110
een kans van 10 procent te geven.

08:29.120 --> 08:34.800
Geen enkel neuraal netwerk één presteert over de hele linie beter dan neuraal netwerk twee.

08:35.420 --> 08:41.660
En dus gaan we nu kijken naar de functies die ze kunnen meten, prestaties waar we het al

08:41.660 --> 08:42.580
over hadden.

08:42.920 --> 08:44.780
Dus laten we deze in een tabel zetten.

08:44.780 --> 08:47.840
Dus er is een neuraal netwerk, één, je hebt het verkeerde nummer.

08:48.230 --> 08:49.310
Dat is dus het afbeeldingsnummer.

08:49.430 --> 08:53.750
En dan voor afbeelding één, je hebt wat het voorspelde, 90 procent hond, 10 procent kat.

08:53.990 --> 08:57.260
Dus er zijn de hat-variabelen en dan heb je de werkelijke waarden.

08:57.260 --> 08:57.890
Dus hond.

08:58.490 --> 09:00.250
Juist, kat onjuist.

09:00.440 --> 09:07.170
Hetzelfde voor afbeelding nummer twee en hetzelfde voor afbeelding nummer drie en hetzelfde voor neuraal netwerk.

09:07.190 --> 09:09.230
Nummer twee, dus honden 60 procent.

09:09.230 --> 09:10.970
Katten 40 procent in de eerste afbeelding.

09:10.970 --> 09:11.810
Dat is wat het voorspelde.

09:12.050 --> 09:14.260
Het juiste antwoord is hond, geen kat enzovoort.

09:15.050 --> 09:17.980
En laten we nu eens kijken welke fouten we daadwerkelijk kunnen krijgen.

09:17.990 --> 09:24.370
Dus welke fouten we kunnen berekenen om de prestaties in te schatten en de prestaties van onze netwerken te monitoren.

09:24.830 --> 09:28.310
Dus één type fout wordt de classificatiefout genoemd.

09:28.490 --> 09:35.460
En dat is eigenlijk gewoon aan jou vragen, heb je het goed gedaan of niet, ongeacht de kansen, heb je het gewoon goed gedaan

09:35.460 --> 09:37.860
of heb je het niet goed gedaan?

09:37.880 --> 09:44.990
Dus in beide gevallen, voor beide neurale netwerken, elk van hen, kregen ze er een of zo.

09:44.990 --> 09:46.280
Dit is het aantal dat ze fout hadden.

09:46.280 --> 09:48.410
Dus ze hadden een op de drie fout.

09:48.410 --> 09:55.210
Dus een foutenpercentage van 33 procent voor neuraal netwerk één en 33 procent foutenpercentage voor neuraal netwerk om te bereiken.

09:55.220 --> 09:59.090
Kortom, vanuit dit oogpunt presteren beide neurale netwerken op hetzelfde niveau.

09:59.090 --> 10:00.110
Maar we weten dat dat niet waar is.

10:00.110 --> 10:04.010
We weten dat het neurale netwerk een beter presteert dan het neurale netwerk.

10:05.030 --> 10:10.790
Dat is de reden waarom een classificatiefout geen goede maatstaf is, vooral niet voor back-propagatie,

10:11.750 --> 10:13.700
de gemiddelde kwadratische fout anders.

10:13.710 --> 10:16.520
Trouwens, ik deed deze berekeningen in Excel.

10:16.790 --> 10:18.380
Ik wilde je er gewoon niet mee lastig vallen.

10:18.380 --> 10:21.940
Maar je kunt er gewoon voor gaan zitten en ze op papier of in Excel doen.

10:21.950 --> 10:23.640
Dit zijn zeer eenvoudige berekeningen.

10:23.640 --> 10:31.930
Neem in feite de som van de gekwadrateerde fouten en neem dan het gemiddelde over je waarnemingen, en dat

10:32.030 --> 10:34.040
is het zo'n beetje.

10:34.940 --> 10:40.160
Dus voor het Fonua-netwerk krijg je vijfentwintig procent voor een neuraal netwerk.

10:40.310 --> 10:42.440
Twee, je krijgt eenenzeventig procent.

10:42.790 --> 10:43.260
Foutpercentage.

10:43.300 --> 10:48.670
Dus, zoals je kunt zien, is deze nauwkeuriger, het vertelt ons dat neuraal netwerk één een veel

10:48.670 --> 10:52.890
lager foutenpercentage heeft dan neuraal netwerk twee en dan weer de entropie overschrijdt.

10:52.900 --> 10:53.770
We hebben de formule gezien.

10:53.800 --> 10:54.870
Dit kun je ook uitrekenen.

10:54.870 --> 10:57.790
Dit is zelfs nog eenvoudiger te berekenen dan de gemiddelde kwadratische fout.

10:58.000 --> 11:05.030
Kruisfout over entropie geeft je 38 procent voor neuraal netwerk één en één punt nul zes voor neuraal netwerk.

11:05.410 --> 11:10.150
Dus je kunt zien dat de resultaten een beetje anders zijn als je ze zo bekijkt.

11:10.150 --> 11:18.610
Als je kijkt naar, je weet wel, de betekenis van kwadratische fout en kruis-entropie, de vraag waarom je kruis-entropie zou gebruiken

11:18.700 --> 11:27.160
in plaats van betekent dat kwadratische fout niet alleen gaat over het soort getallen hier, maar deze berekeningen waren alleen

11:27.160 --> 11:32.430
bedoeld om laten zien dat dit alles is, het is allemaal mogelijk.

11:32.440 --> 11:33.610
Je kunt het gewoon op papier doen.

11:33.620 --> 11:37.810
Het is het niet, het is een niet erg intense wiskunde.

11:37.810 --> 11:40.720
Dit zijn vrij eenvoudige, duidelijke dingen.

11:41.110 --> 11:46.030
Maar de vraag waarom je zou gebruiken, betekent kruisentropie over het kwadraat.

11:46.170 --> 11:48.160
Het is een zeer goede vraag om te stellen.

11:48.190 --> 11:49.060
Ik ben blij dat je dat vraagt.

11:50.380 --> 12:00.430
Het antwoord daarop, alsof er verschillende voordelen zijn van kruis-entropie ten opzichte van kwadratische fouten, die niet duidelijk

12:00.430 --> 12:01.320
zijn.

12:01.330 --> 12:07.070
En dus zal ik er een paar noemen, maar dan zal ik je laten weten waar je meer te weten kunt komen.

12:07.090 --> 12:17.650
Dus een daarvan is dat als je, bijvoorbeeld, helemaal aan het begin staat van je achterwaartse voortplanting, je outputwaarde heel,

12:17.980 --> 12:21.850
heel, heel, heel klein, heel klein is.

12:22.300 --> 12:25.330
Het is dus veel kleiner dan de werkelijke waarde die u wilt.

12:25.630 --> 12:31.300
Dan, helemaal aan het begin, zal de gradiënt in je gradiëntafdaling heel, heel laag zijn.

12:31.300 --> 12:33.760
En jij, het zal niet genoeg zijn.

12:33.760 --> 12:40.480
Het zal heel moeilijk zijn voor het neurale netwerk om daadwerkelijk iets te gaan doen en te gaan bewegen en die gewichten aan

12:40.480 --> 12:44.800
te passen en te gaan bewegen, daadwerkelijk in de goede richting te gaan bewegen.

12:45.040 --> 12:50.770
Terwijl wanneer je zoiets als de kruis-entropie gebruikt omdat het die logaritme erin heeft, het het netwerk zelfs

12:51.340 --> 12:56.950
helpt om zelfs een kleine fout als die te beoordelen en er iets aan te doen.

12:57.460 --> 12:58.440
Hier leest u hoe u erover nadenkt.

12:58.450 --> 13:03.190
Dus laten we nogmaals zeggen, dit is een zeer intuïtieve benadering.

13:03.190 --> 13:08.110
Er is een link naar de wiskunde en je kunt deze dingen in meer detail uit

13:08.110 --> 13:09.400
de wiskunde afleiden.

13:09.400 --> 13:10.810
Maar een zeer intuïtieve benadering.

13:11.140 --> 13:17.380
Laten we zeggen dat je de uitkomst die je wilt er één is.

13:17.560 --> 13:24.760
En op dit moment ben je op een miljoenste van een tot nulpunt nul nul nul nul nul één.

13:25.150 --> 13:32.410
En dan verbeter je de volgende keer dat je je uitkomst verbetert van een miljoenste naar een duizendste.

13:32.680 --> 13:40.180
En in termen van als je de kwadratische fout berekent, trek je gewoon de een van de ander af of eigenlijk zit je in elk

13:40.180 --> 13:46.210
geval in het kwadraat, en je zult zien dat de gekwadrateerde fouten wanneer je het ene geval met het andere

13:46.210 --> 13:48.070
vergelijkt, het niet veranderde zoveel.

13:48.160 --> 13:51.690
Je hebt je netwerk niet zo veel verbeterd als je daar naar het gemiddelde vierkant kijkt.

13:52.030 --> 13:58.690
Maar als je kijkt naar de over-entropie omdat je een logaritme neemt en je vergelijkt

13:58.690 --> 14:06.100
de twee door elkaar te delen, dan zul je zien dat je je netwerk aanzienlijk hebt verbeterd.

14:06.100 --> 14:12.340
Zodat die sprong van een miljoenste naar een duizendste in termen van gemiddelde kwadraten erg laag zal

14:12.340 --> 14:12.730
zijn.

14:12.730 --> 14:20.860
Het zal onbeduidend zijn en het zal je gradiëntversterkingsproces of je rugvoortplanting niet in de goede

14:20.860 --> 14:21.880
richting sturen.

14:22.000 --> 14:26.680
Het zal het in de goede richting leiden, maar het zal als een heel langzame begeleiding zijn.

14:26.680 --> 14:29.080
Het zal niet genoeg kracht hebben.

14:29.590 --> 14:34.690
Terwijl als je dat over de entropie heen doet, over de entropie heen, je zult

14:34.690 --> 14:41.620
begrijpen dat hoewel dit heel kleine aanpassingen zijn die slechts een kleine verandering in absolute termen betekenen, in relatieve termen,

14:41.620 --> 14:43.540
het een enorme verbetering is.

14:43.720 --> 14:46.030
En we gaan zeker de goede kant op.

14:46.030 --> 14:47.170
Laten we op die manier doorgaan.

14:47.180 --> 14:55.810
Dus kruis-entropie zal je neurale netwerk helpen om naar rechts te gaan, om in de optimale staat te komen.

14:56.710 --> 15:01.030
Het is een betere manier voor het neurale netwerk om het in een optimale staat te krijgen.

15:01.030 --> 15:08.170
Maar houd er rekening mee dat dit alleen werkt als over entropie de voorkeursmethode is, alleen voor classificatie.

15:08.180 --> 15:13.360
Dus als je het hebt over zaken als regressie, zoals we hadden in

15:13.810 --> 15:20.560
kunstmatige neurale netwerken, dan ga je liever met mij mee en kwadratische fout, terwijl kruis-entropie beter is voor classificatie.

15:20.560 --> 15:23.620
En nogmaals, het heeft te maken met het feit dat we de softmax-functie gebruiken.

15:23.620 --> 15:26.440
Dus dat is een soort intuïtieve verklaring daarvoor.

15:26.920 --> 15:29.290
Een goede plek om daar wat meer over te leren.

15:29.290 --> 15:34.270
Als je echt geïnteresseerd bent in, weet je, waarom gebruiken we over-entropie versus gemiddelde kwadratische fout?

15:35.230 --> 15:42.190
Google een video van Geoffrey Hinton genaamd de softmax-uitvoerfunctie, en hij legt dat uit.

15:42.290 --> 15:47.630
Heel goed, en, weet je, als de peetvader van diep leren, wie kan het hoe dan ook beter uitleggen.

15:48.740 --> 15:51.620
En trouwens, elke video van Geoffrey Hinton is goud waard.

15:51.620 --> 15:55.550
Hij heeft sowieso een enorm talent om dingen uit te leggen.

15:55.550 --> 15:58.040
Dus dat is softmax versus.

15:58.250 --> 16:02.480
En ik hoop dat je daardoor een soort van intuïtief begrip krijgt van wat hier aan de

16:02.480 --> 16:08.210
hand is, maar wat nog belangrijker is, dat je niet wordt afgeschrikt door de term kruis-entropie, omdat Hadland het in de praktische tutorials

16:08.210 --> 16:08.990
zal noemen.

16:08.990 --> 16:10.850
En ik wilde er zeker van zijn dat je daarop voorbereid bent.

16:11.120 --> 16:17.180
En het is gewoon een andere manier om je verliesfunctie te berekenen en een andere manier

16:17.180 --> 16:23.570
om je netwerk te optimaliseren, die specifiek is afgestemd op classificatieproblemen en dus convolutionele neurale netwerken,

16:23.570 --> 16:27.570
en die hand in hand gaat met de softmax-functie.

16:28.190 --> 16:35.270
Dus extra lectuur, als je een lichte introductie wilt in over-entropie, als je geïnteresseerd bent in het tegendeel, natuurlijk

16:35.270 --> 16:36.800
een beetje meer.

16:37.100 --> 16:43.280
Een goed artikel om te lezen heet A Friendly Introduction to Cross Entropy Loss door Rob

16:44.180 --> 16:45.270
DePietro 2016.

16:45.290 --> 16:46.470
Hier is de link hieronder.

16:47.060 --> 16:48.140
Heel, heel leuk.

16:49.040 --> 16:50.400
Heel zacht.

16:50.460 --> 16:51.050
Niks.

16:51.470 --> 16:53.600
Geen super complexe wiskunde.

16:54.410 --> 16:57.470
Goede analogieën, goede voorbeelden met analogieën van auto's.

16:57.470 --> 17:02.660
En je kijkt naar auto's en praat over informatie en stukjes en beetjes en, weet je, hoe zou je

17:02.660 --> 17:03.260
dit opnemen?

17:03.260 --> 17:03.890
Hoe zou je dat weten?

17:03.930 --> 17:08.600
Het is een goed artikel om naar te kijken en het geeft je een goed overzicht van kruisentropie.

17:09.560 --> 17:15.140
Zoals vanuit een inleidend standpunt, als je in de zware wiskunde wilt graven, zoals wat je hier

17:15.890 --> 17:21.380
ziet, bekijk dan een artikel van of een blog over hoe je een neuraal netwerk implementeert.

17:21.380 --> 17:22.460
Tussentijds naar.

17:22.460 --> 17:29.450
Dus bemiddelaar is alsof het een tussenproduct is, zoals een onderbreking in, je weet wel, zoals wanneer je naar

17:29.450 --> 17:35.980
een theater gaat en je hebt een pauze tussen het eerste deel en het tweede deel.

17:36.200 --> 17:40.760
Dus omdat hij al deze stappen doorloopt en dan zegt hij, moet ik dit eerst

17:40.760 --> 17:41.270
uitleggen.

17:42.350 --> 17:42.680
En ja.

17:42.710 --> 17:44.030
Daarom wordt het intranasaal genoemd.

17:44.030 --> 17:45.860
Geen reden voor zover ik begrijp.

17:46.580 --> 17:50.650
Het artikel is ook van Peter Rawlence 2016.

17:50.660 --> 17:52.040
Beide zijn dus vrij recent.

17:52.430 --> 17:59.210
En, weet je, kijk hier eens naar als je in dit artikel wilt ingaan op de wiskunde achter

17:59.720 --> 18:02.220
kruis-entropie, achter een softmax en kruis-entropie.

18:02.810 --> 18:03.740
Dus daar gaan we.

18:03.770 --> 18:07.210
Dat is alles wat deze twee hebben.

18:07.250 --> 18:12.640
Hopelijk heb ik wat meer duidelijkheid kunnen geven en veel succes ermee.

18:12.650 --> 18:16.880
Het wordt leuk en geniet van de praktische tutorials.

18:16.890 --> 18:17.960
Ik zie je de volgende keer.

18:17.990 --> 18:19.670
Geniet tot die tijd van deep learning.