[Playlisten] [Impressum und Datenschutzerklärung]
YOLOv3: Aufbau und Funktion
Tempo:
Anklickbares Transkript:
Version – 3 mal – wieder ein neuronales Netz, jetzt geht's zum – detection, – soll ich noch mal erstmal erklären, also – hat man erstmal die Image classification – könnten das zu sagen, das ist eine Katze – das ist ein Hund – ganzen Bild haben sozusagen, was ist das ein Katzen Hunden Auto – ist classification. – ist eine sehr spannende Lösung – object – detection. – ist ein Schritt weiter als Image classification – sagen nicht nur das ist eine Katze, das ist ein Hund, das Netz sieht – drum, – ist object detection und sag dann jeweils okay, das Katze und – ist – zeig gleich noch mal diverse Beispiele, – es dann wirklich – kann Leben, aber das ist der Gedanke. Man hat nicht nur ein – auf dem Bild und so sagen dieses Bild – der Arten Objekt Folge Klassenobjekt, sondern man soll – drum ziehen. Bounding boxes, – man im – englischen sind es neben – boxes begrenzungs – Begrenzungsrahmen, wenn man so ein Ding – bounding boxes plus – geht es nur als Bild in Klasse zu schreiben, sondern – zu finden, ein zu graben im Bild unter Nordrhein zu schreiben, für eine Sorte an ist. geht es bei – nicht um Image – sondern – object detection, – kann sich vorstellen, das braucht man für das autonome Fahrzeug und Zusagen Auto – Auto Auto Fußgänger – Fahrradfahrer – das kann man natürlich an tausend Ecken und Enden verwendete – tags. – ist – Abkürzung für – only look once – Verballhornung von die Ohren die Liv once you only look once. – gab – es Ansätze, wo – diese bounding boxes. – wurden sind musiziert worden sind, dann musste das Netz oder – auch immer gerade gefragt waren Maschinen lernen. Musste dann jeweils pro Bounding Box noch mal einzeln nachgucken, – ist denn in dieser Bounding Box drin und was ist denn in dieser bounding box denken zu lange gedauert – heißt man guckt – gesamte Bild an. – 100 + X bonnieboxx ist raus mit Klassen. – muss ich nicht noch jemand die 10000 bauen die Box es einzeln angucken und jeweils in Klasse bestimmen – i only look once. – sollte eine Motorradtour Angabe machen, das ist von – PayPal zu yolo-reisen 3. Es gab also schon – davor oder später nennt sich – an Enkel Mantel – und steht natürlich wieder auf AKF und – so sonst bisher. – was beiden geschrieben haben ist er ungenießbar, das wollte ich ihn nicht zeigen, das ist nämlich in C und incuda geschrieben – eine Sprache – Nvidia, – die Grafikkarten – Rechen zu benutzen – das ist schwierig zu lesen und man erkennt auch die historische Entwicklung version1, – dann gab sie Version 9000 und – S Diversion 3, – gibt eine. – interessant Implementierung – tensorflow, – also der Bibliothek nämlich letzte Mal gesehen haben – das ganze viel einfacher macht, – ein Dutzend – Varianten davon inzwischen im Netz – tensorflow und anderen. – Variante – floh – dann natürlich mit Peißen – nicht mit C. – auf die Tab. – ist nicht nur – in Peißen Sachen sind diverse andere – diesen Objekterkennung in die man dann miteinander vergleichen – kann, der Vorteil anderer Vorteil Listing – aus dem internet die Daten des Netzes nach – die ganzen Neuronen, die bastelt man noch zu Fuß drin – die ganzen darum brauchen wir die – und die Gewichte diese Daten. andere Werte, die davor kommen diese Daten Werte automatisch aus dem Netz einziges Mal und Cash sie auf dem Rechner, – sind – drei sind das 240m, die werden nur einmal geladen und dann auf dem Rechner – das kann man gerade mal angucken, wie simpel das ist, das ist das hübsche als – Anwenderin – ist bei mit wenigen Zahlen passen dann dabei. – die üblichen Impfarzt ok, ich brauche ein und zu sagen, – groß ist das was dann in das Netz reingeht 460 – x 416 sind sie gleich noch wieso so eine krumme Zahl, wie das zustande kommt und das Bild was reingeht ist 4 x 16 x 416 – Pixel groß – tief deshalb drei – sagt man hätte gerne Yolo V3 coco – ist – Trainingsdatensatz. – gebe ich ja mal aus, dass er sagt, wie viele Parameter hat und ähnliches – dann passiert nicht. Allzuviel. Ich sage welches Bild geladen werden soll, ich lade das Bild – neue Station – wird gelassen aus. Der Session hole ich mir die Vorhersagen – dann kommt jetzt noch ein bisschen oben Sie wie das ist. Ja die Bildverarbeitung – spielotheke kommt jetzt noch ein bisschen OpenCV und das zusammen zu stricken Damen zu zeichnen, – das war es sind irgendwie mit dem halben Dutzend Zahlen praktisch am Ziel – gerade mal mal an, für dieses eine Bild rauskommt – kann ich das – erklären. ✂ nebenbei wir Ausgabe 62 Millionen Parameter das kommt hier von dem summary, – 62000000 – Gleitkommazahlen. – in – 40 Megabyte Datei drin wieder geladen wird, das sind die Gewichte des Netzes, die – auswerte und so weiter – dem Hits 62 Millionen zahlen müssen uns angucken, was hat ausgemacht hat. – sieht das dann aus. – das – habe ich ihr so eingerichtet – dann mal zurück – mit OpenCV. – Farbe werde ich danach – sicher sich das Netz ist, – es sich – als 0,2 ist, das ein Wert von null bis eins, wenn es sicherer als 0,2 – ist, – nehme ich rot. Die – Farben sind hier verdreht – Open sie wie die ist nicht rot grün blau, sondern blau grün rot, – es sich relativ sicher ist, nehme ich Ruth, sonst nehme ich grün. – die roten Rahmen sind, die ernsthaften – gesehen, hier ist eine Börsentag Antwort von hinten mit abgeschnittenen Bein der Rucksack, der mit bloßem Auge kaum erkennen ist ist erkannt worden. Hier ist eine völlig überbelichtete pherson erkannt worden. Ein etwas überbelichtetes weit entfernt ist Auto ist da Antwort, – sind die Sachen, die sicher erkannt worden sind, hier ein Buch – offensichtlich kein Buch ist hätte hätte ja sein können Sie das ist grün, also das ist nicht ganz so sicher erkannt worden – Auto – Kopfstütze – als Person erkannt worden, das ist schon spannend. – Auto ist noch mal Truck erkannt worden mit leichtem Versatz und hier ist noch mal eine zweite Person erkannt worden nicht mehr müssten wir nicht als Person erkennen kann. auf diesem Rechner sind. – Sekunden, – Laden des Netzes dauert fast länger, als ist auszuwerten – diesem Rechner hier, – man das auf der richtigen – Grafikkarte rechnen – das Echtzeit durch – er sprechen großen Grafikkarte, – sie das – mit dem Film laufen und sehen im Film sofort, – ich da alles – müsste eigentlich erkennen können. Hat er nicht erkannt – einer von der Klasse hat er nicht erkannt. Lustigerweise – zeig noch mal – 12. ✂ an andere Straßenszene. Ja, gesagt, die roten das sind die sicheren ist Auto rechts wurde gleich zweimal erkannt einmal als K und einmal erzeugt, aber – das ist ein Drittel von einem Auto und wird als Audio erkannt. Das Pferd wird wirklich als horse erkannt von hinten willst du das Haus erkannt – Reiter dann eben gerade davor – so einen Bruchteil des Pferdes wird als Person hat Kant von nicht als werd erkannt – eine Person mit zwei handbags nicht 2 handbags, aber immerhin ein winziger handbag erkannt – dem Shop ist. – Person erkannt, aber nicht der Fahrer – Handy am Ohr ist nicht erkannt, aber der Beifahrer ist der Kanstein hinter das Auto dann auch wieder trakta gemischter noch ein Gas, das – sich also auf dem – Laptop hier laufen lassen. dauert dann bisschen länger als auf der dicken Grafikkarte, aber das ist machbar, man kriegt das sichtlich – Resultate – noch ein letzter. ✂ aber das Festessen – sehen Sie 1LIVE – Fahrt – mit der Bounding Box drum – table insgesamt die ganz große Bounding Box 1 dining table hier wird ein Bruchstück – eines Stuhls scheinbar erkannt als Char, – wir eine Tasse eine Flasche heißt, das eine Flasche, aber eine andere Kategorie gibt es nicht – Glasgefäß hier. – du die Mischung von bottle – & – aus dem Kopf wird, das ja grün ist nicht ganz so sicher erkannt, das war ein Glas hier rechts wird – erkannt, dass aufrecht steht wird noch Bruchstück eines Stuhls erkannt und dann habe ich noch eine zweite Pizza. – oben an Löffel ein querliegender – Löffel ein winziger querliegender Löffel und hier noch mal hin, dann ist er sich nicht einig tun oder ein Eis ist echt schwierig, – zu unterscheiden, ob es gut oder knife Messer von dem man nur den Griff sieht wird erkannt und hier das Messer von dem man nur so ein ganz bisschen von dir schneide, sie auch erkannt. – schon erstaunlich – jetzt sagen, es wird eben nicht Box für bonnieboxx durchgegangen – und nachgeguckt, was könnte das sein? Also es ist nicht das jetzt erst das letzlich überlegt – Objekts 1 – 1. Ist dann weiter an irgendeinen weiteren – Teil, – entscheidet, ist das jetzt ein Hund oder eine Katze oder ein Messer, – das Netz sieht fast das ganze Bild, was ich gleich noch mal erklären wieso das nicht sieht dann jeder verstelle fast das ganze Bild – berücksichtigt, – also auch die Umgebung. mit der Landesmesse erkannt seine in dieser Umgebung. Es ist mit einer Gabel und zwei Pizzen und noch zwei weitere – auf dem Tisch, – so viel wahrscheinlicher ein Messer – eine Handtasche oder ein Pferd. – guckt sich nicht nur die eine bonnieboxx an, sondern praktisch das gesamte Bild, – macht es auch noch mal robuster, es muss sich um ein Restaurant handeln. jetzt hier auf dem Tisch noch ein Pferd stünde, wäre es wahrscheinlich schwieriger, weil das gehört da nicht hin, das ist nicht angelernt worden. – gibt solche Experimente mehr klebt dann einfach z.b. Das Bild eines Fahrrads da rein, – geht typischerweise schief, – der Kontext nicht stimmt – der Pizza steht normalerweise keinen Verrat – Bild was ankommt – das ist relativ groß, – Bild was ankommt. Wird runter gerechnet auf 4 x 16 x 416 – ist ein sehr breites Bild. – seitenfeld ist – auf Quadrat zusammengestaucht und x 16 x 64, damit geht man in das Netz rein dann wird hinten hat wieder – die schwierigste Teil ist kriegt man Rahmen drum gezogen und – der Klassen angezeigt. – eigentliche ist in wenigen Zeilen, der dir nicht Sie dutzendweise Anleitungen zu Internet, das wollte ich jetzt noch mal dem bisschen durch sprechen, wie denn das funktionieren kann, – zwar also es geht ein Bild rein. – mal das Bild man nur als Strich, – ist mein Bild nicht ganz das Bild, sondern das ist wie gesagt – skaliert auf 416 – x 416 Pixel, man könnte auch andere Abmessungen haben, aber das ist – Yolo und haben sich die Autoren – ist das die Standardabmessungen – 16 x 64 Pixel so weit wie das Bild mit dem man reingeht – man kommt raus mit – als 10000 Bounding. – Box ist kommt gleich eine monströse Maschine und aus dieser Maschine – ein paar Sachen raus. – Nehme ich – boxes auf verschiedenen. – Auflösungen – gibt – x 13 das gesamte Bild dann in 13 x 13 – + das gesamte Bild in 26 – x 26 aufgelöst, – also viermal so viele. – hast das ganze Bild – in 52 x 52 – aufgelöst – quadratischen Maßstab fuhr – einmal – x 13 40 13 Zeichen dann – so fein 26 – x 26 und – dann noch mal doppelt so fein – den Längen Auflösung doppelt zu fahren. – viel erzählen kommen daraus auf drei verschiedenen – wenn man so will Auflösungsstufen – pro Zelle – dann jeweils bounding – boxes – Zelle 3 bounding. Boxes – jede Bounding Box – plus 1 plus 80 Werte drin – von 4 + – + 80 werden beschrieben – das ist ein absolutes Zahlen Graf, – ist insgesamt alles zusammen – zählt hier die Zahl der Zellen und dann 3. Bounding boxes – Zelle, – ist man bei – schönen krumme zahlen – Liegeboxen. – fallen raus auf einen Schlag, das Bild geht rein in das Netz – zu Schicht durch von vorne nach hinten. Es geht kein Weg zurück. Zum es geht immer nur geht Ausgleich – zum Schluss – 7647 – bauen mit Boxen raus – jede bounding box. – ihm geschrieben durch – Zahl plus eine Zahl plus 80 zahlen. – Sieh an was die vier Zahlen sind ✂ Die ersten vier werden sowas sein, wie Breite Höhe XY, – die Geometrie – auf – den kommt man auf ein ich nicht hier, deswegen der zweite Eintrag hier die +1. – nennen die Autoren. Objectness – Objekthaftigkeit der Zahl von 0 bis 1. – Ist das Objekt Haft – nicht? Was ich da habe, glaube ich dein Objekt zu sehen aus dem bekannten Kategorien – dass eine Zahl von 0 bis 1 – da dann steht – hier hinten die 80 Werte, das sind 80 Klassen – die 80 Klassen gibt es dann jeweils – von 0 bis 1. – würden Sie – was diese 80 Klassen angeht mit den Zahlen 0 bis 1 – da auch noch gelten. ✂ das habe ich schon erfasst lustigerweise die Summe von diesen – Wahrscheinlichkeiten – für die 80 Klassen. Muss nicht eins ergeben, hätte man anders machen können und dann wird die Autoren haben sich bewusst entschieden, das so zu machen, dass – selig ein Objekt mehrere Klassen zugehören kann, wieso muss nicht eins ergeben – ein Video von mir Karma softmax vor genau, das findet nicht statt, – achte Klasse, soll ich mal gerade zeigen, das ist – das ist – natürlich jetzt hier nach – die man zum trainieren benutzt was anderes. – 80. Klasse von Coco zeige ich gerade mal – ist ja Trainingsdatensatz ihr – das sind die 80 Klassen. – bicycle car motorbike aeroplane – und so weiter und so weiter hier – fork knife spoon immer schon gesehen Bau. Habe nicht gesehen Banane Apple – lustigerweise auf dem ersten Bild – drauf wurde nicht erkannt Brokkoli – meine wenn sie auswählen ist wirklich irre Bananen – Äpfel – ist ja bekannterweise auch Gemüse Brokkoli – kann – ist schon sehr quer durch den Garten und dann natürlich Pizza und Donut weiß denn auch sonst – diese 80 Klassen mit denen das an trainiert sind sind – Vase – her und Teddybär, der muss auch noch – Idee haben, also man kann es damit an trainieren. Man kann es natürlich auch anders an trainieren, dann könnte es auch noch weiter trainieren. Es ist sie es mit diesem – nehmen aus dem Netz fertig an trainieren, dann ist es auf diese 80 Klassen trainiert. – können wir sagen auch lieber auch noch eine einen Narzissten 82 Klasse können wir das versuchen noch weiter zu trainieren? – muss ich nicht ganz so viel lernen oder fange ich von vorne an und hab nur drei Klassen, – ist jetzt zumindest – ausfallen 80 Klassen wieder eingebaut worden ist, – Hydrant darf natürlich auch nicht fehlen unter Stoppzeichen, – es ist schon eine sehr – Auswahl, – die man da hat. – sind die 80 Klassen und für jede von diesen 80 Klassen gibt es dann – eine Wahrscheinlichkeit – 0 bis 1. Des dürfen – mehrere – Wert 1 haben, tatsächlich – z.b. – haben Mensch und gibt es Kinder. – noch obendrein, dann haben sie 100% Kind und 100% Mensch – so machbar – Otto und ehrlich auch mal zum anlernen und das Anlernen zu verbessern. – das muss noch haben, was heißt denn jetzt ein Objekt, wenn ich irgendwo? – Eine von diesen zählen habe ich habe irgendwo eine von diesen Zellen, – heißt jetzt, wenn diese eine Zelle sagt object Mist – heißt das, das Netz glaubt den Anführungszeichen mir das nicht glauben könnte, – eine Zelle im Zentrum – einer Bounding Box ist, – ein wesentlicher Gedanke. – Also, diese zählen hier – Zentren – plusminus, – die bauen den Boxer ein bisschen hin und her rutschen aber nicht zuviel Zellen sind – Zentren von diesem bounding boxes und es spricht nur die eine Zelle an, das ist die Hoffnung spricht nur die eine Zelle an, glaubt wirklich ins Zentrum davon zu liegen, das ist dieses – die Zelle – Zentrum der Box zu sein – wie groß die Zelle ist, die Boxen können und wissen hinterher verschoben werden, dafür sind die vier Zahlen da, sie können auch noch ein bisschen gedehnt – werden – auch geschrumpft werden und beide Richtungen natürlich schon gedehnt und geschrumpft werden ein bisschen – haben Standardgröße – von diesen drei bounding boxes auf jeder dieser Hierarchie Stufen hat eine Standardgröße Henker – nennt sich das in den paper. – Standardgrößen sind vorher bestimmt worden, dass sie vernünftig sind – den Trainingsdatensatz schon eher an, was man alles denken kann – ist Objekt des heißt daneben okay, die waren die Box in Standardgröße – bisschen verschoben – eskaliert und Richtungen – liegt wohl immer noch mit dem Zentrum in unsere aktuellen – das ist – Und – so sieht diese 10607 – 40 Ban inboxes zu verstehen, um jede von diesen zählen auf verschiedenen – stufen – daneben drei – die Box es – dass überall object is null ist, dann weiß man man ganz vergessen für diese Zelle, da ist dann eben nichts drin gewesen. – braucht man noch eine Bewertung. – Bewertung multiplizieren Sie objectness und – jeweilige – also, wenn Sie das wollen, – groß ist die Wahrscheinlichkeit, ob sie orange war, dann ist die Orange die Klasse – Ahnung 23. Müssen wir nachts, wenn – den 23. Wert von den 80 multiplizieren – Objektes. – wäre dann hier in Diez, – das Netz glaubt – orange haben und wenn das jetzt eine bauen die Box um die Orange zieht, das dann das Zentrum von dieser bauen die Box in unserer ein Zelle liegt, die beiden werden miteinander multipliziert – dann kriegen sie eine Bewertung – bounding box – pro Klasse – diese bauen die Box – eine Orange da die beiden modifiziertes wollen wir nachher noch sieht es von außen aus. Es kommt ein Bild rein kleingerechnet 116 – ins Quadrat und es – bounding boxes raus. – müsste ihre – Frage dann sein OK zehntausend – noch was bauen in boxes. – müsste ja ganz schlimm aussehen, das müsste dann ja den Bildern, die ich eben gezeigt habe, – das denn ja so aussehen – bounding boxes – gar nicht. Supi, zeichnen – an, wie das aussehen müsste – wäre offensichtlich die Katastrophe, was wird man tun, das man nicht 10.000 bonnieboxx ist? Hat ✂ sie schmeißen alle raus, bei denen die Bewertung, das war dieses Produkt – bei denen die Bewertung nicht hoch genug ist – sowieso aber das kann man später machen in diese Implementierung dich gerade gezeigt wird das lustigerweise spät irgendwie – zurecht sagen. Das wesentliche Problem ist. Er dieses wenn er irgendwo eine Person steht, – wird diese eine Person mit ganz vielen bounding boxes erkannt. – hat man dann – kann man seinem Fermentation schlecht umschalten, weil das ein kompliziert ist, aber wenn Sie das runterdrehen – die Schwelle sozusagen runterdrehen, – sie tatsächlich – jedes Objekt – viele Bounding Box ist dann haben Sie hier eine Person – haben sie da eine Person und dann haben sie noch mal eine Person, – ist das wesentliche Problem, – möchte man – dass das passiert so gut wie es geht – auf dieses Problem nennt sich die übliche Antwort nennt sich non-maximum – maximum Unterdrückung – kann man auf verschiedene Arten tun – ich sage mal wie das hier in diesem dementierung – worden ist. Kann man sich dann ja tatsächlich in Peißen angucken, wie das dann gelöst worden ist. – der Job ist diesem vielleicht Dutzend bauen inboxes eine – zu bauen. – wir haben – bounding boxes. – sie schon mal aus zwei in eine bauen können, – Sie das auch mit – machen. – für ein sie tun, sie haben zwei bounding boxes, was würden Sie tun, um jetzt eine Entscheidung zu treffen? – überleben soll in ihrem Ergebnis – Schnittmenge bilden oder versuchen so ein Rahmen insgesamt drum zu ziehen, aber das wirklich ganz einfach – viele Wecker von den 10.000. – übrig bleibenden ändert man gar nicht. – müssen Sie tun? Sie haben zwei bounding boxes – soll vielleicht eine davon rausfliegen. ✂ ich sollte mir also nur eine Klasse hier was angucken, ich gucke mir nur die Bewertung für Orangen an und nur die Bewertung für gaben an – für Klasse gehe ich das durch. – habe ich im sorry Code jede der 80. – Klassen tue folgendes. – ist wirklich eine for Schleife in den Programmcode, jede der 80. Klassen. – was nun kommt, – ich gucke mir z.b. Nur die Orange an. – darf ich ja die 80 Werte von 1 bis 80, die 80 Werte – mir aus ist die Nummer 23, das für die Orange multipliziere – ich mit dem objectness – beiden modifiziere ich – und Dentin Orangen – wärt sozusagen und habe eine Bewertung, – jetzt eine Bewertung für jede von diesem bauen den Boxen wie viel sie – diese eine Klasse. – schon gesagt, es scheint dann um die Bewertungen zu gehen, aber nicht nur um die Bewertungen, was muss ich noch berücksichtigen ✂ zeige mal wann sie – behalten wollen. – waren sie beide behalten, – die sich nicht genügend überlappen, – ist das Kriterium Hause. Die Wahrscheinlichkeit habe ich scheinlichkeit schlechtes Wort aus. Die Bewertung – Score – ist das eine der Überlack ist das spannende, – will diesen überlappt bewerten wie stark. – die überein diese beiden bounding boxes. – ich gucke mir – alle bounding boxes an für jedes Paar anbauen inboxes. – sind zwei for Schleifen. – jedes Paar anbauen den – folgendes – bestimme erstmal – stark die überlappen, wie würden Sie das – in einer Zahl, wie stark die ✂ Flächen – Linke bonnieboxx Ballkleider gemacht und die können natürlich – Größen haben, die werden im Allgemeinen auch verschiedene Größen haben, sinnvollerweise sie sagen bildet man Flächenverhältnis – und das Flächenverhältnis, – dass man – intersection – over Union. – over Union – Fläche der Schnittmenge / – die – der Vereinigungsmenge, – die – natürlich dieser Teil hier. – gemeinsame Kästchen – die Vereinigungsmenge – was rot eingerahmt ist, – ist die Vereinigungsmenge? – over Union ist dann schlicht und ergreifend – Verhältnis davon – also die Fläche – von E durch die Fläche. – noch so einen terminus technicus, der da auftaucht – sich an so wie eine – ich schulde dir – IOS – over Union. – der Sex schon durch. Fläche der Union, – ist eine Zahl – 0 und 1 – die kann man als Kriterium nehmen – grüne Fläche kann maximal so groß werden, wie – Fläche hat, dann kommt 1 raus – wenn die beiden sich überhaupt nicht treffen, dann kommst du raus, also eine Zahl von 0 bis 10 schönsten – dann das benutzt man – banal, – rechnet juhu aus – der Übermittlung von eben guckt man an, ob das größer ist als 0,4, – weiter im – fehlen – Zahl album, – wenn die – = 0,4 ist. – schmeiße ich die – box, die eine schlechtere Bewertung hat raus. – ist effizienter, den ich rauszuschmeißen sondern setzt einfach die Bewertung auf null, wann hat sie ja schon man setzt einfach nur noch eine Zahl auf null setze Bewertung – bewerteten Box auf null – sie sich rauslöschen die Box da muss erst einspeichern – hergeschoben werden. Das nervt. Nur kann ja einfach die Bewertung dann auf null setzen – So geht das, also man – der Klassen durch. – sich jetzt – die Wertung jeweils für Orangen an, also objectness mal – in Anführungszeichen Wahrscheinlichkeit – für Ranken für jede Bounding Box – guckt sich dann alle Paare von bounding box is an, nur was die Orange angeht. – da die Klasse orange da drin und – diesen Vergleich hier, wer wird gewinnen, wenn die sich hinreichend überlappen. – Prozent z.b. – diesem Sinne von ahuhu, – schmeißt man die Box raus, den schlechtere Bewertung hat die andere wird überleben und dann hat man – weniger Boxen und zum Schluss kommt das was sie – zuerst gesagt haben kann man auch zuerst machen, aber in dieser – hier wird es zuletzt gemacht, – hat und ganz viele Bewertungen auf – gesetzt hat. – man zum Schluss alle Haus pfeffern, die nicht ordentlich – bewertet sind, – der Schritt nach diesen ganzen for-Schleifen – alle – die Box ist mit niedriger Bewertung – angeben. – sie mir nicht 10.000 noch was Boxen – bounding box ohne Bewertung von 0 haben – dann unter der Schwelle liegen – angezeigt werden, das habe ich da keinen gestört. – ist – Außensicht – sozusagen. – rein und – kommt eben 10647 – bounding boxes raus – der Geometrie der Bounding Box – als – Zahl und die 80 Klassen jeweils dann auch noch mit der Zahl von 0 bis 1 und – eine Wahrscheinlichkeit anzugeben für die jeweilige Klasse – was drinnen passiert, – Blase hier, die ist gar nicht so schlimm, – ich dir genauer angeguckt – ist die entscheidende Datei auf diese Implementierung, – gibt es nämlich ist – nämlich – Funktion Yolo V3 – baut das Netz zusammen diese Funktion, jetzt – wir sich schon angucken, – das alles zusammen spielt wird sich in dieses Detail hier sehen, das ist relativ übersichtlich – gleich mal aufzeichnen – den alten wie du schon mal vor – Größe – die man bis dahin hat wird hier um – 2 in Breite und Höhe reduziert, – ist ein ganzer Stapel – die da noch mal kommen hauptsächlich auch Konvolut den Box nur steht drinnen, wie viel ist denn sind – viele jeweils – mal downsample noch mal das ganze in Länge und Breite Faktor 2 runter – mal ein Stapel Aufschichten noch mal Downsampling – noch mal. – 2 in Länge und Breite – jetzt also 123 – nur noch beim 8L im Länge und Breite von den – Pixeln, die man mal hatte – jetzt muss er sich inzwischen Resultat – merken – dieser Auflösung immer gleich noch mal. Hör auf Zeichen in dieser Auflösung merkte sich inzwischen Resultat – hier. Dieses – kommt – Das kommt da unten gleich wieder vor. Die Verbindung sind wir gleich noch mal. – es geht auch weiter. Es ist nicht nur dieses Benutzers als Zwischenresultat weiter nach unten geschoben wird, sonst kommt Asics das Video weiter – mal runter, jetzt hat man ein 16 in Länge und Breite – Zwischenresultat nach ein paar Schichten P1, – das wird auch unten wieder benutzt. Dieses Zwischenresultat – noch mal runter, – das letzte Mal – ist man also – mal Faktor – 2, also – 1 32 – ursprünglichen – und Länge und dann kommen noch mal Staffel 1 Schichten ist – 3 oder steht da drüber? Die Funktion kann man sich nur noch mal angucken, – viel Schichten jeweils – übereinander. – dahin geht es runter, ganz viele Schichten – kleiner – dann kommt – erste Teil der Ausgabe, da steht schon auth0 noch – mal – das ist ein Teil der Ausgabe, – ist die auf der – auflösenden Stufe diese 13 x 13 Zellen, das ist diese Ausgabe – deines gar normal auf, falls das schwierig zu verstehen ist, als das ist die Gabe aus der untersten Stufe – x 13 Celle – dann wird die Auflösung wieder verdoppelt, lustigerweise Länge und Breite x 2, das ist – Schicht ab Auflösung verdoppelt. – wird das Zwischenergebnis von eben, das war P1 – Zwischenergebnis – mit derselben Auflösung – er noch mal drangehängt und Kathi Nation – dann geht's – die nächste Schicht rein und es gibt auch eins, – das ist die zweitniedrigste diese mittlere Auflösung Stufe – dasselbe passiert noch mal – dann kommt o2, das ist die höchste Auflösung Stufe – den meisten Zellen und die Ausgabe insgesamt ist aber dass drei hintereinander also – diese 13 x 13 + – x 26 + 52 x 52 – ist in dieser Schreibweise relativ – erträglich, man muss ich ein bisschen eher durch Grafen ein paar Stunden lang, dann kann man das natürlich verstehen. – versuch's mal gerade aufzuzeichnen – ist einfacher aus als hier, – das mal dazwischen zu zeichnen – los mit – Schicht im Originalformat. – dann geht es – Faktor 2. – kommen mehrere Schichten die die Zahlen Schichtdicke Zeichen ist nicht – zu viel Gestrüpp, es kommen ein paar Schichten mit – halben Auflösung und dann geht's noch mal runter, – kommen ein paar Schichten mit einem – der – dann komm noch mal Faktor 2 – ein paar Schichten – Achtel der Auflösung relativ viele Schichten sind das. – geht noch mal Faktor – runter. – 16. – Auflösung relativ viele Schichten – dann kommt ein 32 für der Auflösung, das ist die kleinste Auflösung. – überhaupt hat Schicht zu Schicht im neuronalen, jetzt weiter runter gerechnet. – der ersten Verkleinerung – hatte also 208 – x 208 – nach der zweiten Verkleinerung hat er – x 104, – hat er 52 – x 52 die – Zahlen kennen sie schon dann hat er 26 x 26 – Theater 13 – 13, also das ganze Bild was x – x 64 Pixel hatte. Ist jetzt auf 13 mal 13 Zellen – gedampft, wenn man so viel an dieser Stelle – kommt jetzt die erste Ausgabe an dieser Stelle – x 13 kommt die erste Ausgabe, da haben wir – jede von diesen 13 x 13 Zellen 3 bounding boxes – gabs aber noch einen fähig, dass diese 13 x 13 wieder – werden – Ergebnis von dieser Aufgabe wird noch mal aufgepustet – auf 26 – x 26 in der Größe – vorgekommen, ist es heute mal ein zeichnen, also hier aus diesem Stapel nehmen wir uns eine Schicht und – die wieder – Faktor 2 in Länge und Breite auf. – man nimmt sich – Stapel davor – der schon die richtige Größe hat auch eine Schicht, – hat schon die richtige Größe. – x 26 – hängt dann jetzt ein paar 26 x 26 er – dahinter, – gibt dann zum Schluss. 26 x 26 – den Trick macht man noch mal 26 – 26 geht man auf die 52 x 52. – sistem stapelt noch mal hochgerechnet auf – x 52 – gab es eine Zwischenresultat hier 52 x 52, was man sich gemerkt hat, – pflegt man noch mit ein. – dann komm jetzt hier noch ein paar Schichten im Format 52 – x 52 – und gibt 52 was 52. – Endresultat das ist die Struktur dieses Netzes und sind jetzt eben diese Millionen – Parametern versteckt – in diesem ganzen Neuronen, die in den schwarzen Strichen stecken – die Millionen an Parametern – haben sie ne Idee, warum macht man das so warum geht man hier – Pyramide runter, – hat das für einen Sinn? ✂ ich doch weiter ausruhen, – habe das Originalbild – eben nicht mehr mit 64 x 64 fahre ich das Originalbild, sondern – Bild besteht quasi nur noch aus 13 – x 13 sind nicht 13 x 13, aber irgend sowas 13 x 13. Zellen. – ist nicht das Bild. Es ist jetzt nicht blau oder grün – oder rot, was ist 13 Zellen haben, sondern was sie 13 zählen haben? Ist ja – durch die Mangel gedreht. – Zellen haben wir schon eine Idee davon, ob das eine Szene mit Pizzen auf dem Tisch ist, oder ob das die Straßenszene – mitfährt ist – er nicht ist, das wissen die zählen. Die wissen nicht nur rot blau grün. – den Verbindungen hier – alle möglichen Formation, der weiß ja nicht, ob ich jetzt mal erzählt man weiß ja nicht so genau weiß das Netz gelernt hat man kann versuchen zu visualisieren, – höchstwahrscheinlich hat es genauso was gelernt, – ich irgendwie – mit Pizzen und das sind dann folgende Zahlen werden die das – Das haben sie darin. Sie haben nicht die einzelnen Farben mehr da drin, – Farben hatte man ganz am Anfang. – diese Konzepte – das Bild vom Strand diese Konzepte – ist eine Sonne. Da ist ein Strandkorb. Hier – ist blaues Meer diese Konzepte die sind auf diesem Gerät 13 mal 13 Raster 13 x 13, ok – Farben nicht Meer darzustellen sind – Pixel vs. Pixel dunkelblaues – Pixel wie auch immer, sie waren ganz ganz viele Pixel um zu sagen mehr, – sie Farben darstellen – hier – in Anführungszeichen weiß das Netz mehr – diese Pixel dir sind mehr und diese Pixel sind – Es kommt zum Schluss dann als Klassifikation daneben raus, wobei mir und Sonne nicht bei den 80 Klassen waren, aber würde auch funktionieren. – diesen 13 x 13 – wenn man so will steckt mir ganz andere die tiefere Informationen drin als nur RGB-Werte oder – gar nicht mehr die RGB-Werte, sondern viel abstrakter ist die Informationen hier und dann reicht ihnen die Auflösung 13 x 13. – mehr – sie jetzt nicht jeden Pixel zu beschreiben, sondern sie müssen nur wissen. Naja in der Ecke grob – in der Ecke grob Strandkorb – 64 – x 64 Pixel, – ist der Gedanke hinter dieser Herr reichi. Es ist – muss nicht – Schluss – Auflösung 416 x 4 x 16 haben, ich kann ganz weit runter gehen – Anführungszeichen also das was ich gerade gesagt habe mehr – Strandkorb. – So ein Konzept brauche ich die Auflösung 560 – x 40 den erreicht 13 x 13 oder – 52 x 52, – Biss runterrechnen. – kann sparen sein. Könnte durchrechnen, – ganzen Stapel hiermit sich richten könnte man durch rechnen mit – 416 – Rechenaufgabe, wie viel mal länger das dauernd würde es wird extrem viel länger dauern, – diese Auflösung durchsuchen. Es lohnt sich nicht, dass sie diese Auflösung durchzurechnen, – ein Konzept für Strandkorb, – man sie dich pro Bichsel – x 13 oder 52 x 52 kommt hier besser hin, – Ausdünnung – zu eine Pyramide. – es einen dann Luft diese Schichten ja richtig – zu machen. – gerade mein programm zeigen. – sich das anguckt – Schichten – Zahl hier 64 128, das ist sozusagen, wie – dick die Schicht hier ist wie viel – sitzen pro Anführungszeichen – Pixel – wenn man so will, wie viele Neuronen sitzen am pro Zelle da drinnen 128 – zum 56024, – also ganz weit runter geht 132 der – Auflösung, – die Schichten superdic – 1024 – werden die dickesten – schlechter Begriff an der Stelle – dann jeder Schicht an ihrer Stelle 1024 – maroon. – kann die Rechenleistung da dann rein stecken – dass man in die Breite g zuzusagen geht man in die Tiefe Vorwald und Tiefe Siri Begriffe sind hier mehrdeutige – Begriffe, – ist die Schichten sind richtig Komplex Mandat – geht es um komplexe – Am Anfang geht es um rot grün blau und – hier geht es um – Geschichten Orangen – und – dann – geht's wieder rückwärts, danach wird es wieder aufgeblasen. Also, was man hier raus gekriegt hat Konzepten – wie – oder – was man hier in Konzepten rausgekriegt hat, wird dann lustigerweise wieder aufgeblasen mit Informationen aus dieser – x 26. Schicht – erst dann wieder aufgeblasen auf 26 x 26 – die 26 x 26 erbauen inboxes, dass man da kleinere Objekte auch erkennen kann noch mal aufgeblasen – zusammengenommen – mit – aus diesem – dann die 52 x 52, also erst wird klein und dann wirds wieder groß lustigerweise – klein werden zum – kondensieren, – ich Rechenleistung spare. – komplexe Schichten hier bauen kann und Konzepte darzustellen und geht's wieder groß gemacht, – genaue reingucken zu können und die sind Formationen die noch – auflösen Schichten kommen die Beine wieder mit rein gerechnet, – ist der Gedanke dahinter. – das ist – hier, – warum der dünner wird und dann wieder – wird, – jetzt hier was gerechnet wird, die – Neuron, die da sitzen was rechnen, die – es altbekannter. Das gab schon bei jetzt schon vor und den anderen alten Videos for – Faltung – die – das ist das was hier wesentlich passiert bei Yolo. – deutschen Faltung? – Foyer vor und bei Fuß Antworten – nicht in Sachen, – man sich so ein zweidimensionales – eine zweidimensionale Schicht – so und so viel mal sonst wie viel aufgeteilt 52 x 52 oder – auch immer. – jetzt möchte man mit diesen Informationen – Hier sitzt ein Neuron das was – und dieses neue und – Eingaben haben – neue Pixel konnte das neue nehmen – abend irgendwo ein anderes Neuron derselben Schicht da – ist für diese neue Pixel zuständig dieses Neuron, – möchte man – Neuronen zwei – von – mein Trainieren, – würden sie sinnvollerweise annehmen, – man die – wie man die einstellt vor allen Dingen. ✂ sprechende Gewichte müssen also gleich groß sein mit dir oben orange ist muss das funktionieren, wenn der unten die selber eigentlich muss es auch funktionieren, – braucht ja nicht mehrfach an zu trainieren. – Gewicht muss derselbe sein, – das – Gewicht – dieses Gewicht recht unten muss das gleiche sein, wie da – so weiter für alle sprechen Gewichte, das ist dann convolutional net. Gehe mit denselben Stimpel sozusagen, sie gehen mit demselben Stempel – die ganze Fläche drüber – die ganze Fläche der Schicht darunter immer – derselbe Stempel die gleichen Gewichte daran dieselbe bei das – ganz viel Arbeit – viel Arbeit beim Lernen, – dieses – Gewicht getrennt eingestellt würde von dem – das für jede von diesen zählen – das extrem viel mehr lernen Arbeit und es bringt ja nicht – oben im Bild passieren kann kann auch unten im Bild passieren. – egal, wo sich lernen – man gleich, das ist ein convolutional net, das kam ganz viel vor – das noch mal im Quellcode – besteht aus ganz vielen von diesem senia – conf – steht Kopf und weiß Deck waschen 3, dass jeder Hauptbestandteil hier ist der Größenwahl – diesem convolution Schichten – Anzahl hier schon gesagt 64 – heißt wie viel Neuronen in der Geschichte weiß – sitzen sozusagen – nur vier Stunden würden – also in der nächsten Schicht – Neuronen – Stempel – getrennt gelernten Gewichten, aber von einer Stelle zur nächsten wieder identischen Gewichten. Das wäre als wenn deine vier Stunden – in der nächsten Schicht vier Neuronen, die diese Stelle war, kann diese Umgebung beackern – eingezeichnet habe ist eine x 3 – Kästchen drei Kästchen, was ist eine 3 x 3 Halterung? – gibt auch eine Einmaleins – Faltung, das sieht komisch aus. – kommt aber auch – Yolo massiv – Neuron – guckt sich quasi – nur eine Zelle an alles was davor ist in der einzige und dieses neue Runde unten – sich eine Zelle an. Das wäre – wirkt ein bisschen komisch, wenn man das macht und – Gewichte, also hier – gleiche Gewichte, was ich da nicht nur eine Farbe – drei – Hier könnt ihr mehr passieren als nur drei Komponenten. Hier wird mir passieren ist und drei Komponenten, aber dann sind die entsprechenden – gleich. – sieht, dass man total komisch aus eine Einmaleins Faltung – aber häufiger vor hier – noch mal in den – rein ich bei diesen – 3. – Inzest ist die – size-1 – Zeus. Normalerweise – ist 3. Das steht da oben, das war der erste 3 x 3 und – ist die Körner scheiß eins – übereinander – gestapelt. Amerikanischer Science und dann wieder Köln S13 – eine Einmaleins Faltungen in der 3. X 3 Faltung immer übereinander gestapelt – der Test Sichtigvor – mal zu Dustin gut sein, sollte eine Einmaleins Faltung – ergibt das Sinn? ✂ doch mal hier wieder die Idee ein, dass man ja nur 1 € und dann haben kann in der nächsten – hieß, das – ja erstmal 44 – immer haben – jede Zelle 4 Neuronen haben und – dann – da angucken, was sie der – davor passiert. – können sie hier ja auch haben und wird es bei mir nicht sinnvoll. – man hier mehr Neuronen hat und die können ja alle in die Schicht davor gucken, wenn ich sie aus der Schicht davor schon 512 – Zahlen rauskommen pro Zelle – diese Neuronen jetzt alle die 512 zahlen dann gucken – dann z.b. Das reduzieren auf nur 216. – wird es typischerweise dann angewendet, – ist noch eine weitere Schicht – Lernen, die guckt sich aber nicht die Nachbarschaft an so eine 1 x 1 guckt – sich nicht die Nachbarschaft an, sondern ist – so eine Säule dann auf diesen einen – ja wie eine Säule dahinter noch nur – in ab von den Pixel geht jetzt weiter gearbeitet – er ist ja vielleicht 512 – oder sogar 1024 – tief diese eine Pixel an – können alle miteinander verrührt werden essen Einmaleins Faltung. – drei guckt sich wirklich. Die Umgebung kann – sich das doch mal genau überlegt, ob zurückgerechnet das wollte ich noch sagen, dass – Rezepte viel – sieht das Netz überhaupt – durch die Verkleinerung hier – immer Faktor 2 runter? – es sowieso schon recht viel – Sally aus 13 mal 13 spricht, der im Original 32 x 32 – man sowieso schon recht groß ist, das Sichtfeld sozusagen und dann kommt jetzt ja immer noch Effekt, dass diese – die drei mal drei nicht einmal ein super Drummer 3 Konvolut ist es ja auch noch immer die Nachbarn angucken. Es wird wahnsinnig groß. – du am Hagenau Nachrichten, aber der Witz ist das zum Schluss. Jede von diesen 13 x 13 cl nicht nur – was hier was in seiner Box ist, – Sie praktisch das gesamte Bild, – heißt, wenn – ganze Nacht – mit – und – Messer aus sieht insgesamt dann wird er ein Messer erkannt als ein Pferd erkannt wird oder ein Fahrrad erkannt wird. – ist das Windows active field was sieht hier eine von diesen Zellen – ist nicht so schlimm zu verstehen. Hoffentlich – Trick ist das erstmal zusammen zu basteln das – Ding Haus Jahr – und Nächte trainieren und verstehen sie wieder was und dann trainiert das Ding wieder Tage und Nächte und sie gucken ist es besser geworden und dann trainiert es wieder Tage und Nächte, das muss ja alles systematisch angegangen werden, das ist so fast wie Chemie – was realwissenschaft, – die – bisschen verändern und testen wir das ganze noch mal auf Zugfestigkeit. – dann ist man das noch mal neu an und ist eines wieder auf Zugfestigkeit hier genauso das ein oder andere ändern hier noch mal eine Schicht da hinten da vorne dahinter wollen mehr Geschichten da rein, wie tief sind die Schichten, wie – ich das an mit welcher – ist das raffinierte – gibt man das überhaupt an diese Architektur zu finden, wie trainiert man – Bilder zeigen sie in welcher Reihenfolge – man nicht nur – nehmen, in denen jetzt die bonnieboxx ist von Menschen gesetzt worden sind kann man Bilder nehmen, mit den einfach nur Katzen Hunde zu sehen sind, das haben sich die Autoren auch über – bounding box is – loss function, wie misst man die Güte des Ergebnis ist, das ist auch raffiniert, die zeitlich lieber gar nicht den Sinn den paper, die osmanischen sieht schlimm aus, – die Beurteilung der – Abweichung zwischen – was das Bild laut Mensch – bounding boxes und dem was hinten rauskommt, – sieht auch formidabel aus. steckt dann ganz viel Intelligenz drinnen. – diese trennen – des Netzes ist – einfach und die – ist – relativ einfach, das kriegt man in paar Stunden – dem Internet zusammen – wie man jetzt damit umgehen muss.