Google AI Studio Überblick

Über das AI-Studio von Google und die unglaublichen kostenlosen Tools, die wir dort nutzen können, haben wir auf dem Kanal ja schon einige Male gesprochen. Heute will ich euch nochmal einen speziellen Bereich vorstellen, in dem ganz einfach, ohne Vorkenntnisse und schon wieder komplett kostenlos mit der KI gemeinsam eigene, voll funktionsfähige Apps entwickelt werden können, die sogar selbst wiederum KI verwenden. Google macht es mit diesem großzügigen Angebot möglich und vor allem auch sehr einfach, in nur wenigen Minuten mit ein paar Prompts die eigenen Ideen Realität werden zu lassen. Wir haben einiges vor uns und wollen sogar zwei unterschiedliche Apps zusammen entwickeln. Also würde ich sagen, das ist genug Intro, wir gehen direkt zum Praxisteil über. Ich befinde mich hier bereits auf der Startseite des AI Studios. Das Ganze ist natürlich auch nochmal in der Beschreibung verlinkt. Aber wie es bei Google so ein bisschen üblich ist, ist es gar nicht so leicht von hier aus jetzt die Funktion zu finden, die wir in diesem Video vorstellen wollen. Wir haben hier die Möglichkeit, ganz normal mit verschiedenen Modellen zu chatten. Wir haben Stream, dazu haben wir auch schon ein eigenes Video gemacht und die Möglichkeit Medien zu erstellen. Also zum Beispiel. Videos, Bilder oder Textgenerierung. Auch dazu haben wir schon ein Video gemacht auf dem Kanal. Das, was uns jetzt allerdings interessiert für dieses Video, ist dieser Reiter Bild in unserer Seitenleiste hier. Denn hier können wir, wie es hier auch schon oben drin steht, einfach Apps, also kleine Programme, bauen, ohne dass wir dafür jetzt einen API-Schlüssel anlegen müssen, sondern wir können einfach mal so ein bisschen das kostenlose Angebot von Google nutzen, um hier ganz einfach Apps zu entwickeln. Darunter haben wir so ein bisschen einen Showcase, also hier werden verschiedenste Apps auch angezeigt. die teilweise von Google selbst bereitgestellt wurden, teilweise auch von Usern sind. Und da kann man sich einfach auch ein bisschen inspirieren lassen. Wir sehen hier zum Beispiel ein Gemini OS, also ein Gemini Operating System. Da kann ich einfach mal draufklicken und dann sehe ich den ganzen Code hier, beziehungsweise ich sehe auf der rechten Seite die App und ich sehe hier in der Mitte den Code. Ich kann dann auch die Seitenleiste ausklappen und hier sehe ich einfach alle Dateien, die diese App hier benötigt, um zu funktionieren. Wir sehen, dass wir hier also wirklich eine Art Betriebssystem haben, können uns einfach darin bewegen. Aber... Wir wollen jetzt natürlich eine eigene App entwickeln und deswegen wechsle ich nochmal kurz zurück zum Build-Tab. Wir können jetzt einfach ganz oben hier direkt einen Prompt angeben oder wir können Start from a Template auswählen. Wenn ich das mal mache, dann sehe ich, dass ich jetzt hier verschiedene Möglichkeiten habe, also zum Beispiel Streaming etc. Ich möchte aber einfach mal mit einer leeren App starten und dementsprechend wähle ich das hier aus. Sobald ich das gemacht habe, sehe ich eigentlich genau die gleiche Ansicht wie bei der Beispiel-App, die wir gerade eben gesehen haben. Aber hier ist natürlich noch nichts drin, also noch kein Code, noch keine Vorschau. auch hier. keine weiteren Dateien drin, außer so den Standard-Index-Dateien. Und wir können jetzt im Prinzip hier in der linken Spalte in diesem Chatfenster damit beginnen, an unserer App zu arbeiten. Für den Anfang würde ich sagen, machen wir mal ein relativ offenes Beispiel. Ich möchte einfach, dass Gemini ein innovatives Spiel für mich entwickelt. Und dazu kann ich hier folgenden Prompt eingeben. Auch nicht irritieren lassen, wenn hier alles auf Englisch ist, wir können das Ganze selbstverständlich auf Deutsch verwenden. Ich könnte jetzt hier also zum Beispiel mal schreiben, bitte entwickle ein innovatives, unterhaltsames Spiel für mich. Also ich... Lass das hier ganz bewusst mal offen einfach, um Gemini so ein bisschen Gestaltungsspielraum zu geben und wir schauen mal, was dabei rauskommt. Ich schicke diesen prompt ab und in diesem Build-Tab kann das dann eine ganze Weile dauern. Wir sehen, dass das Modell zunächst einmal nachdenkt. Also wir haben hier das Reasoning-Modell. Es wird jetzt also über verschiedene Dinge nachdenken und dann einen Plan machen und diesen umsetzen. Wir können dann, sobald das Ganze wirklich gestartet ist, das hier natürlich auch ausklappen. Also ich sehe, dass hier eine Spiel-ID mit dem Namen Emoji-Riddle gebrainstormt wird. Das Ganze wird dann weiter von Gemini ausgearbeitet und sobald der finale Plan steht, werden wir hier in die nächste Phase springen. Das kann immer ein bisschen dauern. Wir sehen also, okay, hier wird über die Game-Logik nachgedacht. Dann haben wir unsere eigentliche Antwort, also das lustige interaktive Spiel mit dem Namen Emoji-Rätsel wird entwickelt. Und jetzt ist der Bot dazu übergegangen, wirklich einfach Code zu schreiben. Wir sehen das hier, dass an entsprechenden Dateien gearbeitet wird, aber gleichzeitig auch hier in unserem Code-Abschnitt natürlich haben wir jetzt verschiedene Dateien offen und in die wird Code geschrieben. Das passiert alles ziemlich schnell und wir können jetzt einfach mal ein bisschen abwarten, bis unser Spiel dann fertig ist. Kann immer ein bisschen dauern. Ich überspringe das hier. Wir sehen dann aber gleich auch noch, wie lange das Ganze dann am Ende gedauert hat. Tatsächlich sehen wir jetzt hier aktuell nicht, wie lange es gedauert hat. Das wird anscheinend nur dann angezeigt, wenn es wirklich auch länger dauert. Eigentlich kurz nachdem ich das Video unterbrochen habe, ist es hier direkt schon fertig gewesen und wir haben die erste Version unseres Spiels hier erstellt. Ich sehe auch hier beim Spielkonzept nochmal... Ich erhalte eine Reihe von Emojis, die ein Wort oder eine Phrase darstellen, zum Beispiel Filmtitel, Gegenstand, Redewendung und meine Aufgabe ist es, das Rätsel zu lösen. Ich sehe dann auch, dass hier die Gemini API verwendet wird, um endlose kreative Rätsel zu generieren. Also es wird einfach nicht jedes Mal dasselbe sein, sondern es wird hier jedes Mal etwas Neues für uns erstellt. Ich habe dann eine relativ einfache Oberfläche, also Emoji-Rätsel, oben eine Punktzahl und dann hier unser erstes Rätsel. Aktuell kann ich damit vielleicht noch nicht so viel anfangen, deswegen würde ich einfach mal auf Tipp. Klicken und schauen, was da passiert. Wir sehen also, jetzt wird ein Tipp geladen hier für uns. Und dieser Tipp ist, denke an einen deutschen Ausdruck für Glück, der diese Symbole enthält. Das könnte jetzt natürlich einiges sein. Ich würde vielleicht einfach mal den Begriff Glücksschwein tippen. Das kann ich hier also einfach eingeben und dann klicke ich auf Raten und wir sehen, das Ganze ist falsch. Ich soll es nochmal versuchen. Also gebe ich vielleicht nochmal etwas anderes ein, zum Beispiel Kleeblatt. Ich klicke auf Raten und das Ganze ist wieder falsch. Ich komme jetzt also nicht drauf und vielleicht hätte ich gern die Funktionalität, dass ich mir die Lösung anzeigen kann, wenn ich wirklich nicht drauf komme. Ich habe hier aktuell die Möglichkeit, ein neues Rätsel zu erstellen. Das kann ich natürlich machen, dann komme ich weiter. Aber vielleicht lässt mich das jetzt nicht los. Ich würde einfach gern wissen, was die richtige Antwort gewesen wäre. Dazu kann ich jetzt das einfach hier weitermachen. Also ich habe hier unseren aktuellen Stand. Wir sehen auch, das ist ein Checkpoint. Zudem können wir immer wieder zurückgehen, wenn wir das wollen. Ich möchte jetzt allerdings ein neues Feature hinzufügen, in dem ich einfach mal noch sage, bitte implementiere eine Möglichkeit, die Lösung anzuzeigen, wenn ich nicht darauf komme. Das Ganze schicke ich ab. Auch hier wird das Modell zunächst einmal drüber nachdenken. Also es wird ein Show Answer State definiert, ein Show Answer Button soll implementiert werden und sobald der Plan steht, werde ich wieder eine Antwort bekommen und dann wird mein Code wieder entsprechend bearbeitet. Das werde ich jetzt im Video einfach nochmal kurz überspringen, dass es nicht zu lang dauert und wir schauen uns dann die neue Version unserer App gemeinsam an. Unsere App wurde überarbeitet, wir sehen, dass sie eigentlich relativ gleich aussieht, aber jetzt habe ich hier einen neuen Button bekommen mit Lösung anzeigen. Und ich habe tatsächlich direkt mal ein relativ einfaches Rätsel, ich habe das Löwen-Emoji und die Krone und dementsprechend würde ich einfach mal sagen, das ist König der Löwen. Kann ich hier also einfach mal eingeben und dann klicke ich auf Raten und jetzt sehe ich hier tatsächlich, falsch, versuche es nochmal. Und? Das ist etwas, was natürlich ein bisschen bedenklich ist, denn ich bin mir relativ sicher. Jetzt habe ich aber die Möglichkeit, die Lösung anzuzeigen und wenn ich das mache, dann sehe ich, die richtige Antwort war der König der Löwen. Das ist jetzt natürlich etwas, was ein bisschen schlecht ist, denn ich würde von der App erwarten, dass sie das eigentlich richtig zuordnen kann. König der Löwen, der König der Löwen, das ist ja relativ nah beieinander. Aber hier kommt jetzt eben dieser richtig coole Faktor ins Spiel, dass wir hier nicht nur mit KI eine App erstellen können, sondern diese App kann auch KI selbst verwenden. Wir haben das ja schon ein bisschen drin. Dadurch, dass unsere Rätsel eben von KI oder von künstlicher Intelligenz generiert werden, dass wir eben nicht immer das Gleiche haben, aber ich kann KI-Funktionen natürlich noch an anderer Stelle einbauen. Dazu gebe ich jetzt mal folgenden Prompt ein. Bitte nutze in der App KI, um zu prüfen, ob eine Antwort nahe genug an der richtigen Lösung ist und zähle diese dann trotzdem als korrekt. Beispiel, die eigentliche Lösung ist der König der Löwen, aber auch König der Löwen oder Lion King sollten als richtige Antwort gezählt werden. Nutze für diese Prüfung in der App künstliche Intelligenz, wenn ein User auf Raten klickt, also wenn wir unseren Tipp abschicken. Das Ganze schicken wir nochmal ab und schauen dann, ob das so funktioniert, ob wir also wirklich in unserer App auch Künstliche Intelligenz verwenden können an Stellen, wo wir das ganz explizit angeben. Unsere Antwort wurde gegeben und hier haben wir ein kleines Problem, das ich an dieser Stelle auch ansprechen kann, denn ich sehe hier schon an der Formatierung, dass das nicht wirklich in unseren Code übernommen wurde. Wir sehen aber zunächst mal, dass das eine gute Idee ist und in der Handle-Gest-Funktion in der Index-Datei soll das Ganze jetzt überprüft werden. Also wir haben zuerst unsere Schnellprüfung, es wird eine exakte Übereinstimmung. ohne Berücksichtigung von Groß-Kleinschreibung geprüft. Wenn wir also die direkt richtige Antwort eingeben, dann können wir das ohne KI lösen. Wenn es keine exakte Übereinstimmung gibt, dann wird eine Anfrage an das Gemini-Modell gesendet und fordert die KI auf, als intelligente Schiedsrichter zu fungieren und zu beurteilen, ob die Antwort der korrekten Antwort nahe genug kommt. Dann hat Gemini hier gesagt, dass es die Codedatei aktualisieren wird. Wir sehen, dass das hier angeblich gemacht wurde, aber schon an der Formatierung, dass das eben nicht so dargestellt wird wie hier oben, dass die aktualisierten Dateien angezeigt werden. sehe ich, dass das hier nicht passiert ist. Die Handle-Guess-Funktion sollte jetzt nämlich asynchron sein und wenn ich ein bisschen nach oben scrolle, dann sehe ich, das ist sie hier nicht. Also wir haben hier noch nicht diese Veränderung mit drin. Das ist aber kein Problem. Man sieht das ja auch relativ leicht, dass es hier nicht wirklich passiert ist. Aber das kann ich einfach nochmal anmerken und Gemini darum bitten, das zu verbessern. Du hast die Änderungen am Code leider nicht vorgenommen. Bitte aktualisiere die Funktion wirklich. Wir schicken das Ganze nochmal ab und hoffen, dass es Gemini bei diesem Mal dann richtig macht. Hier sehen wir jetzt dieses Mal. dass wirklich die Datei aktualisiert wird. Zum einen an der Formatierung hier und zum anderen, dass hier das Ganze wirklich auch in unserem Code überarbeitet wird. Hier können wir auch ein bisschen nachvollziehen, wie das Ganze funktioniert, beziehungsweise ich warte mal, bis es fertig generiert wird, dass es nicht die ganze Zeit hochspringt, denn unsere Handle-Gest-Funktion sollte jetzt natürlich deutlich umfangreicher sein. Wenn ich nochmal ein bisschen nach oben scrolle, dann finde ich diese Funktion hier. Sie ist dieses Mal auch als Async definiert und dann sehen wir, dass zurecht nach einer direkten Übereinstimmung geprüft wird und dann haben wir diesen AI-Powered Fuzzy Check. Also wir haben einen Prompt für unsere KI, wir haben die richtige Antwort, die übergeben wird, der Benutzer hat das geraten, ist die Antwort des Benutzers im Wesentlichen richtig und so weiter. Geringfügige Abweichungen, wie fehlen der Artikel, kleine Tippfehler, gebräuchliche englische Übersetzung. Also hier wird wirklich ein schöner Prompt für uns erzeugt, der das Ganze dann an das Gemini-Modell sendet und für uns überprüft. Das Ganze wollen wir jetzt mal testen und ich möchte in diesem Fall jetzt einfach mal eingeben. Geburtstags. Kuchen, wir schicken das Ganze ab und wir sehen dann. tatsächlich, dass es falsch ist. Also es hat auch ein bisschen gedauert. Es scheint also keine direkte Übereinstimmung gewesen zu sein und auch Gemini hat sich dafür entschieden, dass das nicht richtig war. Ich würde vielleicht mal noch einfach nur Geburtstag eingeben. Dann überprüfen wir das mal. Auch hier sehen wir, Gemini hat das Ganze nochmal nachgeprüft und es ist wieder falsch. Ich zeige mir mal die Lösung an. Alles Gute zum Geburtstag war die richtige Antwort. Das ist dann doch ein bisschen schwierig irgendwie. Ich möchte jetzt aber wirklich nochmal schauen. dass das komplett richtig funktioniert und dementsprechend würde ich mir ein paar Debug-Informationen hier anzeigen. Ich möchte hier also einfach darüber mal ein kurzes Label haben mit der richtigen Antwort, dass ich prüfen kann, ob alles so funktioniert, wie gewünscht. Dazu kann ich folgenden Prompt eingeben. Bitte füge temporär für die Prüfung der Funktionalität ein Label hinzu, dass die richtige Antwort immer anzeigt. So kann ich testen, ob alles erwartungsgemäß funktioniert. Das schicken wir dann mal ab und schauen dann, dass wir sowohl die direkte Übereinstimmung als auch diese Fuzzy-Prüfung über die KI wirklich richtig implementiert haben. Wir könnten dann vielleicht auch noch dahin gehen, dass wir sagen, okay, Phrasen wie alles Gute zum Geburtstag sind vielleicht anhand von Emojis ein bisschen schwierig zu erraten. Wir könnten das Ganze begrenzen, indem wir zum Beispiel sagen, nur Filme oder nur wirklich einzelne Begriffe. Aber das kann man dann am Ende bei der App verfeinern. Ich sehe tatsächlich, dass wir hier wieder kleines Problem bekommen haben, dass das nicht wirklich im Code übernommen wurde. Aber auch hier kein Problem. Wir bitten einfach nochmal darum, das zu lösen. Jetzt wurde das übernommen und wir sehen, dass wir jetzt tatsächlich unsere richtige Antwort hier angezeigt bekommen. In diesem Fall haben wir wieder König der Löwen. Ich würde zunächst einmal damit beginnen, dass ich es komplett richtig übereinstimmend eingebe, allerdings mit einem Fehler bei Groß- und Kleinschreibung. Das sollte dann trotzdem eigentlich relativ schnell gehen. Ich gebe der König der Löwen ein, klicke auf Raten und wir sehen, das wurde sofort als richtig angezeigt. Also wir hatten gar keine Ladezeit mehr, das wurde nicht an die KI übergeben, da wir eben einfach die richtige Antwort eingegeben haben. Jetzt haben wir hier nochmal König der Löwen. Auch das sollten wir vielleicht in einer weiteren Iteration dann verhindern, dass wir immer dieselben... Rätsel hier bekommen, aber in diesem Fall könnte ich jetzt einfach mal etwas anderes eingeben, wie zum Beispiel König der Löwen, also ohne den Artikel vorne. Und jetzt sollten wir sehen, dass das Ganze ein bisschen länger lädt, da wir eben keine direkte Übereinstimmung haben. Aber Gemini sollte dann hoffentlich entscheiden, genau das ist passiert, dass auch das die richtige Antwort war. Unsere Logik scheint also soweit zu funktionieren und ich könnte jetzt einfach weitergehen, diese App verbessern, weitere Dinge hinzufügen, ganz wie ich es möchte. Wie gesagt, vielleicht sagen, dass wir nur Filme erraten wollen oder nur ganz bestimmte Dinge. Da ist der Fantasie wirklich eigentlich keine Grenze gesetzt. Und ich kann jederzeit an dieser App hier weiterarbeiten. Ich kann zu verschiedenen Checkpoints wechseln. Das bedeutet, wir haben hier also einen Checkpoint, da kann ich mir die Codedifferenz anschauen. Hier sehe ich, was bearbeitet wurde, was nicht. Ich kann zu diesem Checkpoint zurückspringen, wenn ich das möchte und so weiter. Also hier wirklich die Möglichkeit, eine App zu entwickeln, die ich dann jederzeit weitermachen kann. Ich habe hier oben die Möglichkeit, das Ganze umzubenennen. Ich könnte es ja in meinem Fall vielleicht auch mal auf Deutsch dann. Emoji Rätsel nennen, die Beschreibung kann ich einfach mal lassen, kann das speichern und diese App kann ich dann immer wieder laden oder bearbeiten oder verwenden, wenn ich das möchte. Um das zu tun, muss ich die App natürlich speichern. Dazu haben wir hier oben die Möglichkeit, ich klicke einmal auf Save this App. Wir sehen, das Ganze wird dann dementsprechend gespeichert mit Name und Beschreibung. Ich klicke einmal auf Save und sobald ich das gemacht habe, kann ich diese App jederzeit wieder öffnen und weiter daran arbeiten. dauert kurz jetzt ist es passiert und wenn ich jetzt zurück ins bild tab gehe also wo wir vorher schon gestartet haben, dann kann ich auf Your Apps klicken und sehe dann alles, was ich hier bereits erstellt habe. Also hier haben wir schon eine Emoji-Rätsel-Kino-Edition gehabt und hier dann unser neues Emoji-Rätsel. Man sieht also auch so ein bisschen daran, dass Gemini doch so ein bisschen, sage ich mal, voreingenommen ist. Wenn man einfach nur ein Spiel verlangt, dann wird meistens etwas in die Richtung Emoji-Rätsel generiert. Das muss aber nicht so sein. Wir können auch wirklich ganz eigene Apps entwickeln und das möchte ich jetzt nochmal kurz am Beispiel einer neuen App zeigen. Ich habe jetzt nämlich vielleicht schon eine ganz konkrete Vorstellung, was ich machen möchte und kann dementsprechend einen etwas detaillierteren, genaueren, präziseren ersten Prompt eingeben, indem ich zum Beispiel sage, ich möchte eine App entwickeln, die es Usern erlaubt, ein oder mehrere Fotos hochzuladen, dann soll KI verwendet werden, um auf Basis dieser Fotos eine Fantasiegeschichte zu schreiben und diese auch mit weiteren Bildern zu visualisieren. Also ich möchte so eine Art Bilderbuch mit Text erstellen. Das Ganze schicken wir mal ab. Klingt vielleicht ein bisschen nach einem abstrakten Beispiel, aber ich möchte damit einfach zeigen, welche Möglichkeiten... wie hier mit KI nutzen können. Also wir haben jetzt hier nicht nur ganz einfache Textgenerierung mit drin, die ein Rätsel erstellt oder entscheidet über KI, ob etwas nahe genug dran ist, sondern wir haben hier tatsächlich Bilderkennung mit drin, dann die generative KI, die eine Geschichte daraus schreibt und dann noch, wenn alles klappt hoffentlich, eine KI, die uns weitere Bilder für diese Geschichte erzeugt. Also wirklich viele verschiedene Modalitäten, die in meiner finalen App dann mit drin sind. Schauen wir mal, was unser Entwurf ist. Ich überspringe das Ganze hier an dieser Stelle und dann können wir einen Blick auf den ersten Stand werfen. So, der erste Durchlauf der KI ist fertig und ich sehe, dass ich hier meinen KI-Märchenbuchgenerator bekommen habe. Ich kann Bilder hochladen und die KI eine bebilderte Geschichte daraus zaubern lassen. Hier sehen wir, dass wir natürlich schon relativ viele in unserem Prompt angegeben haben, aber nicht so präzise waren. Also hat sich Gemini hier dazu entschieden, dass es eine Art Kinderbuch sein soll. Liegt bei Bilderbuch natürlich nahe, aber hätte jetzt auch nicht zwangsläufig sein müssen. Aber ich würde sagen, bevor wir das vielleicht nochmal anpassen, probieren wir zunächst einmal, ob das tendenziell funktioniert. Und dazu lade ich jetzt einfach mal ein Bild hoch. Wer schon mehrere Videos von uns angeschaut hat, den wird dieses Bild wahrscheinlich nicht überraschen. Wir haben unseren Porsche auf der Küstenstraße, den wir gerne nehmen, um Bild-KIs zu testen. Ich kann jetzt natürlich noch weitere Bilder hochladen, wenn ich das möchte. Aber ich möchte jetzt einfach mal schauen, was die KI mit diesem einzelnen Porsche-Bild macht und klicke auf Geschichte erstellen. Hier haben wir jetzt direkt einen Fehler bekommen. Der wird hier auch angezeigt. Und das ist eigentlich ganz gut, denn wir können eine weitere Funktion unseres Bild-Tabs hier im AI-Studio besprechen. Wir sehen also, es wird ein Fehler angezeigt. Es gab offensichtlich einen Fehler oder ein Problem damit, die Gemini API aufzurufen. Und dementsprechend haben wir hier unten ein neues kleines Popup bekommen. Ein Fehler beim Ausführen des Codes. Und ich kann einfach mal auf Autofix klicken. Wenn ich das mache, dann wird dieser Fehler entsprechend in einem Prompt übergeben. Direkt mit einem weiteren Link dazu, wo das Ganze vielleicht behoben werden kann. Und dann wird Gemini jetzt versuchen, diesen Fehler automatisch für uns zu beheben. Ich muss das so gar nicht wirklich verstehen. was hier eigentlich falsch gelaufen ist, sondern ich kann das einfach direkt an die KI delegieren und sagen, hey, schau, hier ist ein Fehler passiert, bitte behebe das für mich. Das hat dieses Mal sogar ein bisschen länger gedauert. Wir sehen also, es wurde für 52 Sekunden nachgedacht, bevor dann eine Lösung umgesetzt wurde. Der Fehler wurde gefunden und anscheinend behoben. Da würde ich sagen, testen wir es doch direkt mal und schauen, ob das wirklich der Fall ist. Ich habe mein Porsche-Bild wieder hochgeladen und wir klicken auf Geschichte erstellen. Jetzt sehen wir also zunächst mal, dass wir zumindest nicht direkt wieder einen Fehler bekommen. Da jetzt hier Text und Bilder erstellt werden, denke ich, das wird vielleicht sogar ein bisschen dauern. Wir sehen, dass jetzt die Bilder erstellt werden und wir schauen mal, ich überspringe das im Video. Nein, beziehungsweise müssen wir gar nicht. Tatsächlich wurde es jetzt schon fertig erstellt. Und wir sehen, dass eine Geschichte erstellt wurde. Also Speedy, ein glänzend blaues Auto. Dann haben wir die nächste Seite, dass es an den Kurven entlang gefahren ist. Ich werde es nicht alles vorlesen. Das sieht tatsächlich so ein bisschen aus wie in meinem kürzlichen Italienurlaub, muss ich sagen. und wir haben hier wirklich drei wunderschöne Seiten bekommen mit einer netten Geschichte über Speedy, unser blaues Auto, das eben hier auf einer schönen Reise unterwegs war. Jetzt kann ich das natürlich jederzeit weiter verfeinern. Ich kann hier weitere Prompts eingeben. Ich kann aber auch sagen, vielleicht war das gar nicht das, was ich mir vorgestellt habe. Ich möchte kein Kinderbuch haben, sondern ich möchte eher in die erwachsenere Richtung gehen. Nicht so eine ganz niedliche Geschichte, sondern etwas, das man sich auch als erwachsene Person durchlesen könnte. Und dann könnte ich das natürlich hier anmerken, indem ich vielleicht eingebe, bitte ändere die App so, dass sie kein Kinderbuch erstellt, sondern eine Geschichte für Jugendliche und Erwachsene. Die Illustrationen sollten auch ihre Fotos sein und nicht im Kinderbuchstil. Auch das schicken wir jetzt nochmal ab, warten einfach mal kurz bzw. überspringen die ganze Erstellung und schauen uns dann die nächste Version gemeinsam an. Das wurde überarbeitet. Wir sehen jetzt den Bildroman-Generator, also nicht mehr das Märchenbuch. Und ich würde sagen, wir nehmen mal wieder unser Porsche-Bild und schauen, was wir dann bekommen. Auch hier wird jetzt die Geschichte wieder erstellt und dann unsere Bilder. Ich überspringe das jetzt hier nochmal. Ich denke, das wird allerdings nicht sehr viel länger dauern als im ersten Versuch und wir schauen uns das Ergebnis gemeinsam an. Und hier ist unser Ergebnis. Wir sehen, dass wir jetzt tatsächlich Fotos bekommen haben und auch etwas mehr Text. Ich werde wieder nicht alles vorlesen, aber einfach mal, um ein Gefühl zu bekommen. Elhara spürte das mächtige Surren des Motors unter sich. Die Chromoberfläche des Wagens glänzte unter der unbaumherzigen kalifornischen Sonne, während sie die windigen Kurven des Highway 1 entlang fuhr. Also wir sehen durchaus, dass hier jetzt etwas entsprechend für uns erstellt wurde. Und auch beim zweiten Bild sieht man, das Auto scheint zumindest einigermaßen das gleiche geblieben zu sein. Und wir haben hier auch wieder drei Bilder insgesamt erstellt, mit verschiedenen Illustrationen dazu und der passenden Geschichte. Also wirklich eine coole Möglichkeit, auch wenn das Beispiel jetzt vielleicht ein bisschen, sag ich mal, zufällig gewählt wirkte. Wir haben hier Zugriff auf eigentlich alle Modalitäten, die das Gemini-Modell verwenden kann. Also Bilderkennung, Bilderzeugung und können das alles in unseren Apps hier verwenden. Ich könnte mir auch diese App jetzt natürlich wieder speichern, dass ich das jederzeit weiter bearbeiten kann. Also ich speichere mir nicht nur die App an sich, sondern ich kann dann einfach immer wieder zurück in diesen Bearbeitungsmodus gehen, kann weiter an meiner App arbeiten und Dinge hinzufügen. Eine wichtige Sache vielleicht, die ich noch nicht erwähnt habe, ich kann natürlich auch jederzeit Änderungen selbst am Code vornehmen. In der Regel ist das eigentlich wirklich eine sehr coole Möglichkeit und deswegen haben wir das Video auch gemacht, für Leute sich kleine Apps zu erstellen, die man einfach ohne jegliche Ahnung von Programmieren relativ in einer geschützten Oberfläche hier betreiben kann. Aber wenn ich weiß, was ich tue, dann kann ich natürlich hier auch einfach reinklicken und selbst gewisse Dinge ändern, also Farben ändern, ganz eigene Code-Logik hinzufügen etc. Ich habe dann auch die Möglichkeit hier, wenn wir auf der rechten Seite schauen, oben noch weitere Dinge zu tun. Also ich kann diese App herunterladen. Dann muss ich natürlich eine Möglichkeit finden, wie ich das Ganze ausführen kann. Ich kann das in Cloud Run bereitstellen, also wirklich auf einer professionelleren Ebene. Oder ich kann die App hier einfach teilen. Wenn ich das mal anklicke, dann sehe ich, dass ich allerdings damit den Code meiner App öffentlich mache. Das bedeutet also, wenn andere Leute diese App hier öffnen, dann sehen sie im Prinzip genau dieselben Dinge, die ich hier auch sehe. Also auch den Code, der erstellt wurde. Und könnten das dann natürlich für eigene Apps verwenden etc. Wenn das für mich okay ist, kann ich auf okay klicken und habe dann verschiedene Möglichkeiten, das Ganze zu teilen. Also kann das einfach freigeben an bestimmte Personen, kann aber auch einfach einen Link dazu kopieren, wenn ich das möchte. Vielleicht nochmal kurz zurück zu diesem Punkt Cloud Run, da das wahrscheinlich nicht so ganz eindeutig ist. Wenn ich das hier einmal anklicke, dann sehe ich, dass ich diese App einfach mit einer öffentlichen URL verfügbar machen kann. Das bedeutet, Ich kann hier einfach ein Cloud-Projekt, wenn ich eins habe, auswählen, kann diese App hinzufügen und kann diese dann wirklich live ins Internet stellen. In diesem Fall werde ich dann allerdings einen API-Key brauchen. Das bedeutet, alle Dinge, die hier gemacht werden mit der App, also wenn die zum Beispiel von tausenden Menschen verwendet wird, dann werde ich irgendwann über mein kostenloses Budget, was wir ja bei Gemini relativ großzügig haben, trotzdem drüber kommen. Und dann kann mich das dementsprechend auch Geld kosten. Aber ich würde sagen, eigentlich wirklich die coolste Möglichkeit ist, die Apps hier zu verwenden. Also einfach... ins Build-Tab zu gehen, zu meinen Apps zu gehen und dann diese App hier, ich öffne einfach nochmal unsere alte, wieder weiter zu optimieren, einfach coole Dinge für sich selbst zu entwickeln, egal ob das jetzt unterhaltsame Spiele sind oder wirklich einfach nützliche Anwendungen. Man könnte zum Beispiel eine App entwickeln, mit der man hochgeladene Word-Dateien in PDFs umwandelt oder andersherum. Also der Fantasie sind hier wirklich keine Grenzen gesetzt. Welche Apps würdet ihr gerne mit dem AR Studio entwickeln? Lasst es mich in den Kommentaren wissen und auch, ob es denn wirklich geklappt hat und ihr erfolgreich eure eigenen kleinen Programme bauen konntet. Wie gesagt, es ist komplett kostenlos. Wenn man die Apps nicht teilt, schafft man es quasi nicht an die kostenlosen Limits zu kommen, die bei Google aktuell wirklich immer noch unglaublich großzügig sind. Also probiert das auf jeden Fall mal aus. Wenn euch das Video gefallen hat, dann freue ich mich natürlich wie immer über Likes und Abos für unseren Kanal, wenn ihr keine weiteren Tutorials, Infos und News im Bereich KI mehr verpassen wollt. Mein Name ist Johannes Ruhof, bis zum nächsten Mal.

Also würde ich sagen, das ist genug Intro, wir gehen direkt zum Praxisteil über. Ich befinde mich hier bereits auf der Startseite des AI Studios. Das Ganze ist natürlich auch nochmal in der Beschreibung verlinkt. Aber wie es bei Google so ein bisschen üblich ist, ist es gar nicht so leicht von hier aus jetzt die Funktion zu finden, die wir in diesem Video vorstellen wollen.

Wir haben hier die Möglichkeit, ganz normal mit verschiedenen Modellen zu chatten. Wir haben Stream, dazu haben wir auch schon ein eigenes Video gemacht und die Möglichkeit Medien zu erstellen. Also zum Beispiel.

Videos, Bilder oder Textgenerierung. Auch dazu haben wir schon ein Video gemacht auf dem Kanal. Das, was uns jetzt allerdings interessiert für dieses Video, ist dieser Reiter Bild in unserer Seitenleiste hier.

Denn hier können wir, wie es hier auch schon oben drin steht, einfach Apps, also kleine Programme, bauen, ohne dass wir dafür jetzt einen API-Schlüssel anlegen müssen, sondern wir können einfach mal so ein bisschen das kostenlose Angebot von Google nutzen, um hier ganz einfach Apps zu entwickeln. Darunter haben wir so ein bisschen einen Showcase, also hier werden verschiedenste Apps auch angezeigt. die teilweise von Google selbst bereitgestellt wurden, teilweise auch von Usern sind.

Und da kann man sich einfach auch ein bisschen inspirieren lassen. Wir sehen hier zum Beispiel ein Gemini OS, also ein Gemini Operating System. Da kann ich einfach mal draufklicken und dann sehe ich den ganzen Code hier, beziehungsweise ich sehe auf der rechten Seite die App und ich sehe hier in der Mitte den Code. Ich kann dann auch die Seitenleiste ausklappen und hier sehe ich einfach alle Dateien, die diese App hier benötigt, um zu funktionieren. Wir sehen, dass wir hier also wirklich eine Art Betriebssystem haben, können uns einfach darin bewegen.

Aber... Wir wollen jetzt natürlich eine eigene App entwickeln und deswegen wechsle ich nochmal kurz zurück zum Build-Tab. Wir können jetzt einfach ganz oben hier direkt einen Prompt angeben oder wir können Start from a Template auswählen. Wenn ich das mal mache, dann sehe ich, dass ich jetzt hier verschiedene Möglichkeiten habe, also zum Beispiel Streaming etc. Ich möchte aber einfach mal mit einer leeren App starten und dementsprechend wähle ich das hier aus.

Sobald ich das gemacht habe, sehe ich eigentlich genau die gleiche Ansicht wie bei der Beispiel-App, die wir gerade eben gesehen haben. Aber hier ist natürlich noch nichts drin, also noch kein Code, noch keine Vorschau. auch hier.

keine weiteren Dateien drin, außer so den Standard-Index-Dateien. Und wir können jetzt im Prinzip hier in der linken Spalte in diesem Chatfenster damit beginnen, an unserer App zu arbeiten. Für den Anfang würde ich sagen, machen wir mal ein relativ offenes Beispiel.

Ich möchte einfach, dass Gemini ein innovatives Spiel für mich entwickelt. Und dazu kann ich hier folgenden Prompt eingeben. Auch nicht irritieren lassen, wenn hier alles auf Englisch ist, wir können das Ganze selbstverständlich auf Deutsch verwenden.

Ich könnte jetzt hier also zum Beispiel mal schreiben, bitte entwickle ein innovatives, unterhaltsames Spiel für mich. Also ich... Lass das hier ganz bewusst mal offen einfach, um Gemini so ein bisschen Gestaltungsspielraum zu geben und wir schauen mal, was dabei rauskommt.

Ich schicke diesen prompt ab und in diesem Build-Tab kann das dann eine ganze Weile dauern. Wir sehen, dass das Modell zunächst einmal nachdenkt. Also wir haben hier das Reasoning-Modell. Es wird jetzt also über verschiedene Dinge nachdenken und dann einen Plan machen und diesen umsetzen. Wir können dann, sobald das Ganze wirklich gestartet ist, das hier natürlich auch ausklappen.

Also ich sehe, dass hier eine Spiel-ID mit dem Namen Emoji-Riddle gebrainstormt wird. Das Ganze wird dann weiter von Gemini ausgearbeitet und sobald der finale Plan steht, werden wir hier in die nächste Phase springen. Das kann immer ein bisschen dauern. Wir sehen also, okay, hier wird über die Game-Logik nachgedacht. Dann haben wir unsere eigentliche Antwort, also das lustige interaktive Spiel mit dem Namen Emoji-Rätsel wird entwickelt.

Und jetzt ist der Bot dazu übergegangen, wirklich einfach Code zu schreiben. Wir sehen das hier, dass an entsprechenden Dateien gearbeitet wird, aber gleichzeitig auch hier in unserem Code-Abschnitt natürlich haben wir jetzt verschiedene Dateien offen und in die wird Code geschrieben. Das passiert alles ziemlich schnell und wir können jetzt einfach mal ein bisschen abwarten, bis unser Spiel dann fertig ist. Kann immer ein bisschen dauern.

Ich überspringe das hier. Wir sehen dann aber gleich auch noch, wie lange das Ganze dann am Ende gedauert hat. Tatsächlich sehen wir jetzt hier aktuell nicht, wie lange es gedauert hat.

Das wird anscheinend nur dann angezeigt, wenn es wirklich auch länger dauert. Eigentlich kurz nachdem ich das Video unterbrochen habe, ist es hier direkt schon fertig gewesen und wir haben die erste Version unseres Spiels hier erstellt. Ich sehe auch hier beim Spielkonzept nochmal...

Ich erhalte eine Reihe von Emojis, die ein Wort oder eine Phrase darstellen, zum Beispiel Filmtitel, Gegenstand, Redewendung und meine Aufgabe ist es, das Rätsel zu lösen. Ich sehe dann auch, dass hier die Gemini API verwendet wird, um endlose kreative Rätsel zu generieren. Also es wird einfach nicht jedes Mal dasselbe sein, sondern es wird hier jedes Mal etwas Neues für uns erstellt.

Ich habe dann eine relativ einfache Oberfläche, also Emoji-Rätsel, oben eine Punktzahl und dann hier unser erstes Rätsel. Aktuell kann ich damit vielleicht noch nicht so viel anfangen, deswegen würde ich einfach mal auf Tipp. Klicken und schauen, was da passiert. Wir sehen also, jetzt wird ein Tipp geladen hier für uns.

Und dieser Tipp ist, denke an einen deutschen Ausdruck für Glück, der diese Symbole enthält. Das könnte jetzt natürlich einiges sein. Ich würde vielleicht einfach mal den Begriff Glücksschwein tippen. Das kann ich hier also einfach eingeben und dann klicke ich auf Raten und wir sehen, das Ganze ist falsch.

Ich soll es nochmal versuchen. Also gebe ich vielleicht nochmal etwas anderes ein, zum Beispiel Kleeblatt. Ich klicke auf Raten und das Ganze ist wieder falsch.

Ich komme jetzt also nicht drauf und vielleicht hätte ich gern die Funktionalität, dass ich mir die Lösung anzeigen kann, wenn ich wirklich nicht drauf komme. Ich habe hier aktuell die Möglichkeit, ein neues Rätsel zu erstellen. Das kann ich natürlich machen, dann komme ich weiter. Aber vielleicht lässt mich das jetzt nicht los. Ich würde einfach gern wissen, was die richtige Antwort gewesen wäre.

Dazu kann ich jetzt das einfach hier weitermachen. Also ich habe hier unseren aktuellen Stand. Wir sehen auch, das ist ein Checkpoint. Zudem können wir immer wieder zurückgehen, wenn wir das wollen.

Ich möchte jetzt allerdings ein neues Feature hinzufügen, in dem ich einfach mal noch sage, bitte implementiere eine Möglichkeit, die Lösung anzuzeigen, wenn ich nicht darauf komme. Das Ganze schicke ich ab. Auch hier wird das Modell zunächst einmal drüber nachdenken.

Also es wird ein Show Answer State definiert, ein Show Answer Button soll implementiert werden und sobald der Plan steht, werde ich wieder eine Antwort bekommen und dann wird mein Code wieder entsprechend bearbeitet. Das werde ich jetzt im Video einfach nochmal kurz überspringen, dass es nicht zu lang dauert und wir schauen uns dann die neue Version unserer App gemeinsam an. Unsere App wurde überarbeitet, wir sehen, dass sie eigentlich relativ gleich aussieht, aber jetzt habe ich hier einen neuen Button bekommen mit Lösung anzeigen.

Und ich habe tatsächlich direkt mal ein relativ einfaches Rätsel, ich habe das Löwen-Emoji und die Krone und dementsprechend würde ich einfach mal sagen, das ist König der Löwen. Kann ich hier also einfach mal eingeben und dann klicke ich auf Raten und jetzt sehe ich hier tatsächlich, falsch, versuche es nochmal. Und?

Das ist etwas, was natürlich ein bisschen bedenklich ist, denn ich bin mir relativ sicher. Jetzt habe ich aber die Möglichkeit, die Lösung anzuzeigen und wenn ich das mache, dann sehe ich, die richtige Antwort war der König der Löwen. Das ist jetzt natürlich etwas, was ein bisschen schlecht ist, denn ich würde von der App erwarten, dass sie das eigentlich richtig zuordnen kann.

König der Löwen, der König der Löwen, das ist ja relativ nah beieinander. Aber hier kommt jetzt eben dieser richtig coole Faktor ins Spiel, dass wir hier nicht nur mit KI eine App erstellen können, sondern diese App kann auch KI selbst verwenden. Wir haben das ja schon ein bisschen drin.

Dadurch, dass unsere Rätsel eben von KI oder von künstlicher Intelligenz generiert werden, dass wir eben nicht immer das Gleiche haben, aber ich kann KI-Funktionen natürlich noch an anderer Stelle einbauen. Dazu gebe ich jetzt mal folgenden Prompt ein. Bitte nutze in der App KI, um zu prüfen, ob eine Antwort nahe genug an der richtigen Lösung ist und zähle diese dann trotzdem als korrekt. Beispiel, die eigentliche Lösung ist der König der Löwen, aber auch König der Löwen oder Lion King sollten als richtige Antwort gezählt werden.

Nutze für diese Prüfung in der App künstliche Intelligenz, wenn ein User auf Raten klickt, also wenn wir unseren Tipp abschicken. Das Ganze schicken wir nochmal ab und schauen dann, ob das so funktioniert, ob wir also wirklich in unserer App auch Künstliche Intelligenz verwenden können an Stellen, wo wir das ganz explizit angeben. Unsere Antwort wurde gegeben und hier haben wir ein kleines Problem, das ich an dieser Stelle auch ansprechen kann, denn ich sehe hier schon an der Formatierung, dass das nicht wirklich in unseren Code übernommen wurde. Wir sehen aber zunächst mal, dass das eine gute Idee ist und in der Handle-Gest-Funktion in der Index-Datei soll das Ganze jetzt überprüft werden.

Also wir haben zuerst unsere Schnellprüfung, es wird eine exakte Übereinstimmung. ohne Berücksichtigung von Groß-Kleinschreibung geprüft. Wenn wir also die direkt richtige Antwort eingeben, dann können wir das ohne KI lösen.

Wenn es keine exakte Übereinstimmung gibt, dann wird eine Anfrage an das Gemini-Modell gesendet und fordert die KI auf, als intelligente Schiedsrichter zu fungieren und zu beurteilen, ob die Antwort der korrekten Antwort nahe genug kommt. Dann hat Gemini hier gesagt, dass es die Codedatei aktualisieren wird. Wir sehen, dass das hier angeblich gemacht wurde, aber schon an der Formatierung, dass das eben nicht so dargestellt wird wie hier oben, dass die aktualisierten Dateien angezeigt werden.

sehe ich, dass das hier nicht passiert ist. Die Handle-Guess-Funktion sollte jetzt nämlich asynchron sein und wenn ich ein bisschen nach oben scrolle, dann sehe ich, das ist sie hier nicht. Also wir haben hier noch nicht diese Veränderung mit drin. Das ist aber kein Problem. Man sieht das ja auch relativ leicht, dass es hier nicht wirklich passiert ist.

Aber das kann ich einfach nochmal anmerken und Gemini darum bitten, das zu verbessern. Du hast die Änderungen am Code leider nicht vorgenommen. Bitte aktualisiere die Funktion wirklich.

Wir schicken das Ganze nochmal ab und hoffen, dass es Gemini bei diesem Mal dann richtig macht. Hier sehen wir jetzt dieses Mal. dass wirklich die Datei aktualisiert wird.

Zum einen an der Formatierung hier und zum anderen, dass hier das Ganze wirklich auch in unserem Code überarbeitet wird. Hier können wir auch ein bisschen nachvollziehen, wie das Ganze funktioniert, beziehungsweise ich warte mal, bis es fertig generiert wird, dass es nicht die ganze Zeit hochspringt, denn unsere Handle-Gest-Funktion sollte jetzt natürlich deutlich umfangreicher sein. Wenn ich nochmal ein bisschen nach oben scrolle, dann finde ich diese Funktion hier.

Sie ist dieses Mal auch als Async definiert und dann sehen wir, dass zurecht nach einer direkten Übereinstimmung geprüft wird und dann haben wir diesen AI-Powered Fuzzy Check. Also wir haben einen Prompt für unsere KI, wir haben die richtige Antwort, die übergeben wird, der Benutzer hat das geraten, ist die Antwort des Benutzers im Wesentlichen richtig und so weiter. Geringfügige Abweichungen, wie fehlen der Artikel, kleine Tippfehler, gebräuchliche englische Übersetzung.

Also hier wird wirklich ein schöner Prompt für uns erzeugt, der das Ganze dann an das Gemini-Modell sendet und für uns überprüft. Das Ganze wollen wir jetzt mal testen und ich möchte in diesem Fall jetzt einfach mal eingeben. Geburtstags. Kuchen, wir schicken das Ganze ab und wir sehen dann. tatsächlich, dass es falsch ist.

Also es hat auch ein bisschen gedauert. Es scheint also keine direkte Übereinstimmung gewesen zu sein und auch Gemini hat sich dafür entschieden, dass das nicht richtig war. Ich würde vielleicht mal noch einfach nur Geburtstag eingeben. Dann überprüfen wir das mal.

Auch hier sehen wir, Gemini hat das Ganze nochmal nachgeprüft und es ist wieder falsch. Ich zeige mir mal die Lösung an. Alles Gute zum Geburtstag war die richtige Antwort. Das ist dann doch ein bisschen schwierig irgendwie. Ich möchte jetzt aber wirklich nochmal schauen.

dass das komplett richtig funktioniert und dementsprechend würde ich mir ein paar Debug-Informationen hier anzeigen. Ich möchte hier also einfach darüber mal ein kurzes Label haben mit der richtigen Antwort, dass ich prüfen kann, ob alles so funktioniert, wie gewünscht. Dazu kann ich folgenden Prompt eingeben.

Bitte füge temporär für die Prüfung der Funktionalität ein Label hinzu, dass die richtige Antwort immer anzeigt. So kann ich testen, ob alles erwartungsgemäß funktioniert. Das schicken wir dann mal ab und schauen dann, dass wir sowohl die direkte Übereinstimmung als auch diese Fuzzy-Prüfung über die KI wirklich richtig implementiert haben. Wir könnten dann vielleicht auch noch dahin gehen, dass wir sagen, okay, Phrasen wie alles Gute zum Geburtstag sind vielleicht anhand von Emojis ein bisschen schwierig zu erraten.

Wir könnten das Ganze begrenzen, indem wir zum Beispiel sagen, nur Filme oder nur wirklich einzelne Begriffe. Aber das kann man dann am Ende bei der App verfeinern. Ich sehe tatsächlich, dass wir hier wieder kleines Problem bekommen haben, dass das nicht wirklich im Code übernommen wurde. Aber auch hier kein Problem.

Wir bitten einfach nochmal darum, das zu lösen. Jetzt wurde das übernommen und wir sehen, dass wir jetzt tatsächlich unsere richtige Antwort hier angezeigt bekommen. In diesem Fall haben wir wieder König der Löwen. Ich würde zunächst einmal damit beginnen, dass ich es komplett richtig übereinstimmend eingebe, allerdings mit einem Fehler bei Groß- und Kleinschreibung.

Das sollte dann trotzdem eigentlich relativ schnell gehen. Ich gebe der König der Löwen ein, klicke auf Raten und wir sehen, das wurde sofort als richtig angezeigt. Also wir hatten gar keine Ladezeit mehr, das wurde nicht an die KI übergeben, da wir eben einfach die richtige Antwort eingegeben haben. Jetzt haben wir hier nochmal König der Löwen. Auch das sollten wir vielleicht in einer weiteren Iteration dann verhindern, dass wir immer dieselben...

Rätsel hier bekommen, aber in diesem Fall könnte ich jetzt einfach mal etwas anderes eingeben, wie zum Beispiel König der Löwen, also ohne den Artikel vorne. Und jetzt sollten wir sehen, dass das Ganze ein bisschen länger lädt, da wir eben keine direkte Übereinstimmung haben. Aber Gemini sollte dann hoffentlich entscheiden, genau das ist passiert, dass auch das die richtige Antwort war.

Unsere Logik scheint also soweit zu funktionieren und ich könnte jetzt einfach weitergehen, diese App verbessern, weitere Dinge hinzufügen, ganz wie ich es möchte. Wie gesagt, vielleicht sagen, dass wir nur Filme erraten wollen oder nur ganz bestimmte Dinge. Da ist der Fantasie wirklich eigentlich keine Grenze gesetzt.

Und ich kann jederzeit an dieser App hier weiterarbeiten. Ich kann zu verschiedenen Checkpoints wechseln. Das bedeutet, wir haben hier also einen Checkpoint, da kann ich mir die Codedifferenz anschauen.

Hier sehe ich, was bearbeitet wurde, was nicht. Ich kann zu diesem Checkpoint zurückspringen, wenn ich das möchte und so weiter. Also hier wirklich die Möglichkeit, eine App zu entwickeln, die ich dann jederzeit weitermachen kann.

Ich habe hier oben die Möglichkeit, das Ganze umzubenennen. Ich könnte es ja in meinem Fall vielleicht auch mal auf Deutsch dann. Emoji Rätsel nennen, die Beschreibung kann ich einfach mal lassen, kann das speichern und diese App kann ich dann immer wieder laden oder bearbeiten oder verwenden, wenn ich das möchte.

Um das zu tun, muss ich die App natürlich speichern. Dazu haben wir hier oben die Möglichkeit, ich klicke einmal auf Save this App. Wir sehen, das Ganze wird dann dementsprechend gespeichert mit Name und Beschreibung. Ich klicke einmal auf Save und sobald ich das gemacht habe, kann ich diese App jederzeit wieder öffnen und weiter daran arbeiten. dauert kurz jetzt ist es passiert und wenn ich jetzt zurück ins bild tab gehe also wo wir vorher schon gestartet haben, dann kann ich auf Your Apps klicken und sehe dann alles, was ich hier bereits erstellt habe.

Also hier haben wir schon eine Emoji-Rätsel-Kino-Edition gehabt und hier dann unser neues Emoji-Rätsel. Man sieht also auch so ein bisschen daran, dass Gemini doch so ein bisschen, sage ich mal, voreingenommen ist. Wenn man einfach nur ein Spiel verlangt, dann wird meistens etwas in die Richtung Emoji-Rätsel generiert. Das muss aber nicht so sein.

Wir können auch wirklich ganz eigene Apps entwickeln und das möchte ich jetzt nochmal kurz am Beispiel einer neuen App zeigen. Ich habe jetzt nämlich vielleicht schon eine ganz konkrete Vorstellung, was ich machen möchte und kann dementsprechend einen etwas detaillierteren, genaueren, präziseren ersten Prompt eingeben, indem ich zum Beispiel sage, ich möchte eine App entwickeln, die es Usern erlaubt, ein oder mehrere Fotos hochzuladen, dann soll KI verwendet werden, um auf Basis dieser Fotos eine Fantasiegeschichte zu schreiben und diese auch mit weiteren Bildern zu visualisieren. Also ich möchte so eine Art Bilderbuch mit Text erstellen. Das Ganze schicken wir mal ab. Klingt vielleicht ein bisschen nach einem abstrakten Beispiel, aber ich möchte damit einfach zeigen, welche Möglichkeiten...

wie hier mit KI nutzen können. Also wir haben jetzt hier nicht nur ganz einfache Textgenerierung mit drin, die ein Rätsel erstellt oder entscheidet über KI, ob etwas nahe genug dran ist, sondern wir haben hier tatsächlich Bilderkennung mit drin, dann die generative KI, die eine Geschichte daraus schreibt und dann noch, wenn alles klappt hoffentlich, eine KI, die uns weitere Bilder für diese Geschichte erzeugt. Also wirklich viele verschiedene Modalitäten, die in meiner finalen App dann mit drin sind.

Schauen wir mal, was unser Entwurf ist. Ich überspringe das Ganze hier an dieser Stelle und dann können wir einen Blick auf den ersten Stand werfen. So, der erste Durchlauf der KI ist fertig und ich sehe, dass ich hier meinen KI-Märchenbuchgenerator bekommen habe.

Ich kann Bilder hochladen und die KI eine bebilderte Geschichte daraus zaubern lassen. Hier sehen wir, dass wir natürlich schon relativ viele in unserem Prompt angegeben haben, aber nicht so präzise waren. Also hat sich Gemini hier dazu entschieden, dass es eine Art Kinderbuch sein soll.

Liegt bei Bilderbuch natürlich nahe, aber hätte jetzt auch nicht zwangsläufig sein müssen. Aber ich würde sagen, bevor wir das vielleicht nochmal anpassen, probieren wir zunächst einmal, ob das tendenziell funktioniert. Und dazu lade ich jetzt einfach mal ein Bild hoch. Wer schon mehrere Videos von uns angeschaut hat, den wird dieses Bild wahrscheinlich nicht überraschen. Wir haben unseren Porsche auf der Küstenstraße, den wir gerne nehmen, um Bild-KIs zu testen.

Ich kann jetzt natürlich noch weitere Bilder hochladen, wenn ich das möchte. Aber ich möchte jetzt einfach mal schauen, was die KI mit diesem einzelnen Porsche-Bild macht und klicke auf Geschichte erstellen. Hier haben wir jetzt direkt einen Fehler bekommen. Der wird hier auch angezeigt.

Und das ist eigentlich ganz gut, denn wir können eine weitere Funktion unseres Bild-Tabs hier im AI-Studio besprechen. Wir sehen also, es wird ein Fehler angezeigt. Es gab offensichtlich einen Fehler oder ein Problem damit, die Gemini API aufzurufen.

Und dementsprechend haben wir hier unten ein neues kleines Popup bekommen. Ein Fehler beim Ausführen des Codes. Und ich kann einfach mal auf Autofix klicken. Wenn ich das mache, dann wird dieser Fehler entsprechend in einem Prompt übergeben. Direkt mit einem weiteren Link dazu, wo das Ganze vielleicht behoben werden kann.

Und dann wird Gemini jetzt versuchen, diesen Fehler automatisch für uns zu beheben. Ich muss das so gar nicht wirklich verstehen. was hier eigentlich falsch gelaufen ist, sondern ich kann das einfach direkt an die KI delegieren und sagen, hey, schau, hier ist ein Fehler passiert, bitte behebe das für mich. Das hat dieses Mal sogar ein bisschen länger gedauert.

Wir sehen also, es wurde für 52 Sekunden nachgedacht, bevor dann eine Lösung umgesetzt wurde. Der Fehler wurde gefunden und anscheinend behoben. Da würde ich sagen, testen wir es doch direkt mal und schauen, ob das wirklich der Fall ist. Ich habe mein Porsche-Bild wieder hochgeladen und wir klicken auf Geschichte erstellen. Jetzt sehen wir also zunächst mal, dass wir zumindest nicht direkt wieder einen Fehler bekommen.

Da jetzt hier Text und Bilder erstellt werden, denke ich, das wird vielleicht sogar ein bisschen dauern. Wir sehen, dass jetzt die Bilder erstellt werden und wir schauen mal, ich überspringe das im Video. Nein, beziehungsweise müssen wir gar nicht.

Tatsächlich wurde es jetzt schon fertig erstellt. Und wir sehen, dass eine Geschichte erstellt wurde. Also Speedy, ein glänzend blaues Auto. Dann haben wir die nächste Seite, dass es an den Kurven entlang gefahren ist.

Ich werde es nicht alles vorlesen. Das sieht tatsächlich so ein bisschen aus wie in meinem kürzlichen Italienurlaub, muss ich sagen. und wir haben hier wirklich drei wunderschöne Seiten bekommen mit einer netten Geschichte über Speedy, unser blaues Auto, das eben hier auf einer schönen Reise unterwegs war.

Jetzt kann ich das natürlich jederzeit weiter verfeinern. Ich kann hier weitere Prompts eingeben. Ich kann aber auch sagen, vielleicht war das gar nicht das, was ich mir vorgestellt habe.

Ich möchte kein Kinderbuch haben, sondern ich möchte eher in die erwachsenere Richtung gehen. Nicht so eine ganz niedliche Geschichte, sondern etwas, das man sich auch als erwachsene Person durchlesen könnte. Und dann könnte ich das natürlich hier anmerken, indem ich vielleicht eingebe, bitte ändere die App so, dass sie kein Kinderbuch erstellt, sondern eine Geschichte für Jugendliche und Erwachsene. Die Illustrationen sollten auch ihre Fotos sein und nicht im Kinderbuchstil. Auch das schicken wir jetzt nochmal ab, warten einfach mal kurz bzw.

überspringen die ganze Erstellung und schauen uns dann die nächste Version gemeinsam an. Das wurde überarbeitet. Wir sehen jetzt den Bildroman-Generator, also nicht mehr das Märchenbuch.

Und ich würde sagen, wir nehmen mal wieder unser Porsche-Bild und schauen, was wir dann bekommen. Auch hier wird jetzt die Geschichte wieder erstellt und dann unsere Bilder. Ich überspringe das jetzt hier nochmal.

Ich denke, das wird allerdings nicht sehr viel länger dauern als im ersten Versuch und wir schauen uns das Ergebnis gemeinsam an. Und hier ist unser Ergebnis. Wir sehen, dass wir jetzt tatsächlich Fotos bekommen haben und auch etwas mehr Text.

Ich werde wieder nicht alles vorlesen, aber einfach mal, um ein Gefühl zu bekommen. Elhara spürte das mächtige Surren des Motors unter sich. Die Chromoberfläche des Wagens glänzte unter der unbaumherzigen kalifornischen Sonne, während sie die windigen Kurven des Highway 1 entlang fuhr. Also wir sehen durchaus, dass hier jetzt etwas entsprechend für uns erstellt wurde. Und auch beim zweiten Bild sieht man, das Auto scheint zumindest einigermaßen das gleiche geblieben zu sein.

Und wir haben hier auch wieder drei Bilder insgesamt erstellt, mit verschiedenen Illustrationen dazu und der passenden Geschichte. Also wirklich eine coole Möglichkeit, auch wenn das Beispiel jetzt vielleicht ein bisschen, sag ich mal, zufällig gewählt wirkte. Wir haben hier Zugriff auf eigentlich alle Modalitäten, die das Gemini-Modell verwenden kann. Also Bilderkennung, Bilderzeugung und können das alles in unseren Apps hier verwenden. Ich könnte mir auch diese App jetzt natürlich wieder speichern, dass ich das jederzeit weiter bearbeiten kann.

Also ich speichere mir nicht nur die App an sich, sondern ich kann dann einfach immer wieder zurück in diesen Bearbeitungsmodus gehen, kann weiter an meiner App arbeiten und Dinge hinzufügen. Eine wichtige Sache vielleicht, die ich noch nicht erwähnt habe, ich kann natürlich auch jederzeit Änderungen selbst am Code vornehmen. In der Regel ist das eigentlich wirklich eine sehr coole Möglichkeit und deswegen haben wir das Video auch gemacht, für Leute sich kleine Apps zu erstellen, die man einfach ohne jegliche Ahnung von Programmieren relativ in einer geschützten Oberfläche hier betreiben kann.

Aber wenn ich weiß, was ich tue, dann kann ich natürlich hier auch einfach reinklicken und selbst gewisse Dinge ändern, also Farben ändern, ganz eigene Code-Logik hinzufügen etc. Ich habe dann auch die Möglichkeit hier, wenn wir auf der rechten Seite schauen, oben noch weitere Dinge zu tun. Also ich kann diese App herunterladen.

Dann muss ich natürlich eine Möglichkeit finden, wie ich das Ganze ausführen kann. Ich kann das in Cloud Run bereitstellen, also wirklich auf einer professionelleren Ebene. Oder ich kann die App hier einfach teilen.

Wenn ich das mal anklicke, dann sehe ich, dass ich allerdings damit den Code meiner App öffentlich mache. Das bedeutet also, wenn andere Leute diese App hier öffnen, dann sehen sie im Prinzip genau dieselben Dinge, die ich hier auch sehe. Also auch den Code, der erstellt wurde. Und könnten das dann natürlich für eigene Apps verwenden etc.

Wenn das für mich okay ist, kann ich auf okay klicken und habe dann verschiedene Möglichkeiten, das Ganze zu teilen. Also kann das einfach freigeben an bestimmte Personen, kann aber auch einfach einen Link dazu kopieren, wenn ich das möchte. Vielleicht nochmal kurz zurück zu diesem Punkt Cloud Run, da das wahrscheinlich nicht so ganz eindeutig ist.

Wenn ich das hier einmal anklicke, dann sehe ich, dass ich diese App einfach mit einer öffentlichen URL verfügbar machen kann. Das bedeutet, Ich kann hier einfach ein Cloud-Projekt, wenn ich eins habe, auswählen, kann diese App hinzufügen und kann diese dann wirklich live ins Internet stellen. In diesem Fall werde ich dann allerdings einen API-Key brauchen.

Das bedeutet, alle Dinge, die hier gemacht werden mit der App, also wenn die zum Beispiel von tausenden Menschen verwendet wird, dann werde ich irgendwann über mein kostenloses Budget, was wir ja bei Gemini relativ großzügig haben, trotzdem drüber kommen. Und dann kann mich das dementsprechend auch Geld kosten. Aber ich würde sagen, eigentlich wirklich die coolste Möglichkeit ist, die Apps hier zu verwenden.

Also einfach... ins Build-Tab zu gehen, zu meinen Apps zu gehen und dann diese App hier, ich öffne einfach nochmal unsere alte, wieder weiter zu optimieren, einfach coole Dinge für sich selbst zu entwickeln, egal ob das jetzt unterhaltsame Spiele sind oder wirklich einfach nützliche Anwendungen. Man könnte zum Beispiel eine App entwickeln, mit der man hochgeladene Word-Dateien in PDFs umwandelt oder andersherum.

Also der Fantasie sind hier wirklich keine Grenzen gesetzt. Welche Apps würdet ihr gerne mit dem AR Studio entwickeln? Lasst es mich in den Kommentaren wissen und auch, ob es denn wirklich geklappt hat und ihr erfolgreich eure eigenen kleinen Programme bauen konntet. Wie gesagt, es ist komplett kostenlos. Wenn man die Apps nicht teilt, schafft man es quasi nicht an die kostenlosen Limits zu kommen, die bei Google aktuell wirklich immer noch unglaublich großzügig sind.

Also probiert das auf jeden Fall mal aus. Wenn euch das Video gefallen hat, dann freue ich mich natürlich wie immer über Likes und Abos für unseren Kanal, wenn ihr keine weiteren Tutorials, Infos und News im Bereich KI mehr verpassen wollt. Mein Name ist Johannes Ruhof, bis zum nächsten Mal.

Transcript for:Google AI Studio Überblick

Transcript for:
Google AI Studio Überblick