OpenAi ChatGPT-v4 Vision Beispiele

Lesedauer ca. 5 Minuten

Nur kurz zur Erinnerung. Was bisher geschah, bevor ich dir einige Beispiele zeige, was man mit dem neuen GPT-4 Update bereits erreichen kann.

In einer Ankündigung hat OpenAI im März 2023 die Veröffentlichung von GPT-4 bekannt gegeben, eine Weiterentwicklung ihres KI-Modells. Während die KI-Gemeinschaft gespannt auf diese Veröffentlichung gewartet hat, hat sich die Aufregung in den letzten Tagen weiter gesteigert, da OpenAI endlich mehr Einblicke in die Multi-Modalen Fähigkeiten von GPT-4 gegeben hat. Die KI kann jetzt nicht nur Text verarbeiten, sondern auch Sprach- und Bildinformationen.

Die Multi-Modalen Funktionen von ChatGPT

Eine der spannenden Neuigkeiten ist die Integration von Sprach- und Bildfunktionen in ChatGPT. Dies bedeutet, dass Benutzer die Möglichkeit haben, mit der KI Sprachkonversationen zu führen und über Bilder zu „reden“. Dies eröffnet völlig neue Möglichkeiten und erweitert die Bandbreite der Anwendungsfälle erheblich.

🗣️ Sprachfunktion:

Mit ChatGPT 4.0 kannst du in einen natürlichen Dialog mit deinem digitalen Assistenten treten. Die KI bietet jetzt fünf verschiedene verfügbare Stimmen zur Auswahl, um die Interaktion noch persönlicher zu gestalten. Du kannst Fragen stellen, um Gute-Nacht-Geschichten zu bitten oder Diskussionen per Sprache führen. Die Sprachfunktion bietet eine menschenähnliche Kommunikation, die deine Erfahrung auf eine neue Ebene hebt.

🏞️ Bildfunktion:

Die Integration von Bildfunktionen eröffnet völlig neue Dimensionen der Interaktion mit ChatGPT. Benutzer können nun Bilder mit der KI teilen und darüber sprechen. Dies erlaubt es, Probleme zu lösen, Mahlzeiten zu planen oder komplexe Grafiken mithilfe von Bildern zu analysieren. Die mobile App bietet sogar ein Zeichenwerkzeug, mit dem bestimmte Bildbereiche hervorgehoben werden können, um die visuelle Kommunikation zu verbessern.

Wie aktiviere ich die GPT-4 Multi-Modal Funktion?

Die guten Nachrichten sind, dass die erweiterte Multimodalität von ChatGPT bereits verfügbar sind. Die Sprachfunktion steht sowohl auf iOS als auch auf Android zur Verfügung und kann einfach in den Einstellungen aktiviert werden. Die Bildfunktion funktioniert auf allen Plattformen.

Inspirierende GPT-4 Experimente
aus der Twittergemeinde

Dall.E 3 in ChatGPT – First test

Mindblowing, this is next level!🤯#DALLE3 pic.twitter.com/slKEvw8gy7
— Anu Aakash (@anukaakash) October 4, 2023

Komponiere Bilder gemeinsam mit ChatGPT

Anu Aakash arbeitet mit ChatGPT zusammen und nutzt dabei die Bildfunktion, die durch DALL-E ermöglicht wird. Ihr Experiment beginnt damit, dass sie ein Prompt erstellt, um einen Mann zu beschreiben, der ein Banner in seinen Händen hält. Auf diesem Banner soll der auffällige Schriftzug stehen: „OMG, Look what I got!“.

In einem iterativen Prozess beginnt Anu dann, die Farben und den Inhalt des Banners zu verfeinern. Sie experimentiert mit verschiedenen Farbpaletten und Schriftarten, um sicherzustellen, dass die Botschaft des Banners optimal zur Geltung kommt. Sie passt auch die Größe und Platzierung des Banners an, um sicherzustellen, dass es im Gesamtbild harmonisch wirkt.

Während sie mit ChatGPT zusammenarbeitet, nutzt sie die Multi-Modale Funktionen, um Ideen zu generieren und Feedback zur visuellen Gestaltung zu erhalten. Dies ermöglicht es Anu, das Bild nach und nach zu perfektionieren und sicherzustellen, dass es genau ihren Vorstellungen entspricht.

Dieses kreative Zusammenspiel zwischen Anu und ChatGPT zeigt, wie leistungsstark Generative KI wie DALL-E in der Lage sind, die künstlerische Gestaltung von Bildern und Texten auf ein völlig neues Niveau zu heben. Anus Fähigkeit, die Funktionen von DALL-E zu nutzen, eröffnet ihr eine Welt der künstlerischen Möglichkeiten und ermöglicht es ihr, ihre Vorstellungen auf beeindruckende Weise zum Leben zu erwecken.

🤯 Create your custom logos with this simple prompt for Dall•E 3; the results are incredible! 👇

📃 An esports neon logo of a [subject description] | the text [TEXT] is under the logo

🤖 Describe the main subject of your logo and add the text you desire.

✨ You can draw… pic.twitter.com/2FmhoQONcp
— TechHalla (@techhalla) October 4, 2023

Gestalte Logos mit deinem Design Assistenten

Nutze Dall•E 3, um deine eigenen Logos zu gestalten! Logodesign war noch nie so unkompliziert. Hier ist, wie das innovative Tool funktioniert:

Gib einfach eine Anleitung wie „Ein Esport-Neonlogo von [Beschreibung des Motivs] | der Text [TEXT] befindet sich unter dem Logo“ ein, und Dall•E 3 nutzt Künstliche Intelligenz, um deine Ideen zu verwirklichen.

Beschreibe einfach das Hauptmotiv deines Logos, sei es ein Drache, eine futuristische Stadt oder eine Galaxie, und füge den gewünschten Text hinzu, um deine Botschaft oder Markenidentität zu vermitteln.

Omg I'm blown away! 🤯

GPT-4V is an incredible product design partner! I gave it a mockup of my site & asked for feedback.

It was able to suggest tweaks to type, layout, content, and more.

What an awesome way to pair on solo projects together or if you're learning the craft! pic.twitter.com/EujmjwG7nA
— Ammaar Reshi (@ammaar) October 4, 2023

Erstelle Benutzeroberflächen mit deinem UI-Designer Companion

Ammaar Reshi hatte das Vergnügen, mit GPT-4V zu arbeiten, und stellte fest, dass es sich als unverzichtbarer Partner für die Produktgestaltung erwiesen hat. Er präsentierte GPT-4V ein Mock-up seiner Website und bat um Feedback zu verschiedenen Aspekten.

Was ihn besonders beeindruckte, war die Fähigkeit von GPT-4V, Vorschläge zur Verbesserung in verschiedenen Bereichen zu machen, einschließlich Typografie, Layout, Struktur des Inhalts und mehr. Dies bedeutet, dass GPT-4V eine fantastische Unterstützung sein kann, egal ob Sie an einem Solo-Projekt arbeiten und nach Expertenrat suchen oder sich im Bereich Design noch in der Lernphase befinden.

Dank seiner aufschlussreichen Empfehlungen hilft GPT-4V nicht nur dabei, das Design zu verfeinern, sondern dient auch als Bildungswerkzeug für diejenigen, die ihre Designfähigkeiten verbessern möchten. Ob also ein erfahrener Designer oder ein Anfänger, GPT-4V kann Designprojekte erheblich aufwerten und sie polierter und effektiver gestalten.

This is the first GPT-4V-powered agent.

Autonomously designs webapps — writes code, looks at the resulting site, improves the code accordingly, repeat.

Absolutely wild. pic.twitter.com/oTAVW2tEil
— Matt Shumer (@mattshumer_) 28. September 2023

Programmiere mit deinem Pair Programmer & Code Reviewer

Matt Shummer beschreibt eine bemerkenswerte Anwendung von GPT-4V. ChatGPT erstellt eigenständig ein Design für eine Webanwendungen – und schreibt den Code dazu.

Das Beispiel zeigt die Möglichkeit wie ChatGPT Webanwendungen eigenständig gestalten kann, was bedeutet, dass es Code generieren kann, um eine Website zu erstellen. ChatGPT überwacht dann die erstellte Website, analysiert sie und verbessert den generierten Code, um die Leistung und das Aussehen der Website zu optimieren.

Dieser Vorgang wird wiederholt, was bedeutet, dass die Anwendung kontinuierlich daran arbeitet, die erstellten Webanwendungen zu verfeinern und zu verbessern.

You can give ChatGPT a picture of your team’s whiteboarding session and have it write the code for you.

This is absolutely insane. pic.twitter.com/bGWT5bU8MK
— Mckay Wrigley (@mckaywrigley) September 27, 2023

Dein Schweizer Messer für Rapid Prototyping

In seinem Test, zeigt Mckay Wrigley wie ChatGPT mit einem Foto eines Flow-Charts, nicht nur Text, sondern auch visuelle Informationen zu verstehen und damit zu arbeiten.

Die potenziellen Auswirkungen davon sind echt beeindruckend, denn es könnte den Softwareentwicklungsprozess optimieren und das Programmieren für eine breitere Palette von Leuten zugänglich machen – sogar für diejenigen, die nicht über umfangreiche Programmierkenntnisse verfügen.

Noch mehr GPT-V4 Inspirationen?

Think you've seen the best of ChatGPT Vision/GPT-4V?

Think again.

Here are 12 more reasons why it's revolutionary:🧵 pic.twitter.com/QYARGQnvKx
— Bryan Marley (@_bryanmarley) October 10, 2023

Can GPT-4 code an entire game for you? Yes, yes it can.

Here's how I recreated a Snake game that runs in your browser using Chat GPT-4 and @Replit, with ZERO knowledge of Javascript all in less than 20 mins 🧵 pic.twitter.com/jzQzSRIkfz
— Ammaar Reshi (@ammaar) March 14, 2023

I just watched GPT-4 turn a hand-drawn sketch into a functional website.

This is insane. pic.twitter.com/P5nSjrk7Wn
— Rowan Cheung (@rowancheung) March 14, 2023

Lots of tweets about GPT-4 in the last 8 hours.

Here is a thread highlighting some of the interesting examples, tricks, and discussions I've come across ↓
— elvis (@omarsar0) March 15, 2023

Twitter ist eine großartige Quelle für KI-Inspirationen und Neuigkeiten. Du hast kein Twitter Account oder nutzt es nicht aktiv?
Nutze eine Suchmachine wie Google und suche nach

"inurl:twitter.com chatgpt 4 examples"

Oder nutze diesen Suchlink, um noch mehr GPT-V4 Inspirationen zu explorieren.

Was bedeutet das für die Zukunft?

Die Multi-Modalen Funktionen von ChatGPT 4.0 sind definitiv ein großer Schritt nach vorne in der Welt der KI-Interaktion. Wer hätte gedacht, dass du eines Tages mit deinem Computer sprechen und ihm Bilder zeigen könntest? Das ist, als würden wir uns in die Zukunft beamen! Wir sind gespannt darauf, wie diese Technologie unser Leben in Zukunft beeinflussen wird. Also, bleib dran und halte die Augen nach weiteren spannenden Entwicklungen offen!

OpenAI hat verkündet, dass sie diese Funktionen nach und nach einführen werden – vermutlich, weil sie sicherstellen wollen, dass die KI nicht plötzlich die Weltherrschaft übernimmt (obwohl das vermutlich ziemlich cool wäre). Also, wenn du diese neuen Spielereien noch nicht auf deinem Gerät siehst, keine Sorge! Mach dir eine Tasse Tee und entspanne. OpenAI arbeitet daran, sie bald für alle verfügbar zu machen, und in der Zwischenzeit kannst du ein bisschen Dampf ablassen. (Ich habe es immer noch nicht 😭!!! Nachtrag 11.10.2023 Ich habe es eeendlich auch freigeschaltet bekommen 🥰)

Du hast erst deine Reise in die KI-Welt begonnen?
Starte doch mit den Grundlagen zu Large Language Modellen (LLM). Mit Beispielen und kurzen Animationen, erleichtert der Artikel dir die ersten Konzepte und Anwendungsfelder von LLMs.

ChatGPT-4 Vision Twitter-Fundstücke