Im Zentrum des Gesprächs stand die neue Galaxy-S25-Reihe von Samsung. Es wurde eine neuartige Privacy-Funktion vorgestellt, die Inhalte bei seitlicher Betrachtung im Display schwärzt, um die Privatsphäre zu wahren. Parallel dazu wurden die gestiegenen Preise für die neuen Geräte und die fallenden Preise für ältere Modelle thematisiert.
Vorstellung und Samsung Galaxy-S25-Reihe
00:00:0000:00:00 Hallo zusammen. Ja, herzlich willkommen beim Bitflipp-Podcast dieses Mal live. Ihr seid wahrscheinlich über Chat schon dabei, glaube ich zumindest. Ja, ich glaube, ich mache den Chat mal auch parallel auf. Ich habe ansonsten den Chat auch hier bei, dann bin ich quasi Moderator und Podcast mit Bewohner. Genau, wir hatten diese Woche ein kleines terminliches Problem, weil ich Montag, Dienstag noch das Video fertig bekommen musste.
00:00:26 Was jetzt gerade geschnitten wird und es ist ein bisschen mehr Aufwand gewesen, deswegen hat es bei mir einfach zeitlich nicht gereicht für die Aufnahme, die wir normalerweise immer munter kam. Und Marius ist ja gerade sowieso irgendwie weg. Ich glaube, San Francisco? Ja, ich habe gesehen, der war auf dem Samsung-Event, wenn ich es richtig gesehen habe. Weil die haben die neuen Galaxy-Geräte, glaube ich, vorgestellt. Ja, das habe ich gesehen tatsächlich.
00:00:50 Ich habe den Mothria debugged und Mothria ist ja quasi eine Nachrichtenquelle und dort waren sehr, sehr viele Sachen über Samsung dabei. Ja, meine ganze YouTube-Startzeit ist heute voll mit Galaxy Anpacked. Hast du mitgekriegt, was die machen wollten?
00:01:08 Was meinst du, was sie machen wollten? Also was Neues quasi bei den ganzen Sachen. Also ich glaube so das wichtigste Feature und ich finde es irgendwie, irgendwie finde ich es geil, aber für mich wahrscheinlich nicht so wichtig. Es gibt ja diese, also ich glaube das größte ist diese Privacy-Funktion. Ja, es gibt ja diese.
00:01:30 Das ist halt gerade, wenn du halt irgendwie viel öffentliche Verkehrsmittel oder sowas hast. In der Bahn unterwegs bist. Genau, in der Bahn unterwegs bist. Gibt es ja auch für Laptops, dass du dir so eine Privacy-Folie aufs Display draufklebst. Es gibt ja auch so Panzerglas-Folien, aber dass du halt von der Seite nicht drauf gucken kannst. Genau. Und die haben praktisch, also erstmal ist die Qualität von denen oftmals nicht so gut, glaube ich, weil... Ich fand meins eigentlich ehrlich gesagt bisher immer ganz gut. Also ich hatte so eins sehr, sehr lange. Und...
00:01:58 Dann irgendwann habe ich, also beim neuen Handy habe ich jetzt einfach nichts drauf gemacht, weil ich in der Bahn normalerweise nichts mache, was irgendwie sensibel sein könnte. Zumal das große Ding bei diesen Privacy-Folien und auch, glaube ich, bei den Samsung-Geräten, bei den neuen, ist, wenn du frontal drauf guckst, siehst du alles. Wenn du von der Seite drauf guckst, siehst du es halt nicht.
00:02:17 Aber wenn du von schräg oben drauf guckst, siehst du es ja immer noch. Das heißt, wenn quasi jetzt jemand so hinter dir einen Sitz nach oben dann so rüberlinzt, dann sieht er das. Ja, aber da halt einfach in der U-Bahn, es sind ja auch oft Viererplätze, das heißt, du sitzt halt einfach mit deinem Telefon auf dem Schoß und jemand, der gegenüber sitzt, kann halt trotzdem drauf gucken. Ich weiß nicht, wie es bei den Samsung-Geräten ist, aber was ich halt dort ziemlich beeindruckend finde, dass es halt erstmal in die Hardware eingebaut ist, also wirklich im Displaypanel, das ist nicht irgendwie so ein Paypanel. Das ist keine einfache Displayfolie.
00:02:45 Genau, sondern das ist halt wirklich...
00:02:48 in den Pixeln drin und es kann segmentiert aktiviert werden. Das heißt, du kannst zum Beispiel sagen, die Benachrichtigungen, die werden halt immer geschwärzt. Das heißt, jemand kann zum Beispiel von der Seite drauf gucken und dann bekommst du eine Benachrichtigung, keine Ahnung, von deinem Tinder-Date oder keine Ahnung, du willst es nicht, dass jemand sieht. Und dann kommt halt für die Person, die halt von der Seite drauf guckt, taucht dann einfach so ein dunkler Balken auf.
00:03:17 Und es geht halt auf Pixelebene. Das finde ich schon ziemlich beeindruckend, weil gerade auch sowas wie...
00:03:23 Keine Ahnung, du machst deine Banking-App auf und dann willst du halt nicht, dass irgendwie, oder wenn du irgendwie ein Passwort eingibst, dass dann praktisch die Tastatur ausgeblendet wird und das Passwort-Symbol. Das ist mega lustig, weil man das halt einfach immer für die App draufhast. Das ist halt geil. Genau, du kannst halt für bestimmte Apps einstellen oder für bestimmte Funktionen in den Apps, dass eben zum Beispiel, wenn du halt ein Passwort eingibst, dass einmal das Passwortfeld dunkel ist und halt auch die Tastatur, damit man halt nicht an deinen Fingern sehen kann, wo du jetzt hintriffst. Also könntest du vielleicht irgendwie schon irgendwie ausrechnen.
00:03:53 Aber du siehst halt nicht, welche Taste exakt gedrückt wird. Also ich finde das eigentlich ziemlich spannend. Ich meine, Samsung traut sich ja immer mal wieder solche Funktionen einzubauen, was ich ganz cool finde. Und wenn sich das durchsetzt, dann wird es natürlich auch nicht lange dauern, bis andere Firmen... Bis es quasi normal wird, ja. Genau, bis es normal wird. Und das wäre eigentlich so eine Funktion, die hätte ich eher so von Apple erwartet. Ja.
00:04:20 Das hört sich wirklich aus einer Apple-Funktion an. Aber wenn sich das durchsetzt, dann kann ich mir gut vorstellen, dass sowas ähnliches auch in irgendeiner anderen Form in iPhones reinwandert, weil die meisten iPhone-Panels werden ja sowieso von Samsung gefertigt. Ja, tatsächlich. Also ich glaube nicht, dass es, also wenn es gut ankommt, wird es kein so Nischending bleiben. Und eigentlich ist es ja nur eine logische Weiterentwicklung von halt, das Display wird ein bisschen besser. Du hast ja keine Nachteile davon. Wenn es dir nicht gefällt, machst du es halt einfach aus.
00:04:48 Genau. Dementsprechend ist es einfach ein extra Feature quasi, was einfach on top kommt. Und ich finde das schon ziemlich nützlich irgendwie, weil davor hast du dir halt immer so eine extra Folie kaufen müssen. Aber ich bin ehrlich, jetzt extra dafür mehr Geld bezahlen würde ich nicht. Und das ist halt so der nächste Punkt gewesen, dass es ja schon stark teurer ist als das, was bisher war. Sind die Preise nach oben gegangen? Ja, ich glaube 150 für das Base-Modell. Das weiß ich jetzt aber nicht mehr auswendig.
00:05:17 Was habe ich gerade nicht? Ich kann es aber kurz nachgucken. Gut, man muss ja schon sagen, dass die Samsung-Geräte jetzt nicht so preisstabil sind. Also du musst ja jetzt nicht irgendwie lange warten, um einen besseren Preis zu bekommen. Die Preise bei den Samsung-Galaxy-Geräten, die fallen ja schon ziemlich schnell. Klar, du musst halt einen vollen Preis bezahlen, wenn du halt sagst, ich brauche das jetzt sofort. Aber wenn du ein paar Monate warten kannst, dann dauert es nicht lange, dass du wirklich einen deutlichen Rabatt bekommst. Also das ist ja...
00:05:46 Keine Ahnung, bei iPhones putzen die Preise auch mal, weil jetzt bei dem iPhone Air sind, glaube ich, die Preise schon ziemlich eingestürzt. Ich glaube, das kriegst du teilweise jetzt sogar günstiger als das Basis-iPhone 17.
00:05:58 Obwohl es natürlich eigentlich teurer sein sollte. Aber bei den Samsung-Geräten ist ja der Preiseinbruch deutlich massiver. Ja, also halt über die Zeit. Ich habe jetzt gerade mal nachgeguckt. Also beim Launch waren die ganzen Geräte wohl, abgesehen vom Ultra, 100 Euro günstiger als mit dem S25. Das S26 ist jetzt mit dem Standardmodell bei 900 Dollar wohl. Das S25 war bei 800 und das Plus war bei...
00:06:26 1000 und ist jetzt bei 1100 und das Ultra bleibt bei 1300. Ja. Oh gut, das ist ja normal. An sich finde ich es einen guten Change. Also an sich ist es super.
00:06:41 Ja. Genau. So, eigentlich wollten wir über was ganz anderes reden. Eigentlich war ich mal ganz kurz eingeworfen, weil das quasi, das ist wo jetzt gerade Marius ist. Wir sind ja normalerweise zu dritt beim Podcast. Und... Da kann es wahrscheinlich dann nächste Woche, wenn er zurück ist, dann können wir da nochmal einen Detalk drauf machen. Genau. Ich weiß gar nicht, ist der nächste Woche schon wieder da? Ich weiß nicht, ob der sich mit einem Urlaub kombiniert, aber spätestens, wenn er wieder zurück ist, weil der hat die Geräte dann wirklich in der Hand gehalten. Ja, genau. Also er macht dann den Außendienstmitarbeiter quasi. Ja.
Die Revolution der Softwareentwicklung durch KI
00:07:1000:07:10 Ich habe auch schon auf Instagram ein Selfie von ihm gesehen mit dem Samsung CEO. Easy. Der sitzt halt direkt an der Quelle dran. Klar, perfekt. Eigentlich wollten wir ja über so ein bisschen Entwicklung reden. IT hat sich momentan ordentlich verändert und deswegen ist es auch, glaube ich, ganz nützlich, dass wir super praktisch, dass wir das heute live machen, weil so können wir auch einfach gucken, was die Meinung von euch ist. Also quasi, wenn ihr da einfach mal...
00:07:36 Schreibt, ich habe beide Chats offen. Heute spinnt irgendwie der Restream-Chat. Deswegen, ich habe hier beide Chats offen. Und ihr dürft uns einfach eure Meinung jederzeit schreiben. Und ich werde es dann einfach mit einfließen lassen.
00:07:48 Wir sind ja beide Softwareentwickler, eigentlich. Beziehungsweise ich komme mehr aus der Security, aber trotzdem Softwareentwicklung mache ich auch. Und du bist Apple App Entwickler? Genau, das war es ja lange gemacht. Also ich werde nicht mehr dafür bezahlt, aber genau, es war halt mein Vollzeitjob. Schön eigentlich gesagt. Für meine Entwicklung werde ich auch nicht mehr so wirklich bezahlt. Das ist ja alles irgendwie so nebenbei geworden.
00:08:16 Man wird jetzt irgendwie für seinen Idealismus auf YouTube bezahlt. Ja. Aber, ich meine, unser Workflow hat sich extrem gewandelt. Also meiner zumindest. Und ich glaube, da müssen wir einmal ganz kurz drüber reden. Wir haben ja schon öfters mal drüber geredet. Ich habe jetzt, beziehungsweise letzte Woche mit euch ja auch im Stream, drüber gesprochen oder mit euch OpenCode ausprobiert. OpenCode, CloudCode, Codex, haben wir ja schon alles mal ausprobiert zusammen.
00:08:45 Und die Tools, vor einem Jahr tatsächlich ungefähr sind die rausgekommen. Also es war sogar ein bisschen weniger als ein Jahr. Und ich könnte mir mittlerweile keine Softwareentwicklung mehr ohne diese Tools vorstellen. Ich glaube, es war April. Irgendwie sowas.
00:09:00 Also, dass es so wirklich gut wurde, Mitte letzten Jahres, würde ich sagen. Ja, das auf jeden Fall. Also wirklich gut wurde es später. Mittlerweile kannst du die Dinger fast alles machen lassen. Ich meine, im Endeffekt ist auch OpenClaw eigentlich nur ein extrem glorifiziertes und nochmal stärker gemachtes Cloud-Code, wenn du so möchtest. Ich habe auch tatsächlich...
00:09:23 einen Experimenten-Server, also ich habe das schon mal gemacht in einem Experiment, dass ich quasi in der KI meinen Server administrieren lassen habe. Und ich habe das jetzt tatsächlich nochmal probiert und habe mir quasi einen neuen Server geholt und habe einfach mal die KI administrieren lassen. Und wirklich, es funktioniert einfach viel zu gut. Es ist gruselig, wie gut das klappt.
00:09:43 Also ich gebe dann quasi einfach den Key, hey, hier ist der Key, mach mal. Und dann lässt du das Ding einfach machen, guckst danach drüber und denkst dir so, ja, das ist cleaner als das, was ich gemacht hätte. Auch bei Code mittlerweile. Das ist irgendwie, also sie macht viele Fehler, versteht mich nicht falsch. Aber sie macht weniger Fehler als ich, wenn ich selber machen würde. Ich finde es halt, ich setze halt momentan Projekte um, die
00:10:14 die ich mit KI nicht einfach nur schneller mache, sondern ich mache sie überhaupt. Ich habe halt einfach nicht die Zeit, so viel zu machen, aber es gibt halt immer irgendwie eine App oder irgendein kleines Helferlein-Tool, was ich bauen möchte.
00:10:30 Und das geht halt mit KI deutlich einfacher. Ich habe zum Beispiel, ich habe für so eine Voice-to-Text-App, habe ich auf dem Mac eine Zeit lang bezahlt. Da habe ich halt einfach so eine kleine, so ein Widget, das fliegt immer auf meinem Screen rum. Und dann, wenn ich da draufklicke, dann kann ich halt einfach in mein Mikrofon reinsprechen, Headset oder sonst irgendwas. Und es wird aufgenommen und super schnell transkribiert. Und es wird automatisch dort reingepastet.
00:10:56 wo mein Cursor gerade ist. Das hilft mir zum Beispiel massiv bei der Arbeit mit KI, weil ich halt deutlich mehr ausschweifen kann, deutlich mehr ins Detail gehen kann, also wirklich einfach mal meine Gedanken fließen lassen kann. Ich spreche einfach ins Mikrofon und am Ende wird dann halt daraus ein Prompt und da reingeschickt. Und an einem Tag, weil ich habe in letzter Zeit so ein bisschen Internetprobleme zu Hause, ging das nicht mehr und
00:11:25 Ich war richtig genervt und dann habe ich mir gedacht, diese Modelle, die können doch auch lokal laufen. Warum muss das jetzt irgendwie, was ich gesagt habe, aufgenommen werden und da hochgeschickt? Dann habe ich mich zwei Stunden hingesetzt und habe praktisch die Kernfunktion dieser App nachgebaut.
00:11:41 Und es läuft komplett lokal. Also es basiert halt einfach auf Whisper. Du kannst halt deine eigenen Modelle, also das Modell halt auswählen, was halt für dich am besten passt. Bisschen größer, dafür akkurater oder ein bisschen kleiner, schneller, aber halt ein bisschen inakkurater. Und ich habe es halt einfach nachgebaut. Und auch hätte ich das manuell gemacht, hätte ich das natürlich auch irgendwie hinbekommen. Das ist halt eine native Mac-App. Und da irgendwie eine UI draufzubauen, das hätte ich auch hinbekommen.
00:12:08 Aber ich hätte halt deutlich länger gebraucht und ich habe halt einfach nicht die Zeit dafür. Und mit zwei Stunden Arbeit reinstecken meine ich nicht, dass ich zwei Stunden wirklich aktiv nur das gemacht habe, sondern das lief halt einfach nebenher. Ich habe halt einen Promet reingemacht, habe die KI irgendwie arbeiten lassen und habe dann in der Zeit irgendwas anderes gemacht. Ich hätte locker irgendwie einen Tag oder sowas, damit es funktioniert, hingebaut. Aber ich habe halt noch so kleine Animationen und so eingebaut, für die...
00:12:35 selbst keine Zeit hätte und die KI hat das dann halt einfach für mich gemacht. Also dieses, nicht nur, dass es schneller geht, sondern das Projekt, ich hätte es nie umgesetzt. Ich hätte es wahrscheinlich einfach weiterhin für die andere App jeden Monat mein Abo bezahlt. Und jetzt benutze ich halt meine eigene App und die läuft lokal. Brauche ich kein Internet, wenn ein Internet ausfällt, läuft es trotzdem. Aber das ist wild einfach. Wenn du das einfach lokal machen kannst, dann musst du halt einfach dafür nicht mehr zahlen. Dann musst du halt einfach nur quasi deine Rechenleistung so ein bisschen hergeben, dann war es das.
00:13:03 Ja, aber das ist ja so effizient, das macht halt gar nichts. Und das läuft ja nicht permanent, sondern nur, wenn ich halt gerade was reingesprochen habe und dann dauert es ein paar Sekunden und das komplette Transkript ist da mit Punkt, Komma und Fragezeichen und alles. Das ist halt das Beeindruckende. Also ich meine, ich habe mittlerweile, ohn Scheiß, bei mir laufen in diesem Moment gerade, ich glaube, das sind, warte, lass mich kurz nachgucken, ich will euch jetzt hier keine Scheiße erzählen. So, es laufen gerade.
KI als Partner im Entwicklungsprozess
00:13:3100:13:31 25 Worker für eine Sache, da komme ich gleich dazu. Hier läuft noch ein Worker im Hintergrund, der was implementiert. Da läuft ein Review und da läuft, ah, der ist fertig. Okay, nevermind. Den zähle ich nicht mehr, der ist gerade durch. Den müsste ich jetzt theoretisch nochmal neu anschubsen. Ich meine, das sind halt Sachen, die kannst du quasi, also Entwicklung muss man ja in Anführungsstrichen mittlerweile sagen.
00:13:57 Das sind halt Sachen, die du davor nicht machen konntest. Und das Einzige, was dich gerade aktuell limitiert, ist gefühlt, dass es halt nicht immer richtig ist und dass es halt Fehler hat. Ja, aber jetzt mal ganz ehrlich.
00:14:09 Ich mache genauso Fehler. Ganz ehrlich, davor, ich meine, wir haben immer mit, ich meine, in jeder Firma, an der ich gearbeitet habe, also ich habe halt, ich habe nie in einer Agentur gearbeitet, sondern halt bei Product Companies, also irgendeine Firma und die hat halt, entweder war die App an sich das Businessgeschäft oder das war halt einfach nur ein Teil. Und in jeder Firma, wo ich gearbeitet habe,
00:14:35 gab es eine QA-Abteilung. Ich habe ja selbst früher mal als QA zwei Jahre lang gearbeitet, bevor ich dann Selbstentwicklung angefangen habe. Das heißt, einfach nur zum Reviewen. Review, Sachen testen, automatisierte Tests programmieren oder halt einfach irgendwie selbst...
00:14:54 rumklicken und halt einfach versuchen, irgendwas kaputt zu machen. Also, wenn Entwickler, und da waren auch sehr, sehr viele erfahrene Entwickler, mit denen ich zusammengearbeitet habe, und trotzdem gab es einen Grund, wieso man Leute dafür bezahlt, einfach nur alles zu testen. Weil die halt auch Fehler gemacht haben. Absolut. Ich meine...
00:15:15 Das ist quasi der gesamte Job von Security. Wenn du keine Fehler machen würdest, dann bräuchtest du keine Security-Abteilung mehr. Dementsprechend, eigentlich ist das Ganze eine dauerhafte Fehler-Minimierungsaktion. Und was ich jetzt mittlerweile mache tatsächlich ist, also ich will da tatsächlich noch ein Video machen. Das ist eins der wenigen Videos, die ich jetzt dieses Jahr auf dem Tutorials-Kanal sogar machen will.
00:15:41 Ich habe eine Art Mechanismus entwickelt, dass ich quasi einfach mal Reviews mache und die dann automatisch wieder fixen lassen. Ich stelle das dann detailliert noch vor. Aber das funktioniert erstaunlich gut, einfach zu sagen, okay, also egal, was man übrigens macht, nicht nur, dass man was programmieren lässt, sondern zum Beispiel diese 25 Worker, die ich hier genannt habe, die übersetzen die Artikel von Morphreader in andere Sprachen. Also ich habe jetzt mittlerweile 13 Sprachen und die übersetzen einfach die Artikel von Deutsch in...
00:16:11 Englisch, Französisch, Japanisch, Koreanisch, Arabisch, Französisch habe ich gesagt, Italienisch und noch keine Ahnung wie viele andere Sprachen. Das sind wirklich viele. Und die laufen einfach im Hintergrund bei mir auf dem System halt durch. Nicht mit einem lokalen Modell, weil so stark ist es dann doch nicht. Und ich habe jetzt schon 26,6 Grad hier drin. Ich kriege die Wärme nicht raus. Dementsprechend würde ich das nicht überleben. Aber ja, können wir gleich noch darüber reden wegen den Modellen.
00:16:39 Aber das finde ich, das ist halt ein Unterschied zu dem, was noch vor einem Jahr war, der krasser eigentlich für mich nicht sein könnte. Weil vor einem Jahr war es wirklich so, alles, was ich entwickelt habe in dem Sinne, habe ich wirklich manuell durchgelesen und dann nochmal überprüft. Und mittlerweile lasse ich entwickeln, dann reviewen, dann wieder fixen, dann reviewen, dann wieder fixen, solange bis die KI sagt, es ist gut genug. Und dann gucke ich drüber.
00:17:07 Und in den meisten Fällen ist danach halt nichts mehr, was ich zu beanstanden habe. Also wirklich in, ich glaube... Aber schaust du dir wirklich den Pull-Request an und schaust dir dann den Code an? Ich arbeite meistens so, dass ich quasi implementieren lasse und dann ist der Code halt noch uncommitted. Und dann schaue ich mir den Commit an. Okay, was ja im Prinzip das Gleiche ist. Du schaust dir halt den Diff an. Genau, ich schaue mir halt den Diff an. Weil eine Sache, die so ein bisschen...
00:17:36 die so ein bisschen verändert hat, sagen wir mal, in der ganz normalen manuellen Entwicklung, achtet man halt darauf, dass Pull-Requests nicht zu groß werden. Weil kein Mensch kann das reviewen. Deswegen arbeitest du halt wirklich so in kleinen Aufgaben, machst halt kleine Commits und versuchst halt auch ...
00:17:55 dass kein Entwickler reviewt gerne einen massiven Pull-Request, weil du halt einfach diese ganzen Abhängigkeiten und so weiter, du kannst halt nicht alles irgendwie verstehen, was da gerade passiert. Aber bei der Entwicklung mit KI ist es halt irgendwie ...
00:18:10 durch das, dass es so schnell geht, lässt du halt irgendwie fünf Sachen gleichzeitig abarbeiten und dann ist halt die Codeänderung massiv. Also, dass du es halt manuell reviewen kannst, ist dann halt auch wieder genauso schwierig. Das heißt, du brauchst dann wieder eine zweite KI, die praktisch dir das alles mal zusammenfasst und guckt, dass das alles schon so die Richtigkeit hat.
00:18:31 Nein. Also das Ding ist, ich versuche wirklich nur eine Sache pro Commit zu ändern. Aber du hast normalerweise einen relativ großen Initialen-Commit. Ich probiere gerade tatsächlich noch was Neues aus. Also jetzt sehen wir mal an, du hast einfach ein Projekt, in dem du arbeitest, von Haus aus quasi. Und du kommst dann neu ins Projekt rein. Dann würdest du auch nicht den gesamten Code kennenlernen, sondern du würdest halt immer nur die Codeänderung, nachdem du reinkommst, kennenlernen. Und ich versuche tatsächlich so ein bisschen, erstmal eine...
00:19:00 voll funktionsfähige Code-Basis aufzubauen und dann rauszufinden, was funktioniert da tatsächlich nicht. Also quasi dann die jeweiligen Ecken reviewen, die ich normalerweise auch reviewen würde und dann die zu fixen und dann ist es halt eine relativ einfache Sache, weil dann musst du nicht den gesamten Code kennen, sondern wirklich nur das, was du dir normalerweise auch angucken würdest. Habe ich noch nicht live, also das ist noch nicht so passiert, aber das versuche ich gerade so ein bisschen zu machen.
00:19:23 Ich habe ein paar Bash-Scripter mittlerweile, die mir automatische Issues extrahieren aus Code. Und welche, die mir quasi automatisch einfach den Code schreiben. Auch mit Review und allem drum und dran. Und das ist, also, was für mich irgendwie...
00:19:41 Das Brutale ist, wie sich die Rolle geschiftet hat. Also jetzt vor einem Jahr habe ich noch gesagt, okay, ich gucke mir genau alles an, weil ich mich nicht darauf verlassen kann, dass die KI wirklich was tut. Mittlerweile findet die KI Sachen, wo ich sagen würde, okay, das hätte ich nicht mal in der eigenen Review gesehen. Und da weiß ich dann schon, okay, meine Grenzen sind offensichtlich niedriger als die Grenzen, die von der KI kommen. Also nicht nur, dass der Code natürlich aufgeräumter ist.
00:20:11 Ich weiß nicht, wer wirklich Code von mir schon mal gelesen hat, der ist selten ausgeräumt. Das kennst du wahrscheinlich. Ja, ich wurde halt immer dafür bezahlt, deswegen muss der, ich habe halt wirklich mit Leuten in einem Team zusammengearbeitet. Da gab es dann halt einfach Guidelines. Also meine privaten Projekte sehen auf jeden Fall anders aus als die Projekte, in denen ich jetzt...
00:20:33 Aber selbst der Code, für den ich bezahlt wurde, sah nicht so ordentlich aus wie der, den ich jetzt hier habe. Also zum Beispiel jetzt, ich habe ein Stück Python-Code nochmal editieren lassen von KI und ich habe nicht nur einfach eine Variable und darüber einen Comment, das erklärt, was diese Variable tut. Nee, es hat mir einen Field gebaut dafür. Ein Field, was erstmal die Variable definiert und dann unten drunter eine Erklärung, was diese Variable genau tut. Das ist halt normal. Das würdest du halt nicht machen, das dauert halt einfach zu lange. Ich meine, eine Sache,
00:21:03 Was halt auch viele Leute unterschätzen. Man kann jetzt vielleicht nicht immer sagen,
00:21:08 Ich komme jetzt in die Firma rein, da ist eine riesen Codebase, das ist vielleicht auch ein bisschen zu viel Kontext aktuell, um das in so ein Model irgendwie reinzuquetschen. Viel Arbeit in der Entwicklung sind auch irgendwelche Prozesse zu automatisieren, den Release-Prozess zum Beispiel. Ich habe es ja gerade angesprochen, diese Voice-to-Text-App, die ich gebaut habe. Habe ich mich diesmal dazu entschlossen.
00:21:37 sie nicht im Mac App Store hochzuladen, sondern man kann sie sich halt einfach so holen. Aber dafür brauche ich ja so einen Update-Mechanismus. Und das geht dann halt auch irgendwie, dass du halt einfach so ein zweites Repository hast, wo dann so eine XML-Datei und so weiter liegt, wo dann halt die App zieht sich dann halt einfach die aktuelle Version, schaut, ist da was Neues und kann sie sich dann automatisch runterladen, entpackt das und startet die App neu und du hast halt das Update. Und
00:22:06 diesen Release-Prozess, den kann man ja automatisieren. Und sowas wird in der Softwareentwicklung. Kein Mensch macht einen Release-Prozess manuell, sondern du versuchst halt immer alles über Continuous Integration und natürlich auch in Continuous Deployment, dass das halt alles über Knopfdruck geht, dass du dann immer noch sagst, okay, ich will diese Versionsnummer haben und dann wird halt das alles im Hintergrund gebaut, die ganzen Schritte. Und bei dem Projekt habe ich dann auch diesen Release-Prozess, habe ich halt in der kürzester Zeit, habe ich das automatisiert.
00:22:35 Also ich habe das beim Morphe, der hat ja ein Backend für, also nicht einfach die App an sich, sondern nur der Premium-Bereich braucht halt sein eigenes Backend, weil da eben der RSS-Feed quasi immer die ganze Zeit generiert wird und alles gemacht wird und übersetzt wird und Sprachen und Kategorien zuweisen und alles Mögliche. Und ich habe tatsächlich...
00:22:57 jetzt die zweite Version vom Backend, also Version 2 tatsächlich, komplett neu from scratch geschrieben. Version 1 war komplett mein Code, also wirklich nur ich geschrieben. Und ich habe da drüber gelesen und dachte mir so, fuck, ist das hässlich. Ich komme nicht klar, ich weiß nicht was. Das war riesiger Spaghetti Code. Es war einfach gewachsen, organisch gewachsen. Es war richtig schlimm. Und jetzt habe ich einfach mit KI das ganze Ding neu geschrieben und habe es halt in einzelne Bestandteile untergliedert. Also wirklich eine richtig geile Pipeline draus gemacht mit richtigen Services.
00:23:26 Und tatsächlich habe ich alles mit GitHub Actions, Workflows und so weiter automatisiert. Das heißt, wenn irgendwas passiert, kann ich einfach pushen. Ich habe mir innerhalb von wirklich zwei, keine Ahnung, ich glaube zwei Stunden, habe ich mir ein Admin-Dashboard schreiben lassen, wo ich jetzt die einzelnen Aufgaben sehen kann, welche Worker sind gerade aktiv. Und ich denke mir so, holy shit, das war halt mehr als das alte...
00:23:52 Backend überhaupt konnte, so insgesamt. Das war, es ist viel, viel mächtiger und das halt in so kurzer Zeit, ohne dass ich wirklich irgendwas machen musste. Ich habe das Backend, das Admin-Dashboard zum Beispiel, habe ich mir einmal angeguckt und habe gesagt, ja gut, was soll ich da noch verbessern dran, das läuft einfach. Und das waren halt alles Dinge, die du davor nicht hattest. Und da ist jetzt halt echt meine Frage so, okay, was passiert dieses Jahr dann? Also,
Zukunft der Programmierung und KI-gestützter Arbeitsabläufe
00:24:2200:24:22 Was letztes Jahr passiert? Was wird dieses Jahr passieren? Ich habe keine Ahnung, was da noch alles passieren kann. Eine Sache ist ja, dass die KI praktisch Code generieren kann. Aber...
00:24:36 Ich meine, du hast ja verschiedene Ebenen. Du hast halt irgendwie, keine Ahnung, Binärcode, dann hast du irgendwie Assembler oder sowas da drüber und dann irgendwas, keine Ahnung, C und dann gibt es irgendwie, keine Ahnung, Swift ist dann in C oder C++ oder sowas. Ja, also ein Kompilator, das möchtest auch in C. Genau. Aber diese ganzen Schichten darüber, die gibt es ja nur, damit es für uns als Menschen komfortabler ist. Ich meine, es gibt ja heute noch Leute, die darüber diskutieren, ob
00:25:04 ob Python besser ist, weil du dort keine Klammern für deine Funktionen brauchst, sondern dass es über Einrückung funktioniert. Oder es gibt Leute, die dann diskutieren, benutze ich jetzt Tab oder Spaces und so weiter. Was ja eigentlich alles komplett egal ist. Ob da jetzt Klammern sind oder nicht, das ist ja einfach eine persönliche Präferenz. Und ich kann mir gut vorstellen,
00:25:28 dass es in Zukunft dann einfach eine eher universellere Programmiersprache geben wird, die halt so optimiert ist, dass eine KI sie im
00:25:39 schreiben kann, wo es dann eigentlich, ich weiß, wenn die Leute eh keinen Code mehr selbst schreiben, sondern das halt einfach eine Programmiersprache gibt, die halt wirklich low level ist und die von der KI dann praktisch benutzt wird. Weiß ich ehrlich gesagt nicht mal, ob das wirklich passieren würde, weil wenn du jetzt eine neue Sprache hast, die die KI lernen muss, die muss ja auch wieder dokumentiert sein, die KI muss die lernen. Aber ich meine, andere Konzepte
00:26:06 Sprachen können ja übernommen werden. Es geht ja dann mehr so um die Syntax, die muss halt nicht für uns leserlich sein. Die ist halt so optimiert, dass praktisch, dass halt auch einfach weniger Tokens benutzt werden müssen. Die ist dann halt einfach so runtergebrochen, dass für einen Mensch ist es halt unleserlich, aber eine KI kann dann praktisch aus sehr wenigen Charaktern
00:26:34 viel informationen raus bekommen ja verstehe das heißt man ja also quasi so maximal optimiert auf effizienz einfach nur dass du halt wirklich sehr schnell sehr viel schreiben dass brain fuck basically genau aber halt auch ziemlich low level so dass es halt sehr performant ist der brain fuck ist glaube ich also kombiniert direkt in c okay rein fact ist quasi ein c dialekt und so möchtest weiß nicht ob ich da so fan von wäre ehrlich gesagt
00:27:03 Ich meine, es ist ja nicht so der universelle Anwendungsfall, aber dass es halt sowas geben wird. Ich meine, ich sehe jetzt auch nicht das Problem.
00:27:11 Aber dann hast du genau das Problem, dass du überhaupt keine Möglichkeit mehr hast, als Mensch das nochmal zu reviewen. Ja, aber wenn die Leute sich den Code eh nicht mehr angucken. Aber dann bist du 100% abhängig von der KI, dass sie den Code nochmal sieht. Also dann kannst du nie wieder zurückgehen zu einem menschlichen Entwickler. Verstehst du, was ich meine? Ja. Also wenn du jetzt dann irgendwie sagst, okay, wir verlassen uns mit unserer gesamten Infrastruktur drauf, dass jetzt, keine Ahnung, in meinem Chat schreiben gerade ein paar Leute Binärcode geschrieben wird von KI.
00:27:40 Also, nehm dir einfach mal an, die KI kann das, die lernt das dieses Jahr, weil sie nochmal einen Brain Boost bekommt oder sowas. Dann bist du als Mensch danach völlig davon abhängig, dass die KI ihren eigenen Code erstellt. Ja.
00:27:57 Ich meine nicht, dass es jetzt praktisch in jedem Anwendungsfall benutzt wird, aber dass es halt bestimmte Szenarien gibt, wo man sagt, okay, das ist halt einfach die richtige Wahl. Dass es da quasi todesoptimiert wird. Genau. Dass dann halt einfach noch die letzten paar Prozent rausgequetscht werden, indem man alles in der Szenen verstanden hat. Ja, ich weiß nicht, vielleicht irgendwelche Sachen, wo es halt wirklich so ultra effizient sein muss, dass man halt einfach daraus eine Komponente baut und die wird dann halt einfach als Binary kompiliert und das war's.
00:28:25 Und du hast praktisch einfach nur Input rein, Output raus. Dass man halt solche Sachen halt ... Gerade im Bereich KI halt, weil du da extrem nochmal auf Effizienz getrimmt wärst. Also ich kenne es zum Beispiel von jetzt so Sachen wie CUDA oder sowas. Oder wenn du halt was richtig, richtig Effizientes schreiben musst. Also wir hatten im Studium hatten wir so kleine ... Wir haben was mit CUDA. Eigentlich wollten wir ...
00:28:52 Jetzt lass mich lügen. Wir wollten OpenCL machen, aber haben dann CUDA benutzt, glaube ich, von der Uni. Und das war eben so Introduction to Graphics Programming oder sowas, also für Grafikkartenprogrammierung. Und das war sehr, sehr interessant, weil du da wirklich teilweise rein musstest und nochmal so einzelne Teile optimieren konntest über Assembler einfach.
00:29:15 im C-Code, den du da noch zusätzlich hattest, der Grafikkarten-Code war nochmal separat, aber quasi das Hinleiten und sowas, ja. Ich meine, das ist halt, ob das passiert, ich habe keine Ahnung. Ich meine, das ist halt, wenn du mal überlegst, vor ein paar Jahren, als das erste Mal, was war es denn, war das GitHub Copilot? War, glaube ich, so das erste, war, glaube ich, so, war das einfach so ein Plugin für VSCode, oder? Und du konntest dann einfach sagen, was du willst und dann wurden dir so ein paar Funktionen, also du konntest ja nicht mal
00:29:44 Das war wirklich nur auf einzelne Funktionen limitiert und die haben ja nicht mal richtig funktioniert. Sondern es war irgendwie kaputt. Aber es war trotzdem beeindruckend, dass der Code praktisch für dich generiert wurde. Ja, fairerweise Alpha Code war glaube ich sogar noch vorher. Das war komplett optimiert auf Algorithmen, die du im Competitive Programming gebraucht hast.
00:30:03 Das hat einfach tatsächlich aus einer Aufgabe, die wirklich fertig definiert sein musste, hat es dir einfach den Code gewonnen, also was heißt gewonnen, oder aber halt versucht effizient zu erstellen. Das war aber sehr, sehr limitiert. Also du musstest immer genau die Ausgabe, Eingabe, Parameter erstellen. Dann kam eben GitHub Copilot, wo es dann so ein bisschen mehr wurde. Und dann kamen irgendwie so GPTs, die dann immer komplexer wurden, immer besser wurden. Da waren wir schon irgendwie flash, dass es Funktionen schreiben konnte und mittlerweile so.
00:30:30 warum kann es eine komplexe 3D-Animation nicht one-shotten? Ja, aber wenn du es mal überlegst, das haben wir ja sowas wie, keine Ahnung, also ich benutze hauptsächlich Cloud-Code für alles. Ja, Sam. Und, ähm,
00:30:44 Und wie gut es funktioniert, weil gerade wenn du das im Terminal, meine Lichter machen hier gerade wieder Fakten, gerade wenn du das im Terminal, also so ein CLI-Tool benutzt, dann kannst du das halt nicht nur für Code benutzen, sondern für alles, was du eigentlich im Terminal bedienen kannst. Ich habe es im Vorfeld, da habe ich es sehr schön erzählt, ich habe jetzt angefangen, für manche Videos Remotion zu benutzen. Das ist im Prinzip
00:31:13 an open source tool, wo du mit Code
00:31:18 Animationen erstellen kannst für deine Videos. Also es ist dann schon KI generiert, aber nicht so richtig. Ich meine, du kannst es schon von Hand irgendwie alles schreiben, aber... Es ist halt deterministisch. Es ist nicht irgendwie, eine KI baut dir deine Videos. Es ist jetzt nicht, als würdest du C-Dance oder sowas benutzen. Nein, nein, gar nicht. Also es geht halt wirklich nur darum, dass ich zum Beispiel sage, ich brauche eine Animation, wo praktisch Verschlüsselung erklärt wird. Also nicht mal erklärt, sondern halt einfach...
00:31:44 Du hast dann zum Beispiel, ich will, dass ein Smartphone da ist und es soll dann einen Schlüssel reinanimieren und sich drehen und dann wird das so gesperrt, um das halt zu visualisieren, was du halt gerade erklärst. Ich bin ein blödes Beispiel. Aber ich habe genau dieselbe, also genau diese Animation habe ich, glaube ich, für das Video für Sonntag, habe ich über Mannem geschrieben. Genau, also Mannem ist halt eine Alternative dazu. Und ich habe mir das jetzt so überlegt, weil es gibt halt oft irgendwelche...
00:32:11 Ich sitze halt da in meinem Video. Ich habe mein klassisches A-Roll. Ich schneide meine Videos komplett selbst und schneide es dann zurecht. Und dann habe ich halt B-Roll. Das heißt, wenn ich dann irgendwie über irgendwas spreche und dann habe ich irgendwie ein passendes Bild, wie ich zum Beispiel an meinem Schreibtisch sitze und programmiere. Einfach damit es so ein bisschen verbildlicht wird. Aber oftmals gibt es halt Sachen, wenn ich irgendwas erzähle, wie zum Beispiel, wie Whisper funktioniert, da kommt es halt vorne.
00:32:34 Sprache rein, dann in dem Modell, wird halt gerödelt und hinten kommt dann halt ein Text-Output. So was will ich zum Beispiel animiert haben, einfach damit es ein bisschen angenehmer für die Leute, die das Video anschauen. Damit es halt besser erklärt ist quasi. Genau. Und dafür benutze ich halt Remotion, weil es halt super funktioniert. Und was ich jetzt gemacht habe, ist, ich habe mir so eine Claude-ND-Datei geschrieben. Wenn ich mir in diesem Ordner...
00:33:02 wenn ich dort Cloud Code öffne, dann werde ich gefragt direkt am Anfang, gib mir mal dein YouTube-Skript, das ich halt natürlich selbst geschrieben habe. Und das paste ich da einfach rein. Und was Cloud Code dann macht, es liest sich das ganze Skript durch, überlegt sich, wo welche reinpassen, und erstellt dann irgendwie, keine Ahnung, zehn Segmente. Zu diesem Ding wäre, glaube ich, eine visuelle Erklärung sinnvoll.
00:33:30 Und baut dann parallel, also nicht ein langes Video, sondern halt irgendwie in dem Fall mehrere Snippets, die so 10 Sekunden lang sind, die dann halt einfach animiert werden. Das exportiert automatisch und dann habe ich halt einfach einen Ordner, wo diese ganzen Schnipsel drin sind und die kann ich dann in meinem Video einbauen. Das ist heavy. Und es ist halt in der Hinsicht optimiert, dass ich mir jetzt halt nicht mehr überlegen muss, wo könnte das jetzt passen, weil für mich ist halt auch immer schwierig.
00:33:57 Wo könnte jetzt eine visuelle Erklärung sinnvoll sein? Weil ich offensichtlich, ich verstehe ja, wovon ich spreche. Für mich ist das klar. Aber ich will ja, dass auch Leute, die sich vielleicht mit dem Thema nicht so gut auskennen, und ich schweife auch gerne mal ab, aber dass ich das dann irgendwie visuell hinterlegen kann. Und ich habe halt einfach nicht die Kapazität, das eben manuell zu machen. Das kann man sich sogar nicht leisten. Genau, ich kann mir das nicht leisten, die man dafür bezahlt.
00:34:22 Genau. Also wenn ich mir jetzt halt sowas wie Simplicissimus oder sowas angucke, die ja 3D-Animationen hast du nicht gesehen machen. Das Problem ist, also ich meine, wir könnten sowas auch machen, wenn wir das wollten, aber dafür brauchst du dann halt auch ein Budget für jedes Video von mehreren 10.000 Euro.
00:34:39 einfach nur für die Animation und den Schnitt. Und das hat halt niemand. Also ich meine, das kannst du dir nicht erlauben. Vor allem im deutschsprachigen Bereich kannst du es nur erlauben, wenn du mehrere Millionen Aufrufe hast. Weil ansonsten legst du halt drauf. Also ich meine, bei mir ist schon eh, manchmal bei manchen Videos ist es kritisch, dass wir überhaupt über die Plus-Schwelle rauskommen, so gefühlt. Und wenn du das halt dann auch noch machst, dann ist es halt vorbei. Während wenn man jetzt eben zum Beispiel Manim benutzt, ich nehme Manim, Remotion habe ich mal probiert.
00:35:08 war ich bislang noch nicht so happy mit, aber einfach, weil ich mit meinem schon meinen Stil gefunden hatte. Und wenn ich jetzt dann zum Beispiel mit Cloud oder mit einem anderen KI-Tool oder sowas meine meinem Animation schreibe, da mache ich schon noch relativ viel selber verhältnismäßig. Also ich gebe nicht irgendwie alles rein und sage, dann mach mal, sondern ich lasse es mir, also ich sage relativ detailliert, was ich haben will und dann ...
00:35:32 passe ich dann nochmal so Teile an davon, also quasi die Dauer und sowas. Und teilweise halt auch die Geschwindigkeit und die Animation und so weiter. Also selten beim ersten Versuch fertig und dann wird halt nochmal drüber. Aber trotzdem ist es halt wahrscheinlich das, was jetzt dieses Jahr kommt. Ich meine, wahrscheinlich ist es dann wirklich, dass wir am Ende des Jahres halt über sowas wie Claude Coden und Agenten haben, der uns halt Blender steuert. Und dann kann halt jeder sowas programmieren. Nicht irgendwie einfach
00:36:00 generieren über sowas wie jetzt Weo oder sowas, sondern einfach wirklich programmatisch erstellen. Das ist halt schon auch nochmal ein anderer Anagramm. Aber du hast vorhin von OpenCode gesprochen. Genau, OpenCode, ja. Ich habe es mir nicht angeschaut, ich weiß gar nicht, was es ist. Ich habe dir gesagt, schau es dir bitte vorher nicht an, ich muss es dir erzählen. Ich habe davon noch nie gehört. Genau, OpenCode stellt dir vor, als wäre es Cloud Code, aber eben open, also komplett open.
00:36:30 Das heißt, du hast die Möglichkeit, dich mit einem Abo zu verbinden. Mit manchen Abos geht das. Du hast die Möglichkeit aber auch über API zum Beispiel, über Open Router, über API direkt für viele, viele Modelle oder eben über, jetzt sind sie gerade dabei, dass sie ihr eigenes Abo rausbringen, dass du quasi deine eigene, dein eigene Abo.
00:36:54 bei denen kaufen kannst. Wir haben das, also ich habe es jetzt bei mir erstmal so eingerichtet, ich habe mir das Minimax-Abo gekauft, Minimax M2.5 ist das. Minimax? Minimax, das ist ein chinesisches KI-Modell. Das sollte man natürlich mit Vorsicht genießen, deswegen das lasse ich nicht einfach laufen, weil es immer noch ein chinesisches Modell ist und es ist ein chinesischer Anbieter, deswegen da kommt quasi, fließen die Daten straight nach China und dann straight zurück von China zu dir. Dementsprechend sehr vorsichtig zu genießen.
Praktische Anwendung und Skalierung mit KI-Modellen
00:37:2300:37:23 Was ich aber mache, ist tatsächlich, man kann das relativ geil kombinieren bzw. konfigurieren auch. Und was ich gemacht habe, ist, das sind diese 25 Agenten, die da im Hintergrund laufen. Ich habe das, also Minimax mit OpenCode ist ja eigentlich zum Programmieren da. Ich hoffe, jetzt die Entwickler von Minimax sehen das Video hier nicht, weil sonst wird es schwierig. Aber das ist ein kleiner Hack gerade für mich, dass ich einfach sagen kann, okay.
00:37:49 Ich darf 5000 Prompts in 5 Stunden dahin schicken. Nee, warte, 1000 Prompts in 5 Stunden? 1000 Prompts in 5 Stunden waren es, oder? 5000? Auf jeden Fall, arschviel. Man kommt selten ans Limit. Und du hast kein Wochenlimit oder sowas, wie du es bei Cloud Code hast, sondern du hast halt einfach dieses 5-Stunden-Fenster. 5-Stunden-Limit, danach Reset, dann wieder von vorne. Und das für 50 Euro im Monat.
00:38:13 So, und das Modell ist jetzt nicht so gut wie ein Cloud Code oder Opus 4.6 oder sowas, sondern es ist halt so auf dem Stand von, ich würde sagen, so net 4.5. Okay. Aber trotzdem ist es halt verdammt gut. Und was ich jetzt gemacht habe, ist, ich habe mir das so konfiguriert, du kannst sagen, ich will eine JSON-Ausgabe zurückhaben und du kannst es über Terminal einfach laufen. Also habe ich mir ein Bash-Script schreiben lassen in dem Fall und gesagt, ey, hier schon mal, übersetzt mal den Artikel bitte.
00:38:40 Also es fetched sich vom Morphreader einen Artikel und übersetzt den dann in Englisch. Und die englische Übersetzung nimmt es dann und schickt es wieder zurück ans Backend vom Morphreader.
00:38:51 Und so habe ich ja quasi meine Übersetzung komplett über ein Abo laufen lassen. Ah, okay. Es ist komplett insane, weil davor habe ich halt... Weil jede Übersetzung ist dann quasi ein Prompt. Ja, genau. Wobei, jede Übersetzung sind mehrere Prompts, weil ich immer einen Reviewer drüber laufen lasse. Okay. Damit es halt auch wirklich funktioniert. Aber ja. Ja, aber gut, du hast ja keine, nicht pro Stunde irgendwie 200 Artikel, oder? Warte, ich kann es dir sagen.
00:39:22 Warte, warte, falsches Fenster, falsches Fenster, wo ist das richtige Fenster? Ah, das ist das richtige Fenster, stimmt, da läuft der Stream gerade drüber. Ich habe ja mein wunderschönes Dashboard. In den letzten 24 Stunden hatte ich 2295 Artikel. Davon habe ich 1942 tatsächlich veröffentlichen lassen. Und das macht dann, wenn du jede Sprache nimmst,
00:39:50 22.221 Übersetzungen in 24 Stunden. In wie viele Sprachen übersetzt du? 13. Boah.
00:40:06 Okay, das war gut. Ja, das ist halt so ein Unterschied. Und das Ding ist jetzt halt, du kannst diese Modelle auch einfach self-hosten. Also du kannst auch sowas wie in Minimax einfach komplett self-hostet dahin laufen lassen und dann macht das Ding einfach was. Genau, also so eine Übersetzungs-LLM oder irgendwie um Texte zusammenzufassen, das musst du ja nicht in der Cloud machen. Da brauchst du auch kein so leistungsstarkes Model. Du brauchst schon ein Modell, was stark genug ist leider. Aber das kannst du schon.
00:40:35 zu Hause laufen lassen, wenn du einen ordentlichen PC hast, oder?
00:40:39 Also Minimax nicht, nee. Minimax ist, du brauchst schon so einen Terabyte RAM oder so, zumindest einige hundert Gigabyte RAM. Also ich kann es bei mir nicht laufen lassen. Okay, noch nicht. Aber ich glaube, mit so einem AI-Mini-Computer könnte man das vielleicht machen. Ja, du bist halt deutlich flexibler, wenn du das halt irgendwo anders laufen lassen kannst, weil wenn du halt irgendwie ein besseres Modell irgendwo findest, dann musst du halt irgendwo einfach einen Switch umlegen.
00:41:07 Und wenn du das lokal laufen lässt, dann musst du halt auch erst mal runter, dann musst du das irgendwie migrieren oder sonst irgendwas machen. Ja, genau. Und du musst halt auch irgendwie aufpassen, dass du das richtige Modell hast, dass die Quantisierung nicht wieder alles zerstört, dass das System prompt korrekt ist. Ja, und dann läuft es halt bei dir zu Hause. Ich meine, dann... Du hast auch Stromkosten davon. Du hast Hitze, die produziert wird. Du musst dich darum kümmern, dass die Hitze vernünftig abgeführt wird. Und du musst halt auch erst mal die Hardware kaufen. Ja.
00:41:34 Also das kommt halt auch noch dazu. Klar, natürlich so maximal Unabhängigkeit ist natürlich toll, aber es muss halt auch einfach im Verhältnis zu den Kosten stehen. Also es kommt immer so ein bisschen drauf an, glaube ich, was du machen möchtest. Aber jetzt aktuell muss ich sagen, das Abo ist schon verdammt gut. Gerade dafür. Was ich tatsächlich bei mir zu Hause generieren lasse, sind die Text-to-Speechs. Weil die waren arschteuer davor. Da habe ich jeden Tag irgendwie 40 Euro oder sowas für gezahlt. Hast du da Eleven Labs benutzt?
00:42:01 Ich habe Eleven Labs benutzt und sobald da die Credits ausgegangen sind, habe ich quasi zu OpenAI die Text-to-Speech machen lassen. Und von denen will ich ja eigentlich weg, am liebsten. Dementsprechend habe ich jetzt tatsächlich, das war vor zwei, drei Streams oder sowas, haben wir das zusammen gemacht. Und zwar hier QN3 TTS. Und das ist verdammt gut. Du kannst tatsächlich beim Morphida mal gucken. Die aktuellen Nachrichten sind mit QN3 vorgelesen. Also wirklich in jeder Sprache.
00:42:28 gibt es Vertonung mittlerweile für alle Artikel, die irgendwie ein Rating von 9 oder 10 haben. Und das machst du bei dir zu Hause? Das mache ich bei mir zu Hause, ja, tatsächlich.
00:42:39 Okay. Und das ist halt alles neu, was es vor einem Jahr noch nicht gab. Ich versuche immer noch zu greifen, was da eigentlich gerade passiert und wie schnell sich das geändert hat. Ich meine, das ist eine fundamental andere Welt. Vor einem Jahr und zwei Monaten habe ich angefangen, den Morphea zu entwickeln, was einigermaßen möglich war wegen O1. Es war nicht komplett scheiße.
Entwicklung von Apps und Barrierefreiheit
00:43:0400:43:04 Und mittlerweile kannst du halt gefühlt den Mordfieler schon fast one-shotten. Also jetzt nicht die ganze App, aber ihr versteht, was ich meine. Ja, ja. Es war 2021, da habe ich ein Video aufgenommen mit einem Entwickler für meinen Kanal. Und wir haben einen Podcast. Und bei dem Video wollte ich das so barrierefrei wie möglich gestalten.
00:43:30 Und habe gesagt, okay, ich will das Video auf jeden Fall transkribieren lassen. Professionell. Ja. Auf Deutsch. Weil zu dem Zeitpunkt das YouTube-Transkript, es war halt einfach schlecht. Es war schlecht, ja. Und dann habe ich halt auf Fiber eine Person gefunden, die transkribiert, habe dann irgendwie, keine Ahnung, 100 Euro oder sowas bezahlt und musste natürlich auch ein paar Tage warten. Und das hat dann auch funktioniert. Und ich meine,
00:44:00 Theoretisch könnte ich das, also jetzt ist es natürlich nicht mehr notwendig, weil von YouTube das funktioniert schon sehr gut. Aber zu dem Zeitpunkt, weil es idealerweise würde ich halt jedes Video irgendwie transkribieren lassen mit ordentlichen Untertiteln, damit es unten schön angezeigt wird. Aber ich hätte das mir auch nicht irgendwie leisten können für jedes Video wie 100 Euro und dann immer ein paar Tage warten, das ist halt auch wieder Feedback und keine Ahnung was und das dann zu importieren.
00:44:28 Jetzt ist es zwar schon sehr gut, aber du brauchst es halt auch einfach nicht mehr. Theoretisch könnte ich es halt, keine Ahnung, jetzt, ich meine, du musstest dir einfach nur einen Whisper reinwerfen und sagen, lokal, und sagen, transkrimier dir das. Und du hast es ein paar Minuten, kannst du irgendwie eine Stunde Videomaterial transkribiert haben. Das habe ich tatsächlich vor ein paar Jahren regelmäßig gemacht, dass ich alles mit Whisper transkribiert habe und dann wieder hochgeladen habe. Ich hatte sogar mein eigenes Skript für, dass es quasi immer gepusht hat und alles versucht hat zu transkribieren.
00:44:57 Und es hat...
00:44:59 ganz gut geklappt. Aber es war halt, du musstest es halt immer machen. Und jetzt mittlerweile muss ich halt sagen, das von YouTube ist einfach brauchbar. Und es funktioniert. Das Ding ist, ich weiß gar nicht, ob ich es bei mir aktuell anhabe, weil die meisten hatten sich damals dann irgendwann über die Untertitel beschwert, dass die ihr nerven würden. Aber waren die eingebettet bei dir, oder? Nee, nee, nee, die waren nicht eingebettet. Das war halt die YouTube-Untertitel über ganz normale Sprache.
Automatisierte Übersetzungen und YouTube-Funktionen
00:45:2900:45:29 Es hat dann auch... Nee, stopp, stimmt nicht. Abgelogen. Ja, geil. Es funktioniert immer noch nicht. Das ist Hammer. YouTube ist so verbuggt. Das ist der Wahnsinn. Also bei mir sind tatsächlich die Synchronisierung nicht dabei. Die habe ich irgendwann ausgeschalten, weil sie so schlecht waren. Die haben sich einfach von selber angeschaltet und die waren so unbenutzbar. Ja, ich habe so viele Kommentare bekommen, so hey, mach du diese...
00:45:56 die Übersetzung aus. Ich weiß nicht, wie die angegangen ist, die war auf einmal da und die hat super viele Kommentare bekommen. Und ich habe mich dann auch selbst oft erschrocken, wenn ich dann auf ein Video angeklickt habe, weil ich mir halt auch viel auf Englisch anschaue. Und auf einmal wurde das so super roboterartig auf Deutsch und sofort so, was ist denn da los? Ja, das hatten auch manche einfach an und ich dachte mir so, hä, was ist denn das jetzt? Also ich meine, wir haben das hier nicht mal aktiv angemacht.
00:46:22 Das war einfach plötzlich irgendwann da, aber es war halt nicht so, wie du es erwarten würdest. Und was noch immer nicht geht, das finde ich immer noch das Beeindruckendste bei YouTube, du kannst noch, also ich zumindest, kann noch immer keine eigene Sprache hochladen. Ich habe gelogen, ich habe jetzt die Funktion dazu.
00:46:39 Also dass du praktisch dein übersetzt? Dass ich eine eigene, ja, dass ich eine eigene 2.3. Okay, ja, okay. Aber das ist auch recht neu. Und die Untertitel habe ich auch nicht drin, aber die Sprache, also die Untertitel sind immer noch nicht gut, leider. Das ist schon beeindruckend.
00:46:58 Vor allem, wenn es dir dann halt einfach alles übersetzt und du halt einfach keine Möglichkeit hast, das dann nochmal anzupassen. Theoretisch wäre es echt sehr viel machbar. Ich weiß nicht. Naja. Ja, deswegen, ich weiß nicht. Ein ehemaliger Arbeitskollege hat mich vorgestern angeschrieben und der hat dann...
Der Wandel im Beruf des Softwareentwicklers
00:47:2400:47:24 Ich hatte einfach gesagt, dass ich jetzt mal mit Cursor ein bisschen auseinandergesetzt habe, um irgendwie manche Sachen zu lernen und so. Und ob ich mich damit auskenne. Und ich habe halt einfach nur geantwortet, wenn ich ganz ehrlich bin, ich schreibe keinen Code mehr selbst. Weil für meine Arbeit brauche ich es halt auch einfach nicht mehr.
00:47:49 Ich kann es für mich nicht mehr rechtfertigen, zu sagen, ich muss das jetzt irgendwie alles selbst bauen. Ich meine, auch die Art von Apps, die ich entwickle, die sind in der Regel alle lokal. Da gibt es keine Backend-Verbindung. Da muss ich mich auch nicht irgendwie um Security oder sowas kümmern, weil es halt einfach nur auf dem Rechner drauf liegt oder halt auf dem Smartphone, auf dem iPhone. Und ich meine, wenn du für die Apps, die ich baue, also ...
00:48:16 Da brauchst du nicht hacken. Also wenn sich jemand in die App reinhackt, dann ist das ganze Handy gehackt. Also dann hast du größere Probleme. Ja, ja. Das ist ja noch einfach egal, wenn nicht so sensible Sachen drin gespeichert sind. Ich muss ehrlich sagen, ich habe den größten Schlag, hat es glaube ich bei mir gemacht, als ich gehört habe, dass Codex und Claude Code zu 100% mittlerweile von KI geschrieben werden. Ja. Was ich irgendwie beeindruckend finde, weil das ist...
00:48:43 die Software, die quasi KI kontrolliert am Ende. Und da ist tatsächlich ein Sicherheitsrisiko auch lokal dann dabei.
00:48:53 Ich weiß nicht mehr, wo ich das gesehen oder gelesen oder gehört habe in einem Podcast, dass Spotify irgendwo kommuniziert haben soll, dass in den letzten Monaten kein Senior-Entwickler bei Spotify mehr selbst Code geschrieben hat. Und ich meine, das ist ja eine Firma, weiß die jetzt...
00:49:15 Die wirklich, also wo das Produkt wirkt, es ist keine kleine Hobbybude, sondern es ist ein, keine Ahnung, wahrscheinlich ein Milliardenunternehmen. Schon, ja, ja. Und die Fassi Unicorn. Ja, bestimmt. Also ich meine, Spotify ist ja die größte Musikstreaming-App. Ist es? Ja, wahrscheinlich schon, oder? Also ich meine, außerhalb USA ist wahrscheinlich, einfach nur, gut, vielleicht Faktencheck. Faktencheck, Faktencheck kommt. Also.
00:49:42 Gut, innerhalb USA wird es wahrscheinlich Apple Music sein, weil da die meisten Leute ja sowieso iPhones benutzen. Aber... So, ja, läuft.
00:50:00 Spotify ist mit über... Gut, das ist jetzt natürlich die KI-Zusammenfassung von Google. Okay, dann lass mal vergleichen. Bei mir steht da, ich habe einfach nur gegoogelt nach größter Musik-Streaming-Plattform. Und dann die Antwort war, Spotify ist mit über 30% Marktanteil und 100 Millionen Nutzern der weltweit führende Musik-Streaming-Klinik. Gut, das ist sehr ungenau. Gefolgt von Apple Music, Amazon Music und YouTube Music.
00:50:24 Also es ist gemein tatsächlich, weil du YouTube nicht so richtig reinrechnen kannst. YouTube trennt das ja nicht auf. YouTube hat halt 2,1 Milliarden Nutzer. Und du weißt nicht, welche davon alle Musikhörer sind, weil... Gut, ich zähle da wahrscheinlich auch mit rein, weil ich habe halt ein YouTube Premium... Ja, und nee, nicht mal das, ich habe ja ein Musikstreaming, ich habe ja ein YouTube Premium Abo. Und YouTube Music ist da inkludiert.
00:50:51 Und obwohl ich das umsonst dazu bekomme, zahle ich trotzdem jeden Monat für Spotify, weil ich es dann einfach besser finde. Was ich tatsächlich, by the way, beeindruckend fand, gerade hier bei der Zusammenfassung oder bei dem Ding. Also YouTube hat insgesamt 2,1 Milliarden Nutzer. Spotify hat 675 Millionen. Tencent Music hat 576 Millionen User. Gut, das ist wahrscheinlich dann halt in China, oder? Ja, ja, auf jeden Fall. Aber trotzdem ist es beeindruckend, über 500 Millionen Menschen, Alter.
00:51:20 Also ich kenne Tencent Music nicht mehr. Aber ja, also wahrscheinlich als reiner Musikstreaming-Anbieter ist wahrscheinlich Spotify schon der Größte. Aber ja, also dementsprechend, wir sind gerade in einem Gefilde, wo sich einfach Dinge ändern. Und da finde ich eine Frage aus dem Chat gerade ganz spannend dazu. Wenn wir uns das mal angucken. Ich meine, ich sage es immer wieder, fast alles, was wir heutzutage erleben, ist Code oder kodisierbar.
Definitionen von AGI und die aktuelle KI-Reife
00:51:4700:51:47 Wenn du jetzt einkaufen gehst, ist das Code. Wenn du Lieferungen bekommst oder wenn der Penny Lieferungen bekommt von seinem Zulieferer, ist das Code. Wenn das Auto selbst fährt, ist das Code. Wenn... Was haben wir noch?
00:52:01 Wenn wir einen Podcast hören, ist es Code, weil der Podcast wird uns gesurft über einen Code. Am Ende von mir aus sogar generiert über Code, wenn wir dann über generative KI auch noch sprechen. Und die große Frage ist dann, wann hört es auf? Was genau ist da noch übrig dann am Ende? Da hat jemand eben im Chat gefragt, was ist eure Definition von AGI? Also wenn die KI...
00:52:27 schon den Code für die nächste Generation entwickelt. Fairerweise muss man dazu sagen, Codex ist nicht die KI an sich. Also die KI entwickelt nicht GPT 5.4 gerade. Das ist schon nochmal ein Unterschied, aber GPT 5.3 entwickelt gerade, wie wir KI zum Programmieren benutzen. Ja. Also hast du eine Definition von AGI?
00:52:53 Ich kenne die von AGI, die finde ich ein bisschen falsch, mit einfach 100 Milliarden Umsatz zu machen und dann hast du eine AGI definiert. Mag ich nicht so sonderlich die Definition? Ich weiß nicht, also...
00:53:12 Dieses irgendwie, es muss ein Bewusstsein haben oder so, das ist halt auch irgendwie die Frage, was bedeutet das jetzt genau? Ich glaube, es geht dann schon eher ins Philosophische. Das wäre sehr philosophisch, ja. Aber das hat eine KI praktisch Aufgaben.
00:53:27 wie ein echter Mensch erledigen kann. Zumindest jetzt nicht im digitalen Umfeld. Also das ist jetzt jemand bei mir zu Hause. Ich will jetzt nicht mit Robotik oder sowas anfangen. Aber so wie OpenClaw funktioniert,
00:53:46 wäre es jetzt eigentlich für mich schon, also wenn es halt wirklich zuverlässig funktioniert und alles Mögliche für mich erledigen kann in einem sicheren Umfeld, dann ist es wirklich schon nah an dem dran, was so meine Vision von der KI ist. Dass ich halt praktisch jede Aufgabe geben kann und es wird halt auch einfach erledigt.
00:54:11 Ich suche gerade die Definition raus, die ich für mich irgendwann mal etabliert habe. Die ist schon ein bisschen älter, aber ich bin ein großer Fan davon. Hier, die hier. Das ist ein Paper von Google. Ich packe es euch gleich in den Chat rein. Und da können wir dann sehr, sehr gerne auch drüber philosophieren. So, einmal hier. Das ist bei YouTube und das ist bei Twitch. Und zwar, also Google hat das, oh, das ist sehr klein. Google hat das Ganze,
00:54:39 Warte, das Paper ist von... Heißt Levels of AGI. Das Paper ist vom 24. September 2025. Mhm. So jung ist das? Krass. Okay. Und... Echt? Ich dachte, das wäre älter. Anyways. Vielleicht eine Review oder sowas. Und die haben tatsächlich das Ganze über Level definiert, was ich sehr, sehr schön fand. Und über Narrow versus General. Das heißt, wir haben sowas wie Level 0 ist einfach keine KI.
00:55:09 Und eine Narrow Non-AI, also Level 0 AI für einen Narrow Scope wäre zum Beispiel so was wie ein Taschenrechner oder ein Compiler. Da ist keine KI drin, also fairerweise, mittlerweile kommt das ja schon fast mit Wolfram Alpha oder sowas, aber in einem reinen Taschenrechner, den wir jetzt aufmachen, wenn ich jetzt hier K-Calc aufmache, dann ist es ein reiner Taschenrechner, wo ich einfach Zahlen eingebe, da ist keine KI dahinter.
00:55:36 Und es hat genau einen Zweck, es ist narrow. Das heißt, es soll nichts anderes tun, außer diese eine Aufgabe. Das heißt, narrow ist einmal die Menge an Aufgaben, die wir machen können und das Level an KI ist, wie viel KI drin steckt oder wie intelligent in Anführungsstrichen, weil wir reden hier von künstlicher Intelligenz, nicht von menschlicher Intelligenz, finde ich einen wichtigen Unterschied.
00:56:00 wie viel KI da drin steckt. Dann haben wir einmal das Emerging Level. Das heißt Emerging im Sinne von equal to or somewhat better than an unskilled human. Also jemand, der es nicht gelernt hat. Also quasi erstmal narrow definiert zum Beispiel eine regelbasierte Engine zum Beispiel. Jemand, der es nicht gelernt hat, wird wahrscheinlich ähnlich gut sein wie diese regelbasierte Engine.
00:56:25 wo man dann einfach quasi in Fragenkatalog durchgeht und je nachdem, was du halt ausgewählt hast, am Ende kommt das und das raus. Das ist relativ narrow, das hat genau eine Aufgabe, nichts anderes kann es. Und es ist halt nicht wirklich eine KI, aber es wirkt irgendwie so wie eine KI. So, dann haben wir das Level Competent. At least 50% of skilled adults, das heißt ungefähr so viel, also wir reden jetzt ab...
00:56:49 Ab dem Level redet man nur noch darüber, wie Leute, die diesen Bereich gelernt haben. Also quasi du und ich, wir haben IT gelernt oder Informatik gelernt, aber ein Arzt hat zum Beispiel Medizin gelernt. Das heißt, für uns wäre die Definition eine andere als für einen Arzt. In dem Fall haben wir so etwas wie eine Competent Narrow AI. Und da haben wir, also wenn wir im Narrow Bereich bleiben, da haben wir schon ein Beispiel, so etwas wie zum Beispiel Toxicity Detectors, also so etwas wie ein Meldesystem, das ...
00:57:17 Giftgase entdeckt. Das hat genau eine Aufgabe, nämlich Giftgase entdecken. Und es ist mindestens so gut wie 50 Prozent der Menschen, die es gelernt haben. Wahrscheinlich sogar besser.
00:57:30 Genau. Dann haben wir eine Expert AI. Das gibt es auch noch. Also es wäre dann Level 3. Da bist du mindestens 90 Prozent, also mindestens so gut wie 90 Prozent der Erwachsenen, die das gelernt haben. Okay. So was wie zum Beispiel, also wenn wir im Narrow-Bereich bleiben, so was wie Grammarly, also quasi Rechtschreibung. Wir haben das hier übrigens tatsächlich so zitiert. Also ich lese es quasi gerade nur das Paper vor. Grammarly macht Rechtschreib- und Grammatik-Checker.
00:57:58 und ist dabei so gut wie 90 Prozent der gelernten Menschen, also die Leute, die das quasi gelernt haben, wie man Rechtschreibung und so weiter professionell macht.
00:58:08 Dann hast du im Exceptional-Bereich, also Level 4, hast du sowas, wo die KI besser ist als 99 Prozent der Menschen, die es gelernt haben. Nicht besser als alle, es gibt immer noch Experten, die besser sind, aber besser als 99 Prozent. Das fand ich ein ganz tolles Beispiel. AlphaGo und Deep Blue. Deep Blue ist Schach. AlphaGo, oder? Ich meine Schach? Ich glaube ja, und AlphaGo ist für... Und AlphaGo war Go.
00:58:35 Genau. Die sind nicht unbesiegt, beide nicht, aber sie sind besser als 99 Prozent der professionellen Schach- oder Go-Spieler. Also sie können fast jeden rauswerfen. Okay, also wirklich die Profis. Wirklich auf einem Profi-Level. So, das wäre dann Level 4, da bist du exceptional. Und dann hast du sowas wie Superhuman, also Outperforms 100% of Humans. Besser als 100% aller Menschen. Und auch da haben wir ein Beispiel in Narrow AI schon.
00:59:02 Das heißt, eine Superhuman Narrow AI, sowas wie AlphaFold. Ein Mensch kann AlphaFold machen, also Proteinfaltung berechnen oder erstellen, aber die KI outperformt 100% aller Menschen, weil sie einfach quasi keinen Fehler mehr macht. Und AlphaFold ist 2021 rausgekommen. 2021? Ja, 2021. Das ist ja quasi Agent. Das ist ja 5 Jahre alt.
00:59:30 Oder auch Stockfish. Stockfish ist 23 rausgekommen und outperformt auch jeden Menschen, auch den Weltmeister. Und das finde ich spannend. Stockfish ist Schach, oder? Ist Schach, ja genau. Und AlphaZero ist auch besser als 100%, aber AlphaZero kenne ich nicht so gut. So, und das waren jetzt alles Narrow AIs. Das heißt, hier haben wir schon eigentlich eine Superhuman Narrow AI, was ich sehr, sehr geil finde. Und jetzt kannst du das Ganze übertragen auf den General-Bereich.
00:59:58 Und Google definiert General so, wide range of non-physical tasks, including metacognitive tasks like learning new skills. Das bedeutet,
01:00:11 Wenn du es über Code machen kannst, ist es ja ein non-physical task. Mir ist buchstäblich keine einzige Aufgabe eingefallen, die du nicht über Code oder über LLMs oder sowas definieren könntest. Fällt dir einen ein? Mir fällt wirklich keiner ein. Also eine physische Aufgabe. Eine nicht-physische Aufgabe, ja genau.
01:00:35 Du kannst ja, theoretisch könntest ja alles, was digital ist, irgendwie automatisieren oder machen. Oder zumindest über KI halt machen lassen, genau. Ja, genau. Also wenn es dann irgendwie darum geht, dass es vielleicht dafür noch kein spezielles Tool ist, dann gibt es vielleicht, keine Ahnung, einen Browser, also eine KI, die einen Browser bedienen kann und dann kannst du ja praktisch eh schon alles machen. Genau. Kannst du eh fast alles im Browser machen. Genau. Und da hast du dann, bei der Wide Range ist natürlich immer Definitionssache, wie wide muss diese Range sein? Mhm.
01:01:03 Aber, wenn wir mal gucken, General Non-AI, also eine allgemeine Level 0, also 0 KI drin, aber trotzdem für allgemeine Aufgaben, die nicht physischer Natur sind. Bringen Sie an sowas wie Amazons Mechanical Turk. Ich habe das mal gelesen, oder mich mal versucht einzulesen. Das ist einfach so ein quasi Automatisierungsding, wo du halt benutzen kannst. Hier würde ich theoretisch auch sowas wie N8N reinzählen, weil du eigentlich alles damit...
01:01:32 basteln kannst, was du möchtest. Aber gut, es lernt ja keine neuen Aufgaben. Wahrscheinlich ist der Mechanical Track schon immer besser. Dann Emerging AI haben sie ChatGPT aus dem Jahr 2023 reingetan, BART und Lama 2 und auch Gemini von 2023. Den Namen habe ich schon ewig nicht mehr gehört. War das schon eine Weile her, ja. Also alles so relativ einfache Aufgaben. Und bei Competent AGI, also da, wo die KI plötzlich
01:02:01 Also das war jetzt Emerging AGI, also quasi Level 1 AGI. Das heißt, es ist equal oder im Schnitt besser als ein ungeskillter Mensch. Und genau jetzt kommt quasi so der Punkt, wo sich die Geister streiten. Kompetenze AGI, also quasi ein genereller Aufgabenbereich, wo die KI besser ist als 50 Prozent der Erwachsenen, die es gelernt haben.
01:02:27 Und da muss ich jetzt tatsächlich sagen, mittlerweile würde ich sagen, ist der Bereich schon erreicht. Weil wenn du jetzt mal guckst, also wenn du ChatGPT da reinrechnest, wenn du Wide Range nicht so unendlich wide definierst, dann hast du den Bereich schon lange erreicht. Ich habe vieles damit eigentlich schon gemacht. Ich habe Claude, also nehmen wir einfach mal nur Claude Code oder Open Code oder Codex, such es dir aus, ist völlig egal. Oder Gemini CLI ist auch dabei.
01:02:55 Du kannst das Ding ein System administrieren lassen, das Ding ist eigentlich besser als ich und ich habe das eigentlich in meinem Studium gehabt. Du kannst das Ding programmieren lassen, es ist besser als ich. Du kannst das Ding software entwickeln lassen, die Architektur, der Clean Code. Mittlerweile ist das Ding wahrscheinlich besser als ich, außer ich nehme mir richtig viel Zeit, aber dann ist es immer noch viel schneller als ich.
01:03:15 Du kannst diese KI, wie ich gerade mit Open Code beschrieben habe, kannst du sogar Artikel übersetzen lassen. Das heißt, es kann auch mehrere Sprachen. Du kannst aber auch eine Zusammenfassung davon generieren. Du kannst quasi alles machen lassen, was du Chachibiti machen kannst. Aber, und das ist jetzt das Spannende, bei den Benchmarks sind die ganzen KI-Tools ja mittlerweile besser als 50 Prozent der Erwachsenen, die es gelernt haben. Bei fast allen Benchmarks.
01:03:40 nur noch wenige Benchmarks, wo sie schlechter sind als Erwachsene, die es gelernt haben. Das sind wahrscheinlich so extrem spezifische Edge-Cases wahrscheinlich. Ich muss kurz mal gucken. Ich habe gerade erst vorgestern von einem gelesen. Ich meine, bei Programmierung ist halt auch einfach ...
01:03:58 Der Fall, dass der ganze Code oder super viel Code einfach öffentlich zugänglich ist. Das heißt, du hast dann auch einfach eine riesige Trainingsgrundlage. Aber du hast auch sowas wie Paper zum Beispiel, wo du einfach extrem viel lernen kannst. Also das ist halt krass. So hier, es gibt einen Benchmark, Terminal Bench Heart, SVE Lancer, das wäre Software Engineering Benchmark auf dem letzten überkrassen Level.
01:04:23 Und es gibt natürlich Humanities Last Examen. Lass mich kurz gucken. Ich weiß nicht, wie es bei HLE gerade aussieht. Ich glaube, HLE haben wir mittlerweile auch geknackt, oder? Ach, wenn ich nach HLE komme, dann kommt immer so ein E-Sports-Team aus Korea. Ich sollte es besser wissen. Ich gucke die sogar manchmal. Humanities Last Examen. So, das da.
01:04:49 Bei HLE sind wir noch nicht besser als 50 Prozent, aber wir haben einen Calibration Error drin. Mit Gemini 3.1 Pro sind wir besser als 50 Prozent. Bei HLE, ne? HLE ist so ein Ding, wo die Leute gesagt haben, ja, das kriegen wir niemals hin. Also manche zumindest. Und das ist halt ein sehr, sehr breiter Benchmark. Und hier sind wir so allmählich gerade drüber am Springen.
01:05:12 Opus 4.6 hat 34,2%, allerdings mit Calibration Error eingerechnet sind wir bei 46%. Kimi hat 25,4% mit Calibration, ah ne, der Calibration Error selber ist 75%. Sonet 4.6 hat 21,1% und eben Gemini hat 45,9%. Also es ist ...
01:05:37 extrem gut geworden. Also wenn du bedenkst, dass wir vor einem Jahr, warte kurz, da waren wir bei so 13 bis 18 Prozent dazwischen irgendwo. Und jetzt sind wir bei 45. Das ist der einzige Benchmark, der mir einfällt, wo wir noch nicht drüber sind. Dann sowas wie Arc AGI sind wir bei über 50 Prozent jetzt mit den neuen Modellen.
01:06:04 Die sind aber auch gerade erst rausgekommen. Dann haben wir, wo ist er, den finde ich nicht. SWE Lernster, hier irgendwo war der doch. Ah nee, Terminal Benchmark, stimmt, der harte Terminal Benchmark. Da sind wir auch gerade so um die 50%, also sowas wie 44,4% bei GBD 5.2 extra high. Opus 4.5, die haben die neuen Modelle noch nicht getestet, sind wir bei 44%. Also auch da,
01:06:33 fliegen wir gerade über die 50 Prozent rüber. Ich frage mich halt echt, wo das aufhört. Also ich kann das jetzt halt überhaupt nicht abschätzen. Ich meine, die Modelle, die wir jetzt kennen, sind halt die Modelle, die halt released wurden. Genau. Diese ganzen AI-Booten, OpenAI oder auch Google oder ...
01:06:55 Anthropic, die haben ja intern schon sehr wahrscheinlich viel krassere Modelle. Also die arbeiten ja schon an der nächsten und übernächsten Version. Ich meine, ich kann es mir schon gut vorstellen, weil wenn du mir überlegst, sobald es dann Zeit wird für eine, keine Ahnung, dann kommt Anthropic und releast ihr neuestes Opus-Modell. Und dann dauert es irgendwie zwei Tage und dann haben alle anderen irgendwie auch irgendwas Krasses nachgeliefert.
01:07:24 Das heißt, Sie haben ja schon was in der Pipeline. Sie evaluieren meistens und dann schauen Sie, wann kommt der andere raus und dann releasen Sie quasi gleichzeitig.
01:07:35 Aber die werden halt sicherlich, ich meine, das ist ja auch strategisch, ist es ja sinnvoll, aus Business-Perspektive zu sagen, wir hauen nicht alle, also wir verschießen nicht unser ganzes Pulver, sondern die sammeln halt die ganze Zeit irgendwie VC-Money ein, wenn du jetzt mal irgendwie OpenAI oder so nimmst, dann ...
01:07:59 ist es ja sinnvoll, immer zu sagen, ja, wir arbeiten noch an der anderen, damit sie halt währenddessen immer mehr Geld einsammeln oder bei Google halt auch das Gleiche, dass halt, du willst ja nicht deinen Vorsprung zu früh irgendwie rausballern, sondern die versuchen das ja auch strategisch irgendwie alles in die Länge zu ziehen. Ist ja sinnvoll. Deswegen ist es halt für so außenstehende Leute, ist es halt super schwer zu entscheiden, ob das jetzt, oder zu sehen, in welche Richtung.
01:08:26 Also wie weit sich das noch entwickeln wird. Ich meine, dass jetzt so ein Job wie Softwareentwickler irgendwie aussterben wird, glaube ich jetzt erstmal nicht, weil wenn du jetzt mal irgendwie bei OpenAI, Anthropic und so weiter auf deren Jobseite geht, da geht einfach mal auf die Career-Seite, die suchen immer nach Entwicklern. Also wenn jemand wüsste, ob man Entwickler noch braucht oder ob man es komplett durch KI ersetzen kann, dann sind es ja die Firmen, die die KIs bauen. Also wenn die noch nach Entwicklern suchen, dann ist es wahrscheinlich eher...
01:08:56 Ich glaube, die Frage ist eher, was ist deine Aufgabe als Entwickler dann? Ich mache gleich mit dem Thema weiter, erinnere mich gleich dran. Ich wollte noch kurz die anderen Level ansprechen.
01:09:06 Weil wir haben, also das wäre dann Level 2. Das wäre eine kompetente AGI. Das heißt, sie ist mindestens 50 Prozent so geskillt wie alle Adults. Und dann hast du noch Level 3, wo sie halt besser ist als 90 Prozent der Leute, die es gelernt haben. Also besser als 90 Prozent der Ärzte, besser als 90 Prozent der Softwareentwickler, aber halt alles gleichzeitig. Ja, ja. Also Menschen gibt es ja nicht. Also es gibt ja keinen Mensch, der… Es gibt keinen Menschen. Also du bist, wenn du halt eine kompetente AGI hast, bist du so im Schnitt schon besser als…
01:09:33 der Mensch, also die durchschnittliche Menschheit einfach. Und dann ist halt der Jump der hier, weil dann geht es sehr, sehr schnell, weil du dann einfach sagen kannst, okay, dann nehme ich halt meine KI, weil die ist ja besser als 50 Prozent der Entwickler und lasse die einfach alles entwickeln, um noch besser zu werden. Ja, und wenn ich Bauchschmerzen habe, dann kann ich meinen KI-Entwickler auch fragen, ich habe übrigens auch noch irgendwie Bauchschmerzen, mach mal Diagnose. Genau.
01:10:00 Und ich meine, fairerweise, das machen jetzt schon Menschen, ne? Das machen jetzt schon Menschen. Ja. Ja, ich weiß, es ist halt immer so ein bisschen...
01:10:09 Ich habe es mal ein bisschen ausprobiert, dass ich irgendwie, ich hatte bestimmte Beschwerden und so weiter und dann bin ich auch wirklich zu einem Arzt gegangen, habe mich untersuchen lassen und so weiter und habe danach einfach mal ausprobiert. Ich habe einfach mal meine ganzen Symptome, ich weiß nicht, ich glaube es war auf Chat-Chip-It-Y, habe ich einfach mal meine ganzen Symptome reingeschrieben und es...
01:10:34 Kann natürlich Zufall sein, vielleicht auch nicht. Aber in dem Fall war es halt exakt das, was der Arzt dann auch gesagt hat. Ich würde jetzt trotzdem eher zu einem Arzt natürlich gehen, aber ich fand es halt einfach mal spannend, weil ich jetzt dann halt den direkten Vergleich hatte, was war die Diagnose vom Arzt und habe dann auch noch mal die Fragen, die ich dann dem Arzt dann selbst gestellt habe und was ist damit und was ist damit und so weiter, einfach mal zu gucken und habe das dann mal direkt miteinander vergleichen können. Und es war halt genau das, was halt der Arzt gesagt hat.
01:11:03 Also ich fühle mich ja trotzdem wohler zum Arzt zu gehen, aber ich fand es einfach mal spannend. Ich fand es tatsächlich auch spannend. Ich hatte einen ähnlichen Fall. Da war ich beim Arzt zuerst und der Arzt hatte zu mir gesagt, ja hier, also ich habe eh Neurodermitis, hier Neurodermitis. Das musst du auf jeden Fall eincremen. Ich habe Kortisoncreme, was weiß ich, was alles. Ist ja normal bei dir, ne? Und ich habe danach ein Foto davon in, ich glaube, das war damals GPT 5.0, also das neue GPT 5.
01:11:27 kam da relativ frisch raus, in die Pro-Version davon reingesteckt und habe gesagt, hier schon mal, das ist ein Foto davon. Was ist es? Und dann hat mir die KI gesagt, sorry Bro, aber das sieht nicht aus, als wäre das Neurodermitis. Hier, geh mal in die Apotheke, hol dir mal genau dieses Shampoo. Es war im Bad. Hol dir mal dieses Shampoo, das ist quasi was mit deiner Hautflora, die broken ist. Dadurch regeneriert sich das wieder. Ich bin in die Apotheke gegangen, kannst du einfach so kaufen, habe mir das Shampoo geholt und es war innerhalb von einer Woche weg.
01:11:57 Und seitdem habe ich keine Probleme mehr damit. Also war es kein Neurodamitis, sondern... Es war kein Neurodamitis, es war das, was die KI gesagt hat. Ich habe schon wieder vergessen, wie es hieß. Aber ja, es war besser als der Arzt in dem Fall sogar. Was ich sehr spannend finde, geht bitte trotzdem zum Arzt. Der Arzt weiß meistens genauer, was er fragen muss. Aber trotzdem sind wir schon allmählich an dem Punkt, wo ich sagen würde, und das unterstreicht, was ich hier gerade versuche zu sagen, wir sind wahrscheinlich in...
01:12:22 vielen Fällen schon auf dem Level oder drüber als 50 Prozent der gelernten Adults. Ich weiß natürlich nicht, wie gut der Arzt ist. Also das war ein Arzt, der meine Hausarztpraxis übernommen hatte, nachdem die alte Ärztin in Rente gegangen ist, was ich sehr schade fand. Mittlerweile bin ich auch gewechselt. Also dementsprechend, ich war nicht so happy mit dem, weil er mir wirklich auch öfters mal Sachen einfach von Google ausgedruckt hat. Das ist kein Scheiß. Das ist ja eigentlich so ein...
01:12:52 Ich habe dann auch immer gesagt, danke, ich kann dich selber googeln. Ja, genau. Hä? Aber ja, also deswegen, der war wahrscheinlich gar nicht so sehr skilled einfach, aber trotzdem war das halt ein Punkt, wo ich gesagt habe, okay, so unbrauchbar ist halt KI dann doch nicht, wenn man sie weiß zu benutzen. Ich meine, ohne Foto hätte ich natürlich einfach beschreiben müssen, das wäre dann halt natürlich nicht gegangen. Aber genau. Ich meine, es ist halt...
01:13:19 Dann hast du noch die letzten drei Level. Du hast noch Level 3, das ist halt besser als 90% der Menschen. Dann hast du Expert AGI. Das würde ich noch nicht sagen, dass wir das sind, aber ich zeige dir gleich noch, was ich meine. Und dann hast du noch Exceptional AGI, dann bist du besser als 99% der gelernten Menschen. Und dann hast du Superhuman AGI, wo wir bei Artificial Super Intelligence wären, also quasi ASI, wo die KI in 100% aller Aufgaben als jeder einzelne Mensch.
01:13:46 Und ich glaube, diese Definition, um nochmal kurz auf die Definition zu kommen, ich glaube, ich mag diese Definition sehr viel lieber als dieses harte, wir haben keine AGI versus wir haben AGI. Ja, ja. Es gibt ja Zwischenschritte, weil dann kannst du auch besser entscheiden, wann ist es genug. Ja, genau. Es geht halt auf das Kompetenzlevel. Genau, also weil, ich meine, wenn ich jetzt irgendeine, wenn wir jetzt mal zum...
KI als Multiplikator und das Ende der Individualisierung
01:14:1401:14:14 auf das Thema Arzt nochmal zurückkommen. Ich habe jetzt irgendeine Krankheit. Ja. Dann, keine Ahnung, wo wir es gerade davon gehabt haben, eine Hautkrankheit. Dann gehe ich zu einem Hautarzt und das wird vielleicht nicht der allerbeste Hautarzt oder die beste Hautärztin der Welt sein. Aber ...
01:14:40 Das, was die Person dann für mich diagnostizieren kann, also die Person ist gut genug für das, was ich brauche. Ja. Und es hat keinen Sinn, wenn ich dann nachschaue, wer ist der beste Hautarzt-Spezialist oder Spezialistin auf der ganzen Welt und fliegt dann einmal um die ganze Welt, um dann halt die Person zu sehen. Für genau diese eine Aufgabe, die du gerade hast. Für genau dieses Hautproblem. Genau.
01:15:10 Deswegen, ja, du kannst vielleicht irgendwie so eine General Artificial Intelligence irgendwie haben, was wirklich mit allem besser ist. Aber ich glaube, wenn wir da nur 80 Prozent hinkommen, dann ist es ja schon deutlich besser als eine deutliche Verbesserung, wenn wir das gar nicht hätten. Ja, auf jeden Fall. Ich glaube auch, dass man das...
01:15:38 dass es dann eher sinnvoll ist, dass man Experten hat, die halt einfach lernen, wie sie mit der KI arbeiten können. Ich weiß nicht, in irgendeinem Video oder in einem Podcast hat mal jemand gesagt, da ging es halt speziell ums Programmieren, aber das lässt sich eigentlich auch auf alles Mögliche umwälzen, dass KI ein Multiplikator ist. Das heißt, wenn, deswegen fand ich es auch spannend, dass Spotify gesagt hat, die Seniorentwickler haben nicht mehr
01:16:08 Haben keinen Code mehr geschrieben. Weil die natürlich das Ergebnis viel besser evaluieren können, als jemand, der überhaupt gar keine Ahnung hat. Weißt du? Ja, auf jeden Fall. Weil, wenn ich keine Ahnung habe von Programmierung, dann kann die KI zwar irgendwas bauen und es funktioniert, aber ich verstehe halt überhaupt nicht, was da gerade passiert ist. Und du kannst auch nicht sagen, dass es funktioniert oder dass es nicht funktioniert. Du siehst nur das Ergebnis am Ende. Genau, aber das ist halt alles andere, ist halt nur eine Blackbox. Ja. Und, ähm...
01:16:33 Wenn ich jetzt, keine Ahnung, ich habe es glaube ich vor eineinhalb Jahren, habe ich glaube ich schon mal in unserem Podcast, übrigens, wir nehmen hier gerade unseren Podcast auf, für die Leute, die ja später eingeschaltet haben, das müssen wir jetzt sagen, weil normalerweise wird nur aufgezeichnet und hochgeladen, der Bitflug-Podcast, könnt ihr direkt mal ein Abo dalassen. Auf jeden Fall, normalerweise machen wir das immer montags, aber diese Woche war es zeitlich einfach bei uns ein bisschen schwierig. Und offline normalerweise. Ja, normalerweise. Aber wenn ich jetzt, angenommen ich bin irgendwie Lehrer,
01:17:02 Und ich wäre jetzt irgendwie Mathelehrer. Dann ist es halt, das aktuelle Schulsystem hier ist halt nicht dafür ausgelegt, dass alle Kinder gleich gefordert werden. Das heißt, du nimmst halt alle Leute und die werden alle in eine Klasse reingesteckt. Und das Einzige, was die an Gemeinsamkeit haben, ist ihr Alter.
01:17:22 Das heißt, alle 15-Jährigen, die sind jetzt halt alle bei mir in der Matheklasse drin. Und die unterscheiden sich dann vielleicht um zwölf Monate Unterschied. Aber das heißt ja nicht, dass die alle gleich gut sind und die gleichen Stärken haben. Aber die müssen ja alle irgendwie ungefähr das Gleiche können. Aber als Mathelehrer ist es halt utopisch anzunehmen, dass man ein Custom-Lehrer-Hausaufgaben gibt. Sondern du überlegst halt einfach, okay, wir haben jetzt dieses Thema und die Kinder brauchen irgendwie Hausaufgaben.
01:17:50 Und dann überlege ich mir, welche Aufgaben. Und alle Kinder bekommen die gleichen Aufgaben. Und es ist halt einfach unfair, weil die Kids, die sich halt einfach gut auskennen und stark in Mathe sind, die machen die Hausaufgaben in fünf Minuten und langweilen sich dabei. Und dann hast du genau die andere Seite, die völlig überfordert sind, die hassen alles und die verstehen gar nichts und bleiben voll abgehängt. Und wenn du
01:18:19 Ich meine, du könntest sogar sagen, das könntest du irgendwie in einem Rechenzentrum irgendwie in Deutschland und Datenschutz und Pipapo, aber dass du halt dort praktisch deine, die ganzen Informationen über die Schüler irgendwie reinfütterst.
01:18:32 Ja, oder brauchst du ja nicht mal unbedingt. Also ich meine, es gibt dann halt einfach so ein Level, wo du dann auch mit einer KI von mir aus reden kannst und sagen kannst, ey, yo, ich habe Schwierigkeiten, die Aufgabe zu verstehen. Und dann geht es halt rückwärts. Würdest du diese Aufgabe verstehen? Nee, sorry, habe ich immer noch Schwierigkeiten. Oder eben so, aber das Assignment hat automatisch passiert, dass du halt einfach dein Tablet aufmachst zu Hause und dann wird dir automatisch deine personalisierte...
01:18:58 Hausaufgabe, so dass du das halt verstehst, wird dir halt einfach generiert. Und im Prinzip, es ist halt immer so, wenn du dann halt eine Prüfung hast oder so, dann musst du das ja irgendwie vergleichen, wenn es dann um Benotung und so weiter geht. Aber bis es dann dahin kommt, geht es ja eigentlich darum, dass alle Kinder im Klassenraum
01:19:17 das Thema verstehen. Und wie die da hinkommen, ist halt einfach super individuell. Und du kannst halt einfach, wenn du Lehrer bist für Mathe und 25 Schüler da sitzen hast, dann ist es halt einfach nicht umsetzbar, das irgendwie auf jeden irgendwie Maß zu schneidern. Und da sehe ich dann halt eher das Potenzial. Weißt du, dass dann...
01:19:38 Die Ärzte haben ja auch gar nicht die Zeit dazu, sich alles maßzuschneidern. Also ich meine, wenn ich jetzt zum Arzt gehe, das hatte ich tatsächlich jetzt Ende letzten Jahres, mir ging es richtig dreckig, einfach wegen Stresymptom tatsächlich. Und die Ärztin meinte halt, ja sorry, wir können nur eins davon behandeln fürs Nächste, musst du halt nochmal kommen. Willst du jetzt eine Krankschreibung oder willst du keine? Die habe ich dann gesagt, nee, ich bin nicht wegen einer Krankschreibung, ich brauche Hilfe. Und sie hat dann halt einfach gesagt, geht nicht, sorry, wir haben nicht genug Zeit dafür. Dann habe ich eben...
01:20:04 Im Januar oder sowas hatte ich ursprünglich den Termin und jetzt hatte ich den, eben weil die eine Ärztin dann krank geworden ist, hatte ich dann erst Mitte Februar, also noch gar nicht so lange her, hatte ich den Termin für Symptome, die ich halt im Dezember hatte. Und das ist halt genau das, wo es eigentlich so viel besser gehen würde, wo man halt auch einfach sehr viel mehr Individualisierung haben könnte. Was die Ärzte halt machen können, was eine KI nicht kann, sind die Non-Physical-Tasks. Und genau das...
01:20:34 ist so ein bisschen das, was ich glaube, was wir immer mehr sehen werden. Wenn ich zum Arzt gehe, dann will ich jetzt nicht irgendwie hören, was ich habe, sondern dann will ich mittlerweile tatsächlich sagen, okay, hier, schau mal, ich brauche Blutbild oder sowas oder ich brauche das und das. Und dann fütter ich das tatsächlich selber ganz gerne mal in der KI und sage dann, hey, wie sieht es denn aus eigentlich? Bin ich gesund oder so? Ich meine, das machen die ja schon selber teilweise genauso. Und eben solche Sachen zu verorten, das kann halt ein Arzt. Ja.
01:21:02 Ja, aber ich glaube, ich fand noch einen anderen Take ganz geil hierbei. Also, um nochmal ganz kurz auf die Definition von ASI zurückzukommen, die war gerade bei Twitch nochmal ein Kommentar. Und vielen Dank an Jell Jassen und die anderen, die ich hier gerade abonniert habe. Einmal ganz kurz wegen ASI. Das ist tatsächlich wörtlich gemeint mit 100% besser als alle Menschen. Also wirklich besser als jeder einzelne Mensch. Das zu messen ist schwer tatsächlich, vor allem wenn es um viele Bereiche geht.
01:21:28 Man kann sich das wirklich so vorstellen wie ein Schachcomputer, wie Stockfish zum Beispiel, die gegen den Weltmeister dann Schach spielt und dort gewinnt. Und das halt in jedem Bereich. Das wäre die Definition von ASI. Und ich glaube, wir werden merken, wenn wir da sind. Aber da sind wir natürlich noch lange nicht. Also völlig noch lange nicht. Wohingegen jetzt bei AGI würde ich halt sagen, so allmählich sind wir in dem Bereich, wo wir sagen können, wir haben eine kompetente AGI.
ASI und der Tipping Point für AGI
01:21:5601:21:56 Ich habe da mal einen, es war eigentlich als Meme gedacht, aber ich fand es extrem gut, Visualisierung. Kennst du dieses Spinnendiagramm? So ein Diagramm, wo man quasi mehrere Achsen hat, wie gut was ist. Ja, ja, ja. Zum Beispiel eine Achse mit Softwareendemik. Schnell und Genauigkeit. Eine Achse mit Schnelligkeit, genau. Eine Achse mit Genauigkeit. Eine Achse mit, das stimmt, aus dem Fitness-Tracker kennt man die vielleicht. Ja.
01:22:22 Genau, also quasi halt so mehrere Achsen. Das war ja auch die Grafik, die Steve Jobs damals beim ersten iPhone benutzt hat. Ein Smartphone. Ja, genau die. Da hat er so eine Achse genommen und hat dann praktisch gesagt, nach oben hin ist easy to use und das andere ist smart. Und dann hat er gesagt, so die klassischen normalen Telefone sind easy to use, aber sind nicht smart. Und dann hast du Smartphones zu dem Zeitpunkt, die sind difficult to use, aber smart. Und dann hast du iPhone und das ist halt alles ganz oben. Ja, okay. Also das ist vereinfacht.
01:22:51 Ich glaube, wir können es uns aber da so ein bisschen vorstellen, wo wir gerade sind. Und bei KI ist es so ein bisschen, also bei diesen Levels mit AGI, in manchen Bereichen sind wir schon fast im Expertenbereich, besser als 90 Prozent der gelernten Menschen gefühlt. Aber in anderen Bereichen sind wir dafür halt noch so gerade so unter den 50 Prozent.
01:23:19 Und ich glaube, das ist so ein bisschen der Tipping Point, wo wir, wenn wir wirklich überall in diesen ganzen Dimensionen zuverlässig immer über die 50 Prozent kommen, dann ist es halt so ein, jo, okay, jetzt würde ich sagen, haben wir eine kompetente AGI oder eine Experten-AGI oder eine Exceptional. Und ich glaube, das ist so ein bisschen der spannende Punkt, dass wir auch wirklich so teilweise solche richtig seltsamen Zacken in diesem Spinnendiagramm haben, wo
01:23:48 Manche Punkte einfach noch, wo wir sehr schlecht sind, und die werden dann aber mit dem neuen Modell einfach ausgebügelt. Plötzlich sind wir da auch drüber, über diesen 50%. Und so verbessern sich die Modelle nach und nach immer in verschiedenen Richtungen sozusagen. Was ich irgendwie spannend finde. Wollte ich noch kurz dazu beitragen, zu dieser Definitionsfrage. Es ist irgendwie...
01:24:17 Spannend zu sehen, in welche Richtung es sich entwickelt, ist auch ein bisschen beängstigend, weil man halt auch nicht weiß, also vor allem, wenn man in dem Bereich arbeitet, welchen Einfluss das hat. Ich meine, ich weiß ja nicht, wie es bei dir ist, aber ich bekomme halt, weil wir uns halt in dem Bereich bewegen, bekomme ich halt auch oft die Frage irgendwie auf Instagram oder irgendwie einen Kommentar. Ich möchte...
Zukunftsperspektiven für IT-Berufe
01:24:4001:24:40 Informatik irgendwas studieren. Oder auch Ausbildung machen. Oder Ausbildung zum Softwareentwickler. Soll ich das noch machen? Und früher habe ich halt immer gesagt, ja, auf jeden Fall, voll geil. Nicht, dass ich davon jetzt abrate, aber ich kann es halt überhaupt gar nicht einschätzen, welchen Einfluss diese ganze KI-Entwicklung auf den Beruf des Softwareentwicklers haben wird. Aber ehrlich gesagt, finde ich das bei keinem Beruf.
01:25:09 Wirklich? Nee, gut, aber ich meine, bei anderen Berufen kann ich es noch viel weniger einschätzen, aber in der Softwareentwicklung selbst, wenn ich mir jetzt überlege, ich schreibe jetzt, ich meine, ich habe über zehn Jahre als App-Entwickler gearbeitet, ganz normal als Angestellter. Und jetzt bin ich an dem Zeitpunkt, dass ich für mich persönlich nicht mehr ein gutes Argument finden kann, wo ich sage, das lohnt sich jetzt trotzdem noch alles von Hand zu schreiben.
01:25:35 Und ich war neulich, ich glaube, ich habe es im letzten Episode, habe ich es glaube ich schon erzählt, dass ich neulich war, ich war beim Friseur und bei mir ums Eck. Und der weiß so ungefähr, was ich beruflich mache. Und er hat mich dann gefragt, weil seine Tochter gerade ihr Realschulabschluss gemacht hat. Die weiß halt nicht, was sie tun soll, ob sie weitermachen soll, dann irgendwie Abi und keine Ahnung oder eine Ausbildung. Und dann habe ich halt gesagt, dass...
01:26:02 Ich kann es ja nicht abschätzen. Das Einzige, wo es garantiert wenig Veränderungen geben wird, sind also physische Berufe. Zum Beispiel...
01:26:14 Er als Friseur. Also in meinem digitalen Leben hat sich so viel verändert durch KI und trotzdem sitze ich irgendwie alle paar Wochen bei ihm auf dem Stuhl und lasse mir halt von den Menschen die Haare schneiden. Klar, es gibt Leute, die sagen, Robotik und so weiter, das wird sich natürlich auch weiterentwickeln, aber wenn man jetzt mal die Roboter anguckt, ist es ja viel komplexer als Software. Also der Iterationsaufwand ist natürlich viel enormer, weil du halt Hardware brauchst. Also im Prototypen, wenn du kannst mit einem...
01:26:43 innerhalb von einer halben Stunde kannst du dir eine App als Prototypen bauen, aber wenn du jetzt Hardware brauchst, dann brauchst du die Chips und so weiter, das muss ja produziert werden. Das dauert alles viel länger. Das krasseste, was man jetzt mal vielleicht im Alltag sieht, ist irgendwie der Gerät in einer Dönerbude. Und da muss ja dann trotzdem einer neben dran stehen. Und so richtig, es ist ja mehr so ein Gag. Also so ein, statt jetzt sinnvoll, das löst es den.
01:27:10 Ich glaube, was wir da noch brauchen, ist halt noch ein bisschen mehr Entwicklung. Aber tatsächlich ist Fritze gerade, also Friedrich Merz, ist gerade in China und ich glaube, die schauen sich gerade die Unitree-Roboter an. Okay. Also da geht auch schon einiges. Also Robotik ist mal so das, was man so als Physical AGI bezeichnet. Deswegen gerade so mit Fabriken, mit selbstfanden Autos, mit solche Sachen ist dann auch schon relativ viel, was man da theoretisch...
01:27:38 auch schon sieht, was automatisiert wird. Also gerade mit Robotern, mit humanoiden Robotern geht es schon in eine große Richtung, wo bist du denn hin? Aber es ist halt auch, es skaliert deutlich schlechter als Software. Das ist halt das Problem, weil es ist halt auch super teuer. Also zum Aktionsheimen, natürlich, wir müssen es halt meinen. Du brauchst erstmal die Roboter, die quasi die Fabriken bauen und dann hast du die Fabriken, die neue Roboter bauen und dann hast du Roboter, die Roboter bauen. Aber dann brauchst du halt auch die ganzen Ressourcen dafür. Genau.
Kapazitätsengpässe und menschliche Notwendigkeiten
01:28:0601:28:06 Also da musst du plötzlich anfangen, Materialien zu minen oder sowas mit den Robotern. Also das auf jeden Fall. Ich glaube aber, dass das auch was ist, was nach und nach immer mehr kommen wird. Was nicht so leicht wegautomatisiert wird, ist so Compliance-Zeug, wo du einen Menschen, also zumindest wenn wir davon ausgehen, dass die Regierung so bleibt, wie sie gerade ist, wo du einen Menschen brauchst, dass du ...
01:28:31 dass du quasi abnimmst, okay, hier bitteschön, das ist jetzt wirklich mal, das ist okay soweit, das ist quasi zertifiziert TÜV-Siegel dran. Das Audit selber wirst du trotzdem mit KI machen, wahrscheinlich früher oder später, weil naja, wenn die KI halt besser ist als ich, dann werde ich das mit der KI machen. Aber tatsächlich brauchen wir eigentlich gute Faktorio-Spieler für die Zukunft, vielen Dank dafür. Aber das ist, glaube ich, so,
01:29:01 einen Punkt, der nicht so leicht wegfällt, weil du halt einen Menschen brauchst, der seinen Kopf hinhält, wenn du so möchtest. Was auch nicht gerade toll ist. Also ich meine, das will man dann auch irgendwie nicht haben. Ja, ich meine, wenn du jetzt halt deine, keine Ahnung, Chatschipiti irgendwie für eine ärztliche Diagnose einsetzt und dann ist das falsch und dir passiert irgendwas, weil du halt dich nicht behandeln lassen hast, weil Chatschipiti sagt, okay, nö, alles okay und dann, keine Ahnung, fault dir der Fuß ab.
01:29:30 Wer haftet dann? Ja, richtig. Also OpenAI, die werden, wenn du bei denen anklopfst und sagst, hey, wegen euch habe ich mich nicht behandeln lassen, dann zeigen die ja auch den Vogel, weißt du? Ja. Ja, ich weiß nicht. Also es ist schon, es ist auf jeden Fall nicht ohne, was gerade passiert. Ich glaube, das ist so eine ganz gute Zusammenfassung. Ich habe gerade auf die Uhr geguckt, ich sehe, du musst eigentlich los, ne? Genau, ich muss es los. Ich habe noch zwei Minuten und dann können wir, glaube ich, noch abschließen.
Umgang mit KI als Werkzeug und nicht als Ersatz
01:29:5701:29:57 Also ich glaube, was ich halt den meisten Leuten jetzt einfach empfehlen kann, ist, erstmal, wir haben überhaupt gar keinen Einfluss darauf, wie sich das jetzt entwickelt, weil da steckt so viel Geld in der ganzen Industrie, in diesem ganzen Thema drin. Das wird sich jetzt entwickeln, das wird, also auf jeden Fall wird das weitergetrieben. Und was ich den Leuten halt am ehesten raten kann, ist, sich damit zu beschäftigen.
01:30:24 Also wenn es irgendwie relevant ist für deinen Job, gerade wenn wir jetzt über Entwickler sprechen, es gibt viele Leute, die sagen schon, KI, das ist Quatsch und keine Ahnung was. Der einzige Rat, den ich geben kann, ist zumindest es als Werkzeug zu benutzen. Nicht, dass man damit alles machen muss, aber sich damit ausgaben, weil du wirst auf lange Sicht verlieren. Weil andere Leute, du wirst halt einfach nicht, ich weiß nicht, kompetitiv bleiben.
01:30:51 Mit KI zu konkurrieren ist Quatsch. Das macht gar keinen Sinn. Genau. Und es ist halt noch immer, das kann ich auch so unterschreiben, es ist ein Multiplikator. Das heißt, wenn du halt einfach Entwickler bist und dann KI dazu einsetzt, bist du halt gerade was für manuelle Aufgaben, keine Ahnung, Test schreiben oder sonst irgendwelche Sachen.
01:31:07 da hat ja kein Entwickler Bock drauf. Ich habe noch nie einen Entwickler gesehen, der gesagt hat, oh, Test schreiben ist schon geil. Ich sitze gerne da und schreibe. Das macht schon Spaß. Ja, nee, aber dass Test wichtig sind, würde wahrscheinlich niemand widersprechen. Ja, aber du machst mal. Genau, aber das heißt, du kannst zwar noch den Hauptcode schreiben, was halt eben wie wichtig ist, die ganze Business-Logik und so weiter, aber vielleicht von KI nochmal evaluieren, habe ich ja welche Edge-Cases vergessen, damit halt einfach Bugs gar nicht erst auftreten.
01:31:34 Und es dann eher so als Sparing-Partner benutzen. Nicht, dass man alles Vibe-Coden muss, aber damit man praktisch die eigene Arbeit damit verbessert. Das ist halt mein Rat, was ich den Leuten mitgeben kann. Das ist es halt, ja. Also ich glaube, dass man ...
01:31:52 Wenn man sich selber eben damit beschäftigt, dann merkt man ganz schnell, was geht und was nicht geht. Also wenn man sich selber mit seiner Expertise beschäftigt, dann merkt man schnell, was geht und was nicht geht. Ich glaube auch auf der anderen Seite hört man immer wieder so, KI macht jetzt alles, KI macht hier Softwareentwicklung zu 100% schon. Und auch das ist nicht der Fall. Wir haben davor schon richtig viel outgesourced, irgendwie nach Indien oder sonst irgendwo. Aber trotzdem ist der deutsche Softwareentwickler auch nicht weggefallen.
01:32:19 Und dementsprechend, das wird auch da nicht passieren. Es gibt mehr als genug Aufgaben, die man in der IT noch machen muss, abgesehen von Software entwickeln. Also abgesehen von wirklich dem Code schreiben, das meine ich damit. Ja, genau, das habe ich ja vorhin gemeint. Also es gibt ja viel mehr. Also Sachen automatisieren zum Beispiel.
Automatisierung von Dokumentation und Projektmanagement
01:32:3801:32:38 Oder überhaupt die Projekte mal zu entscheiden, welches Feature will man drin haben und welches nicht, was passt zur Mission und was passt nicht. Weil manchmal, das ist auch ein riesiges Problem, einfach diesen Feature-Creep zu haben, dass du viel zu viel plötzlich drin haben willst und dann musst du das auch noch schaffen und dann hast du am Ende eine super App, die du irgendwie maintainen musst, das du aber eigentlich gar nicht wolltest, weil du das gar nicht haben möchtest. Das gleiche mit dem wie Dokumentation. Ich meine, wie oft?
01:33:05 hat man irgendwann mal den Fall, es ist in jedem Team, wo ich bis jetzt gearbeitet habe, war das irgendwann so, dass irgendwas schief gelaufen ist und dann hat man sich zusammen, okay, wie kann man das irgendwie verhindern und dann waren alle klar, okay, wir hätten das ganze Feature irgendwie mal, wie das funktioniert, dokumentieren müssen, weil die Person, die das entwickelt hat, die ist schon seit ein paar Jahren nicht mehr da, keine Art Plan, nicht wie der Code im Detail funktioniert, sondern
01:33:27 welche Gedanken dabei eine Rolle gespielt haben. Und dann setzt man sich hin und dann hat man die feste Regel, sobald man irgendwas gearbeitet hat, muss man irgendwie auf Confluence ein Wiki dafür erstellen und so weiter. Und dann macht man das und erst mal, irgendwann machen es die Leute halt nicht mehr und geupdatet wird das Zeug sowieso nicht. Aber es ist ja trotzdem super wichtig, dass man sowas hat. Und ich meine, sowas könnte man automatisiert erstellen. Genau. Sowas könnte man auch einfach durch eine...
Entwicklung spezialisierter Hardware für KI
01:33:5501:33:55 ich weiß nicht, im Push automatisch erstellen, durch Digitab Actions zum Beispiel. Ja, genau. Bei jedem Pull-Request wird halt geschaut, gibt es dazu ein Wiki, wenn nein, wird es dann angelegt, ansonsten wird es halt aktualisiert. Und dann hast du halt eben ein schönes Wiki, wo halt alles ordentlich dokumentiert ist, im gleichen Format und wo die Person, die das schreibt, in dem Fall halt KI, auch nicht zu faul ist.
01:34:22 das detailliert und ordentlich zu machen. Kann vielleicht noch schöne Grafiken, wenn es irgendwelche Komponenten sind, die miteinander kommunizieren, dass du da halt einfach die Architektur vielleicht noch visuell erstellst. Geht ja alles. Ja, das heißt, das ist sowieso alles Code. Das ist alles ein Diagramm. Diagramme sind sowieso meistens Code. Und brauchst du ja nicht irgendwie so als Bild erstellen, als Bilddatei. Ja, gut. Jetzt sage ich dir,
01:34:48 Das, ja, ich glaube, wir beide machen jetzt endlich hier an der Stelle. Genau. Aber du musst los.
01:34:54 Und ich würde sagen, wir bleiben auf jeden Fall noch im Stream dabei. Aber an die Zuhörer des Podcasts, bis zum nächsten Mal. Bis zum nächsten Mal, genau. Und für die Leute, die noch nicht abonniert haben, könnt ihr es jetzt nachholen. Bitflip Podcast auf allen Plattformen, wo es Podcasts gibt. Ihr könnt einfach mal More Free da gucken, da gibt es den Bitflip Podcast auch drin. Da könnt ihr einfach in die Podcastsuche eingeben, ey, ich würde gerne den hören. Und dann könnt ihr da einfach auf ein Abo klicken. Fast jede Woche. Fast jede Woche, ja. Außer wir sind krank oder weg oder sonst irgendwas. Alright.
01:35:24 Dann wünsche ich allen Leuten im Chat noch einen schönen Stream. Bis dann. Ciao, ciao. Ciao. So, und wir bleiben jetzt einfach hier, würde ich sagen. Wir schneiden das am Ende dann raus, weil wir sehen, dass dann, das ist quasi jetzt alles über eine andere Plattform. Aber ich glaube, wir haben schon sehr, sehr viel heute gecovert. Ich muss einmal ganz kurz die Katze rauslassen.
01:35:57 So, nicht, dass sie irgendwie anfängt, hier drin sich unwohl zu fühlen, weil hier ist wirklich sehr, sehr warm. Ich habe jetzt mittlerweile 28,2 Grad, was ich irgendwie nicht angenehm finde. Ich kann euch jetzt leider tatsächlich gar nicht meinen Bildschirm zeigen, dieses Mal beim Streamen. Aber ich glaube, das war trotzdem sehr, sehr cool, dass wir heute mal zu zweit waren. Also so entsteht eher auch ein Gespräch mit euch zusammen, würde ich sagen, das ist auch eine ziemlich coole Sache, wenn man dann so ein Gespräch hat. Deswegen, ich würde, also ihr könnt gerne mal sagen, was ihr dazu meint, aber grundsätzlich finde ich das sehr, sehr cool.
Automatisierung und Haftung in der Softwareentwicklung
01:36:2601:36:26 Katze hat das Personal erzogen? Ja, tatsächlich hat sie. Aber ey, er ist schlimmer. Also das war jetzt gerade unsere Katze, also weiblich. Unser Kater ist sehr viel schlimmer. Er springt ganz gerne einfach gegen Türen und macht sie dann auf. Also er kann wirklich Türen öffnen, wenn man die nicht abschließt. Und dann ist halt zu. Also dann komme ich selber auch nicht mehr aus. Aber ja, naja. Wo man vom Teufel spricht. Bist du das jetzt?
01:36:54 Ich glaube, wir haben heute mit der Diskussion schon so ein bisschen was getroffen. Also ich glaube, da müssen wir uns schon Gedanken drüber machen gerade. Aber ich glaube nicht, dass es jetzt so ist, dass wir jetzt alle in den nächsten paar Wochen oder sowas ersetzt werden. Und trotzdem glaube ich, dass wir auch nicht ignorieren können, dass sich jetzt gerade was verändert.
01:37:24 Oder? Muss ja für jedes LLM die Hardware gebaut werden. Achso, du meinst die, hier genau, da hatte jemand was dazu geschrieben, dass eine Firma Lama in ein ultra effizientes ASIC gebaut hat, was viel effizienter als Cerebras und Co. ist. Der Kater heißt Loki.
01:37:43 Und genau, okay. Das ist halt nochmal so das nächste Ding. Wenn man sich dann einfach von so einem AGI-Modell oder von so einem richtig guten Modell einfach so einen ASIC-Miner holt oder halt so einen ASIC, also ASIC, für die, die es nicht kennen, ist eigentlich, du gießt deine Software in Hardware rein und dadurch kann die einfach, weil sie halt einfach hart gewired ist, kann sie extrem effizient sein.
01:38:07 Das heißt, Strom spart schnell und du brauchst nicht so viel davon. Was kostet dieser Miner, ist die große Frage. Kann man den schon kaufen? Das ist noch eine andere Frage. Ich google mal ganz kurz danach. Eigentlich nicht google.
01:38:26 Es sind momentan noch Tools, genau. Momentan sind es noch Tools, die bei der Entwicklung helfen. Aber wie lange noch, ist die Frage. Ich meine, wenn ich mir meinen Workflow angucke, der sich jetzt im letzten Jahr immer mal wieder verändert hat, von ich muss wirklich alles von Hand reviewen zu ich lasse erstmal reviewen und gucke dann, ob es wirklich klappt, zu ich lasse eigentlich komplett autocoden und gucke mal, ob das funktioniert. Also ich experimentiere ja immer so. Aber grundsätzlich, ja, ist die Frage. So, hier. Der ASIC...
01:38:56 Tarslas HC1 ist ein spezialisierter ASIC, bei dem das Modell 3.18b verwendet wird. Okay. Er schafft bis zu 17.000 Tokens pro Sekunde. Ach du Scheiße. 200 Watt pro Karte ist halt auch nicht viel.
01:39:19 Und kostet 0,076 Dollar pro eine Million Tokens. Laut LinkedIn-Analysen. Wow. Gut, es ist ein kleines Modell. Das ist nur ein 8B-Modell. Dürfen wir nicht vergessen. Aber trotzdem ist es halt um Mengen günstiger und um Mengen weniger leistungsintensiv. Loki, nicht Lucky. Sorry, Loki.
01:39:51 Es geht ein bisschen um die AI-Evolution, ja genau. Also wir haben jetzt gerade einen Podcast aufgenommen hier. Genau, dazu noch ein EU-Modell, das auch noch DSGVO-konform ist. Gut, DSGVO-konform kann ja egal sein, wenn du es lokal hosten kannst. Aber eins, was halt bitte nicht biased ist, also wo ich jetzt irgendwie nicht über, wo ich nicht irgendwie Angst haben muss, dass irgendwas damit passiert.
01:40:20 Rust jemals C und C++ ersetzen? Ich weiß es ehrlich gesagt nicht. Also ich glaube, C++ und C sind einfach zu weit verbreitet, als dass es komplett ersetzt wird, aber es ist schon... Cloud Code Security ist das... Du meinst jetzt die Sicherheit von Cloud Code oder ist das gerade neu? Oder wie neu ist es?
Börsenreaktionen und Zukunft der Berufe
01:40:5201:40:52 Also ich weiß jetzt von keinem Modul, das wirklich Security macht. Was ich ganz geil finde, ist, dass man mittlerweile auch so gute Reviews damit machen kann. Ja. Nein, was Neues. Ist was Neues, Neues? Dann lass mich mal gucken. Das kenne ich nämlich noch nicht. Wann kam das raus?
01:41:20 Entropic hat eine neue Funktion namens Cloud Code Security herausgeführt. Derzeit in der Research Preview. Oh. Oh, wow. Okay. Das werde ich euch trotzdem mal sharen müssen. Ich versuche mal hier gerade ein Screensharing zu machen. Wir gucken dann einfach mal, ob es funktioniert. So. Perfekt.
01:41:49 Das solltet ihr nun sehen. Ich mache es euch noch ein bisschen größer. Perfekt, das scheint sehr gut zu funktionieren. Mensch, Mensch, Mensch. Eine Neufähigkeit. Build into Cloud Code on the Web. Okay. Limited Research Preview. Deswegen kenne ich sie nicht. Wann kam das raus? Das ist schon sechs Tage. Shit.
01:42:20 Das gucken wir uns mal kurz an. Gut, das brauchen wir nicht, oder? Wir brauchen keinen Ton. Brauchen wir Ton? Laut. Okay. Ach Gott, das geht einfach komplett durch das Gitterprepo durch.
01:43:12 Okay. Kann ich das schon benutzen, ist die große Frage gerade. Wo finde ich das denn? Ich würde es gerne testen mit euch.
01:43:31 Oh, vielen Dank an... Ich muss einmal ganz kurz durchgehen. Ich habe das nämlich vorhin nicht so richtig machen können im Stream. Vielen Dank an Joe Viterbo und an Awkward Hell. Awaked Hell. Awaked Hell, sorry. Ich will einmal ganz kurz auch korrekt durchgehen. Vielen Dank an Stinger. An The Hacky.
01:43:53 Und genau, das waren alle von heute. Vielen Dank an euch. Ich habe tatsächlich, vorhin während der Podcastaufnahme, konnte ich das nur so halb gut machen. Aber jetzt kann ich das auf jeden Fall machen. So, jetzt ist erstmal die Frage Static Analysis, a widely deployed form of automated security testing.
01:44:13 Ach genau, okay. Static testing, okay. Rather than scanning for known patterns, reads and reasons about your code the way a human security researcher would. Also quasi ein white box test, richtig? Understanding how components interact, tracing how data moves. Das ist halt schon krass. Every finding goes through a multi-stage verification process before it reaches an Alice. Das würde ich gerne in Cloud Code haben, nicht unbedingt in Cloud Web, weil ich will das ja auf meinen...
01:44:41 Repos laufen lassen und nicht unbedingt nur auf dem Code, der Public ist. In manchen Repos habt ihr zum Beispiel gar keine Endvariablen oder sowas drin, aber die braucht es dann um eine vernünftige Research oder sowas wahrscheinlich durchzuführen, weil auch wieder ein bisschen schwierig, wenn man dem einfach Zugriff auf die Endvariablen gibt. Eieieiei. Ja, okay. Validated findings appear in the dashboard.
01:45:13 Competitive CTF Events. Okay. Using Claude Opus 4.6. Our team found over 500 vulnerabilities. Den habe ich gelesen in den Artikel. Der ist schon ein bisschen älter. Genau, das war der, den sie zum Release von 4.6 rausgebracht haben. Okay.
01:45:47 Ich meine, wenn man halt den Code einfach auditen kann und dann fixen lassen kann, ich meine, dann kannst du einfach klar dazu bringen, dass es dir Issues erstellt, basierend auf dem, was du halt, oder was halt gefunden wurde und dann war es das auch schon wieder, dann passt die Sache einfach direkt wieder, also was heißt passt, aber dann hast du zumindest mal die Möglichkeit, dass es dir was vorschlägt und ein Fix bringt. Oh ja, haftungstechnisch wird das sehr interessant, das stimmt.
01:46:16 Die Börse hat reagiert im Cyber Security Bereich, das habe ich gar nicht mitgekriegt tatsächlich.
01:46:32 Aber die reagiert momentan auf echt viel. Ja, genau, wie ihr auch schon sagt. Ich hatte irgendwo gelesen, dass eben Claude auch ein Tool für, ich weiß nicht, ob das unter Research war. Vielen, vielen Dank an Autismus. Auch geil, dass ich das mal sagen darf. Danke dir. Dankeschön.
01:46:59 Wir haben...
01:47:04 Ne, das war gar nicht hier. Also es gibt auf jeden Fall eine App, die speziell an Anwälte ausgerichtet war und da, als die rausgekommen ist, sind wahnsinnig viele Anwaltsfirmen im Kurs gedroppt und dann kam noch irgendwas anderes und dann kam es hier und ja, okay, also egal, was Entropic gerade rausbringt, die Firmen haben Angst davor, beziehungsweise die Börse hat Angst davor, weil klar, warum braucht man dann noch irgendwelche Anwälte, wenn die das halt...
01:47:33 Ach, Mann, okay. Ich würde es gerne ausprobieren. Ah, apply for access. Perfekt. Join the waitlist. Na gut. Das seht ihr jetzt wahrscheinlich nicht. Das ist der falsche Tab. Ja, ich muss ganz normal access beantragen. Okay, dann werde ich hier mal eben access beantragen. Kann ich das? Kann ich. Ich würde wahrscheinlich keinen bekommen, wie immer.
01:48:09 Organization-Type. Uh, Open-Source. Individual, Business, Open-Source. Oh, okay. Man kann sein GitHub-Profil eingeben. Oh, welches von den vielen nehme ich? Ohoho. Ja, European Alternatives werde ich nicht nehmen. Das werden die nicht so toll finden, glaube ich. Vieles andere ist tatsächlich Closed-Source bei mir erstmal. Das bin ich ja gerade noch dran. Shit. Nehmen wir nicht Open-Source, nehmen wir Business.
01:48:38 Oder nehmen wir Individual. Individual. So. Okay. Also ich habe mich jetzt mal registriert für die Warteliste. Wo seid ihr denn? Hier seid ihr.
01:49:01 Join the waiters, ja, genau. Der DMC. DMC läuft übrigens im Hintergrund gerade. Da lasse ich einfach die ganze Zeit OpenCode drüber laufen und das dann halt reviewen und so weiter und so fort. Und dann lasse ich das quasi approven. Das ist ein komplizierter Prozess. Meistens lasse ich einfach das drüber laufen, wo ich noch Credits übrig habe.
01:49:19 Hier, acquire's percept to... nee, das war's auch nicht. Reasonable scaling policy... detecting... nee, das war's alles nicht. Cowork ist aber auch so'n Ding. Das seht ihr jetzt wieder nicht, weil sich das in einem neuen Tab aufgemacht hat. So, jetzt. Genau, Cowork war das nächste Ding. Jetzt ist sehr leise.
01:50:27 Sorry. Das war sehr laut, tatsächlich.
01:50:46 Ja, das ist genau dasselbe. Also, ganz ehrlich, das ist halt auch, das ist quasi Cloud Code, aber es hat halt Zugriff auf mehr. Es ist so eine Mischung aus Cloud Code und der Cloud Desktop App. Die konnte man ja auch schon verknüpfen. Also, das ist... Danke an meinen Kompressor. Danke an euch.
01:51:09 Also das ist halt nochmal ganz anders, wenn man hier irgendwie, ja, du hast halt Zugriff auf alle Reports, alle möglichen Nodes, alle Files. Ja, OpenClaw hat da nochmal ordentlich was reingebracht. Der OpenClaw-Mitarbeiter arbeitet, also Peter Steinberger oder der Entwickler, nicht Mitarbeiter, arbeitet jetzt auf, bei hier Codex, beziehungsweise im Codex-Team. Und
01:51:36 Oh, das ist... Oh mein Gott, das ist wirklich Code. Das ist kein Bild. Ach du Scheiße. Geil. Ist das Bild? Ah, das ist ein Video. Okay. Und dann hast du dem halt einfach Zugriff gegeben auf die ganzen Unternehmensdaten. Dann können die halt machen, was sie wollen. Und... Ja, es hat die Frage, was da noch bleibt.
01:52:04 Also ich meine, ich finde es an sich gut, wenn man Aufgaben automatisieren kann, auf die niemand Bock hat, aber wenn es irgendwie halt alles ist, dann bricht uns halt die Wirtschaft irgendwann weg. Also der Grund für die Wirtschaft quasi. Mal abwarten, wann das Ganze bei Chatsubi kommt, denn Gemini hat ja auch schon Zugriff auf meinen Kalender und so weiter. Und Gemini kann auf deine Notes zugreifen, was ich tatsächlich regelmäßig benutze, weil es einfach echt gut ist. Und Gemini kann zugreifen auf Kalender, genau, wie der Assistant davor auch.
01:52:34 Und wenn du dann tatsächlich dem einfach Zugriff noch auf deine E-Mails gibst, sodass die E-Mails automatisch verarbeitet werden, das geht noch nicht, das geht bei kaum noch jemandem, dann wird es lustig, weil dann hast du plötzlich wirklich dieses automatische Ding von, jo, dann mache ich halt mal kurz und dann löscht es halt irgendwas. Genau, vielleicht muss man von der klassischen Vorstellung von 9to5 wegkommen. Oder es wird halt falsch genutzt. Ich habe tatsächlich überlegt, mir ein Video komplett zu diesem Thema zu machen, weil es passiert gerade extrem viel.
01:53:06 Ja, Live-Aktion, stimmt. Bedienungsloses, geil. Bedienungsloses Grundein. Wie war das noch mit der Dame, die OpenClaw gebeten hat, die unwichtigen Mails aus ihm? Ja, tatsächlich. Da habe ich das Short erst aufgenommen davon. Das ist noch nicht geschnitten, aber ja. You're in control from approving to reviewing. Klar, aber deswegen, da werden alle dann einfach wieder hergehen und always allow machen. Ich meine, mittlerweile ist es bei Code ja auch nicht mehr anders. Man will ja, dass das Zeug wegautomatisiert wird.
01:53:35 Das ist halt basically Copilot. Also Microsoft hat ja auch sowas in der Art. Das ist halt basically Copilot, nur halt von Claude und noch ein bisschen mächtiger. Weil es halt mehr kann.
01:53:54 Und Anthropic hat ja gerade auch erst angekündigt, dass sie die Richtlinie entfernen wollen, dass sie alle Modelle komplett sicher erst mal machen, bevor sie sie veröffentlichen, weil die Konkurrenz gerade so vorprescht. Was ich auch ein bisschen schwierig finde.
01:54:10 Huiuiui, ja da kommt ordentlich was auf uns zu. Ich meine, ich bin mittlerweile hier schon an meiner Grenze. Ich habe schon wieder 95% hiervon aufgebraucht, von dem großen Tarif. Einfach nur mit den ganz normalen Quotas. Und es ist noch bis Samstag, wo ich mich jetzt mit den letzten 3% irgendwie rumschlagen muss.
01:54:36 In Zukunft kann man es einfach nur noch neu denken und die E-Mail wird versendet. Achso, nur noch denken und die E-Mail wird versendet über Brain Interface. Pro bringt einem gar nichts. Du meinst den 20 Dollar Tarif bei Claude? Ja, der ist lächerlich schlecht. Also da bist du halt quasi sofort an deinem Usage Limits. Du schaffst halt gefühlt ein Ticket und dann ist die ganze Woche schon wieder vorbei. Also die Limits sind schon echt übel.
01:55:03 Das ist wirklich ein Schnupper-Abo, tatsächlich. Der Ehemann, der den Mac von seiner Frau schneller machen wollte und OpenClaw dann die gesamte Fotobub gelöscht hat. Scheiße. Boah, aber auf BCIs hätte ich echt keine Lust.
01:55:23 Brain-Computer-Interfaces sind halt schon invasiv, ne? Wenn man sich, oh, das geht halt richtig deep in Richtung Transhumanismus und alles drum und dran. Boah, ich weiß nicht, ob ich da so Fan von bin, ehrlich gesagt. Dann ist es aber halt auch wie mit KI, yo, überleg dir mal, ob du dich nicht damit beschäftigen möchtest, weil dein ganzer Job hängt davon ab. Ich bin froh, wenn wir erst mal das hier hinter uns haben, aber ja, es wird wahrscheinlich nicht aufhören.
Schnelles Wachstum der KI über exponentieller Entwicklung
01:55:5301:55:53 Uff, okay. Ach hier, ich habe doch das Paper für euch, das wollte ich euch eh noch zeigen, mit den ganzen Levels. Da hatten wir gerade im Podcast auch drüber gesprochen. Einmal auf einer Insel, ja, am liebsten schon. Hier, das war das Paper, also falls es jemand nachschauen möchte, Position Level, also es war ein Positionspaper von Google, es war kein offizielles Research Paper, es war einfach nur, damit es mal definiert ist. Levels of AGI for operational,
01:56:23 Das Wort, Progress on the Path to AGI. Oh mein Gott, der heißt The Foe. Cool, okay. Und die Levels sind hier definiert. Also das waren so die Levels, die ich vorhin meinte.
01:56:40 Wenn man hier eben sagt, okay, wir haben quasi keine KI, Emerging, Competent, Expert, Exceptional und Superhuman. Und wenn man sich das mal so anguckt, ich würde das gerne mal in einem Video, glaube ich, aufarbeiten, aber wenn man das mal so anguckt, ich bin mir nicht sicher, aber ich glaube, wir kommen allmählich in den Bereich, wo ich es als Competent AGI definieren würde.
01:57:03 Und Expert AGI ist dann halt auch nicht mehr so fern, weil ich hier schon mal, das hier war 2022, das hier war 2023, das hier war 2023, das hier, gut, war 2020 und 2016, 2017. Aber das war alles in den 2000ern. Das ist nicht so lange her, abgesehen jetzt hier von Schroo.
01:57:26 Das ist emerging hier. Und dann bist du hier schon bei 2023. Warum sollen wir nicht bei 2025 einmalig hier landen? Nach dem Paper.
01:57:47 meine ich, ob es in ein, zwei Jahren überhaupt noch Entwickler braucht. Ich glaube, dass unsere Aufgabe eine andere ist dann. Ich glaube nicht, dass wir die Entwicklung an sich noch machen. Ich meine, wenn Entwicklung halt komplett demokratisiert wird, beziehungsweise für alle einfach so per englischer oder deutscher Sprache aufgemacht wird, dann wirst du halt eine andere Aufgabe bekommen plötzlich, weil du dann...
01:58:07 nicht mehr die Entwicklung selbst machst, sondern eher die Orchestrierung beziehungsweise die Professionalisierung oder sowas. Ich meine, jeder kann nach einer Website fragen. Ich meine, dann kann auch, keine Ahnung, Person A für ihr Friseurstudio, von dem wir es gerade vorhin hatten im Podcast, kann dann auch einfach sagen, ey, mach mir mal hier kurz eine Webseite für mein Friseurstudio und verlink die bitte für mich. Aber so komplexe Enterprise Software, sage ich mal, wie fairerweise auch der Morphreder einer geworden ist, ich glaube nicht, dass wir das in den
01:58:37 in der nächsten Zeit komplett einfach prompten können. Also wir können es prompten, aber ja. Aber halt nicht wirklich veröffentlichen mit allem, was dazugehört, weil es einfach echt kompliziert ist.
01:58:50 mich macht wirklich die gesamte Entwicklung depressiv. Ich sehe einfach keinen Sinn mehr, irgendwas zu lernen. Das verstehe ich komplett. Auf der anderen Seite, du lernst es ja nicht, um irgendwas damit zu machen, sondern du lernst es eigentlich für dich, damit du es verstehst, die Hintergründe verstehen. Ich glaube, die Hintergründe zu verstehen macht dich auch einfach sehr, sehr viel kompetenter, wenn du irgendwas machen möchtest damit. Aber ja, ich verstehe komplett, was du meinst.
01:59:14 Geschwindigkeit, mit der sich einfach alles entwickelt, lähmt mich auch, ehrlich gesagt. Also fairerweise, ich weiß auch nicht, ob ich nächstes Jahr noch hier sitzen kann und nicht alle plötzlich einfach 50 KI-Avatare streamen machen lassen oder YouTube-Videos machen. Kann ich euch nicht sagen. Weil wenn die Menge an Content, die Angebot mit, einfach alles abdenkt mit den highest quality Videos, dann ist halt die Frage auch, wo ist mein Platz?
KI als Sparringspartner und Bedenken bei der Umsetzung
01:59:4501:59:45 Brain-to-Text-AI, ach bitte nicht. Warte mal. Ich schau mal kurz hier ein. Okay. Suna, Thought-to-Text, was? Nein.
02:00:18 Non-Invasive Thought-to-Text. Einfach ein EEG. Das heißt, ich ziehe mir eine EEG-Kappe auf und das Ding kann lesen. Wollte dich fragen, ob du Interesse an einem Job hast? Ging um Red Team in Melbourne.
02:00:39 Interesse ist immer da, tatsächlich. Das Problem ist bei mir meistens die Zeit. Ich bin halt hier gerade fulltime bei YouTube, so fulltime, dass ich halt sogar Mitarbeiter habe. Deswegen bei mir schwierig gerade. Aber schreibt mir im Zweifelsfall einfach mal. Vielleicht können wir da was finden, wenn es ein Auftrag oder sowas ist. Ich finde einfach als Benutzer wichtig, wo etwas herkommt, wie es funktioniert und warum.
02:01:03 Woher bekommen wir ein EEG-Gerät? Die Dinger sind super günstig. Wir haben das irgendwann mal im Studium gehabt tatsächlich. Das war richtig geil. 2015 war das in der Vorlesung zu Brain Machine Interfaces. Ich weiß nicht mehr, wie die Vorlesung hieß.
02:01:26 Aber das Spannende war, dass unsere Professorin, also es war eine Weihnachtsvorlesung, unsere Professorin hat einfach irgendjemand aus der Menge rausgepickt und hat ihm so ein EEG angezogen, hat dann angefangen zu messen, hat dann gesagt, so, jetzt schauen wir uns gerade mal kurz hier seine Basslines an und jetzt singen uns doch mal ein Weihnachtssied vor dem gesamten Kurs. Das waren halt so 50 Leute plus. Und der arme Mensch musste dann anfangen zu singen.
02:01:52 Und dann hat man richtig gesehen, wie seine EEG-Werte komplett in den Stressbereich geswitcht sind. Das war echt übel.
02:02:01 Ja, ja. Und sicher ein Informatik-Master noch. Boah, ich verstehe, dass du demotiviert bist, aber wie gesagt, ich glaube, dass im Master leider mittlerweile die falsche oder im Studium mittlerweile viele falsche Sachen gelehrt werden, die nicht mehr mit der Realität übereinstimmen. Aber das Hintergrundwissen, was du bei einem Studium bekommst, ist halt schon wertvoll. Aber ich bin ehrlich, ich kann es dir mittlerweile nicht mehr mehr sagen. Ich kann dir nicht mehr sagen, was in einem Jahr passiert. Es ist super, super schwer.
02:02:28 Genau, mit einem Schirmbann funktioniert das relativ gut. Es muss nicht unbedingt ein Schirmbann sein, aber es gibt solche kleinen Elektroden, die man sich aufkleben kann. Da müssen wir uns alle eine Glatze rasieren. Dann kleben wir uns die Dinge auf. Und dann, ja, das ist tatsächlich ein EEG.
02:02:45 Wir haben einfach einen Autoencoder draufgeschmissen. Autoencoder, diffusion of EEG-Signals. Die Noising, okay, gut, das ist jetzt keine große Kunst. Reconstruct missing EEG-Channels, okay. Predict novel channel signals given physical coordinates of the scope. Gut, aber das ist kein... Das ist ja einfach nur eine Autovervollständigung für das, oder?
02:03:16 Das heißt, es geht darum, quasi die restlichen Channels
02:03:49 Vorherzusagen. Grüne sind Suna, ne? Das ist ein ganz normaler Autoencoder. Das ist quasi einfach das Verstehen davon. Also es ist nicht wirklich ein Text-to-Thought, nicht wirklich, was man versteht. Aber es ist eine Art Autoencoder-Compression, aus der man jetzt aber theoretisch was ableiten könnte, wenn man genug Trainingsdaten hat. Oh, bitte nicht Trainingsdaten von EEG ist mein...
02:04:16 Ah, nee, das wird unangenehm. Das wäre dann halt so was, wo man sich einfach quasi das Headset aufzieht und dann muss man, ja, muss man einfach nachdenken und dann wird das trainiert, weil es ist ja auch für jeden Menschen anders. Deswegen braucht es nochmal ein Feintuning wahrscheinlich auf jedes EG. Ich glaube nicht, dass wir alle dieselben EGs haben. Ich meine, das war mal irgendwann so ein Problem.
02:04:44 Die Frage ist, was wird alternativ gemacht? Das ist eine sehr, sehr große Frage. Prophetic AI hat dieses Halo-Stirmen. Nichts mit rasieren. Ich finde, man sollte immer noch alles lernen, einfach um selber schlauer zu werden. Ja, das auf jeden Fall. Das stimmt. Firmen schauen auf Abschlüsse. Das ist richtig. Aber die Frage ist,
02:05:14 Was machen viele Firmen in einem Jahr? Weiß man halt nicht. Thought to Video. Oder Thought to Image. Gab es mal was. Es gab ein paar Forscher, die haben Bilder aus einem Traum rekonstruiert. Das ist aber schon eine Weile her. Das hatte nicht so super gut funktioniert, aber es hat funktioniert, was schon irgendwie gruselig war. Tupac-Encoding. Wirklich Auswirkungen und Entwicklung der angewandten LLMs und Alternativsprachen für LLMs.
02:05:47 Also kann ich das wohl als Quereinsteiger komplett vergessen? Ich weiß nicht. Also, boah, die Frage ist halt, was du machen möchtest. Wenn du das möchtest, dann kannst du da durchaus viel machen. Also ich meine, wenn du jetzt als Quereinsteiger für Softwareentwicklung einsteigst und für, weiß nicht, Leuten hilfst, dann sowas zu machen, die sich halt mit AI vielleicht nicht auseinandersetzen wollen, hast du super Chancen momentan. Aber ich kann dir nicht sagen, wie lange das noch so ist. Also momentan ist so viel Bedarf wie noch nie. Ich meine, es gibt extrem viel,
02:06:17 was wir momentan brauchen. Ich meine, allein wenn ich jetzt mal Richtung Deutscher Staat gucke, gibt es einen Berg an Code, der eigentlich erstellt werden muss, Software, die geschrieben werden muss, bis das halt alles gemacht wird, dauert es noch eine Weile. Schwertschmied ist gut. Aber wer braucht Schwerter heutzutage? Ja.
02:06:46 Da bin ich noch nicht ganz auf dem neuesten Stand. Ich versuche schon zu viel, ich kann zu lesen und auf dem neuesten Stand zu bleiben. Thought to Video. Achso, das war das da oben. Man solle KI keine Passwörter erstellen lassen. Tatsächlich ein Reel, was ich auch gerade aufgenommen hatte. Das war schon übel. Daten, die digitalisiert.
02:07:13 Ritter? Okay, haben wir Ritter? Wie viele Ritter haben wir? Vielleicht lohnt sich der Einstieg in die Schwertschmiedekunst doch noch für mich. Also in Gothic 2 war ich immer Schwertschmied. Oder Schmied generell. Die Schwerder brauchen wir dann für die Zombie-Apokalypse, die entsteht, wenn die KI-Blase platzt. Oh, ist die ansteckend. Das wäre schlecht. Oh Mann. Ja, was soll ich jetzt sagen, Leute?
02:07:39 LLM hat die Privacy Star nicht mehr so weit weggegangen.
02:07:48 Das Problem ist, dass jeder Mensch seine ganz eigene Art hat zu sprechen. Und wenn du irgendwas schreiben würdest, dann würde das, wenn man sich einen Abdruck macht von dir, würde sich das wahrscheinlich schon irgendwie rekonstruieren lassen, von wem das ist. Ich glaube nicht, dass wir so einen detaillierten Abdruck haben, wie wenn wir unsere Gedanken quasi ausdrücken. Und das tun wir über Text oder über alles, was wir ins Internet absondern. Ach Mann.
02:08:18 Das ist, also ich weiß, dass vieles davon wahrscheinlich so in der Funktion noch einiges an Zeit braucht, bis es da ist, aber es macht mir trotzdem irgendwie Gedanken, wenn ich irgendwie so sehe, wie schnell sich alles ändert. Hier, warte, eine Sekunde, ich suche das mal eben raus, was ich meine. Die Geschwindigkeit ist das, was mich halt irgendwie so ein bisschen verwirrt. Das hier.
02:08:46 Nein, das ist es nicht. Ist egal. Kriegen wir Leaderboard. Das hier. Ich weiß, ich sehe noch nichts. Keine Sorge. Ich weiß, welcher Tab gerade gestreamt wird. So. Genau. Das hier ist... Wir haben keine Zahlen, von wann das ist. Wo sind die Flaggschiffe?
02:09:11 Hier, O4 war letzten Sommer, so im Juli, war das das aktuellste Modell. Dann, das war O4 Medium. Das war Nano. GPT 4.1 war das, gut, das war das Non-Reasoning-Modell. Das ist 5 Mini. Können wir vielleicht das einfach auf OpenAI-Modelle beschränken, bitte? Das wäre voll toll.
02:09:44 Ich glaube, mit OpenAI-Modellen kriegen wir das am ehesten hin. Oder wir machen es nur mit Cloud-Modellen. Das ist sogar fast noch einfacher. Hier, Cloud 16k37. Dann Cloud 4 fehlt. Doch, hier, Cloud Opus 4. Das war so nett hier oben, ne? Ne, das waren dieselben noch. Ach, das war...
02:10:13 eine Sekunde, hier 16, so 16k, dann nehmen wir hier die 3.7, gut, dann nehmen wir Sonnetz nicht, wir nehmen Sonnetz 4.5 nicht, wir nehmen Opus 4.5 und 4.6 ist noch nicht drin, okay.
02:10:43 So, das hier ist der Sprung gewesen von, der Sprung hier ist ungefähr in ein paar Monaten entstanden. Ich glaube, das waren vier, fünf Monate. Ich habe noch den besten Benchmark. Ich habe noch einen viel besseren Benchmark, über den wir uns unterhalten können. Wie hieß der? Der ist super.
02:11:14 Den meinte ich. Der ist noch besser. So. Das ist es. So. Oh, sie haben 4,6 drin. Oha. Yo, das ist halt so krank. Alter. Okay. So. Also, wo ist die schöne Grafik? Kann ich die in voller schönen Größe mir anzeigen lassen?
02:11:44 Kriege ich die? Dankeschön. So, das ist Logscale. Ich mache mal Linearscale, dann sehen wir es eher. So. Okay. Das hier ist 2022 gewesen. Das hier war 2023, 2024, 2025 und das hier ist gerade 2026. So.
02:12:05 Ihr seht, was ich meine, oder? Das ist das, was mir gerade ein bisschen Kopfzerbrechen macht. Das ist tatsächlich nicht mehr exponentiell. Wir können das ganz gerne mal machen. Ich weiß nicht, ob ich die rohen Zahlen irgendwo herbekomme. Kriege ich die rohen Zahlen? Bitte.
02:12:36 Das ist sogar schneller als exponentielle Steigung, was wir hier gerade haben. Das ist das, was ich meine. Achsef? Ist das? Ne, das ist... Oh doch, die ist vom 25. Februar. Haben wir hier die kompletten Daten drin? Ah, oh, ich sehe es gar nicht.
02:13:03 Nee, nee, nee. Datensatz, Datensatz, Datensatz, Datensatz, Datensatz. Hier. Expand, nee, das ist related work. Nee.
02:13:39 Ich kann es euch viel einfacher zeigen, ich bin doof. Hier, wir haben ja eine Linear Scale. Und wir haben eine Log Scale. Wenn es exponentiell wäre, dann wären wir exakt auf dem mittleren Streifen drauf. Die haben das hier irgendwie seltsam gemacht. Kann ich hier irgendwie reinzeichnen? Geht das? Nee, kann ich nicht. Wenn man das hier jetzt mal so verbinden würde, dass man...
02:14:05 hier versucht durchzumalen, dann sehen wir ja hier...
02:14:12 dass wir bei GPT-4O ein bisschen drunter lagen. O1 Preview lag noch ein bisschen drunter. O1 lag noch ein bisschen drunter, wobei die Kurve fairerweise auch versucht wurde, auf GPT-4 beim Release-Zeitpunkt einzutragen. Und jetzt mittlerweile sind wir hier mit 3.7 Sonnett sind wir noch auf der Kurve drauf. O3 lag drüber, GPT-5 lag schon drüber. O plus 4.5 liegt drüber, 5.2 liegt drüber und 4.6 liegt noch mal rapider drüber. So, was das heißt ist,
02:14:42 Wir sind schneller als exponentielle Entwicklung. Exponentielle Entwicklung wäre hier ungefähr, das wäre schon fast das Minimodell, also so ein kleineres Modell als das, was es eigentlich ist. Und wenn wir hier das einfach weiterführen und wirklich das Ganze weiter so denken, dann ist das hier, also haben ein paar Leute schon geschrieben, dass es hier nicht mal mehr eine exponentielle Entwicklung ist, sondern eine N hoch N Entwicklung. Und N hoch N ist nochmal eine ganz andere...
02:15:10 Ganz andere Hausnummer. Ich zeige es euch mal eben. Ich versuche es mal eben. Das kriegen wir doch hin, oder? Wie soll sich das so sehr verändert, als ich das letzte Mal benutze? Ach, jetzt. So, jetzt.
02:15:49 Ja, kriegen wir hin. Nein, kriegen wir nicht hin. Nein, kriegen wir nicht hin. Ich bin zu doof für den Input. Ich muss kurz basteln, ja?
02:16:43 Vielleicht geht es so. Aha, das ist es. So, das hier.
02:17:02 So, enlarge, das wäre viel zu einfach gewesen. Ah, okay, dafür brauche ich Pro. Gut, dann müsst ihr es so akzeptieren. Ich habe kein enlarge hierfür. So, was wir haben ist, hier einmal die gelbe Kurve ist x hoch x und die blaue Kurve ist 2 hoch x.
02:17:18 Und ich habe jetzt schon einige Leute sagen können, dass wir eigentlich gar nicht in einer exponentiellen Kurve sind, sondern dass wir eigentlich in einer x hoch x Kurve sind. Also dass es quasi sehr viel schneller als exponentiell steigt. Ich glaube, wir kennen wenig Formeln, die schneller steigen als x hoch x, weil man sozusagen nicht nur eine 2 hoch x potenziert, sondern halt die Zahl selber, die ja auch immer höher wird.
02:17:46 Kann ich euch das irgendwie Y von 0 bis nochmal 100? Kriegen wir das hin? Fuck. Nee, kriegen wir nicht.
02:18:25 Kriegen wir das so hin? Nein, kriegen wir auch nicht hin. Ich will eigentlich einen Graph haben, aber ich kriege keinen. Mann! Ach, Mann. Na gut. Dann akzeptiere ich das jetzt, dass wir keinen vollständigen Graph bekommen. Ihr seht, was ich meine. Ich glaube, darum geht es. Dass wir hier sehen können, dass es am Anfang eigentlich nicht relevant ist, weil wir hier schon längst drüber sind. Und danach steigt die Kurve halt sehr viel schneller als die blaue Kurve. Darum geht es mir gerade.
02:18:54 Fair Fakultät steigt noch schneller. Gab es auch schon Leute, die gesagt haben, dass es eher wie Fakultät aussieht. Also das hier. Aber man weiß es halt nicht so genau. Wir sind noch zu nah dran. Ja, X Fakultät. Genau. Ja.
02:19:18 Also wir wissen nicht, ob es jetzt x Fakultät ist oder x hoch x, aber was wir sehen können ist, es steigt wahrscheinlich schneller als exponentielles Wachstum. Und das ist halt was, was glaube ich so noch nicht so ganz verstanden ist. Vielleicht kurz zum Mieter, was die eigentlich machen. Die messen, wie lange oder ob eine KI eine Aufgabe von so und so vielen Stunden autonom durchführen kann. Das bedeutet,
02:19:45 Quasi wenn ich jetzt.
02:19:49 im März 2023 GPT-4 gesagt, eine Aufgabe gegeben habe, egal was für eine Aufgabe, aber eine Aufgabe gegeben habe, die für mich in etwa sechs Minuten gebraucht hätte, dann habe ich mit GPT-4 eine bisschen mehr als höher oder mit GPT-4o eine 50% Chance, dass die KI die Aufgabe richtig schafft, also korrekt löst. Das heißt, hier war die Task-Length ziemlich genau sechs Minuten.
02:20:18 Wenn wir eine 95% Chance haben wollen, dass die KI die Aufgabe löst, dann ist die Aufgabe zwischen 3 und 12 Minuten lang. Beziehungsweise wir können es hier auf 80% stellen, dann schiebt sich das alles ein bisschen nach unten. Und wenn wir eine 80% Erfolgsquote haben wollen, war mit GPT-4, waren wir bei einer Aufgabe, die mich als Mensch 36 Minuten gekostet hätte. So. Ich kann eigentlich die Kopfhörer abziehen, fällt mir gerade auf.
02:20:48 Wenn ich jetzt heute Claude Opus 4.6 das Ganze frage, dann kann ich eine Aufgabe stellen, die mich als Mensch eine Stunde und drei Minuten kostet und sie wird zu 80 Prozent richtig beantwortet werden. Eine Stunde und drei Minuten ist schon nicht wenig. Also wenn ich als Mensch das brauche, dann kann ich die einfach fragen und mach einfach mal. Und wenn mir eine 50-prozentige Erfolgsquote recht ist, dann kann ich hier sagen, okay,
02:21:17 Implementiert zum Beispiel ein Protokoll von einem RFC, was schon echt eine komplexe Aufgabe ist. Sieht noch okay aus, wenn man die Error-Bars beachtet, fair, das stimmt, dann sieht der lineare Fit noch einigermaßen okay aus. Aber es ist schon eng. Also ich meine, wir sind jetzt hier konstant eigentlich mit dem Durchschnittsfall sind wir drüber. Also konstant eigentlich.
02:21:42 Gut, bei Claude ist halt, oder bei Opus, ah, die haben das mit reingezählt. Nee, guck mal hier. Der Arrowbar ist von Claude ist hier unten. Das ist da zu Ende. Ja. Kontextkonzentratverständnis.
02:22:11 Ich kann dir bei dieser Aufgabe nicht helfen, weil ich ein Sprachmodell bin. Ja, fair. Könnten wir berechnen tatsächlich, ne? Kriegen wir die? Uh. Uh, wir kriegen die Daten. Wir kriegen die Daten. Moment. Moment, Moment, Moment. Das sieht gut aus. So.
02:22:40 Oh yeah, wir haben die Daten. Also ich habe die Daten. So, warte mal. Lass uns das einfach mal mit Gemler visualisieren, würde ich vorschlagen.
02:23:21 So, mal gucken. Ich kann es euch erst sagen, wenn es funktioniert. So, jetzt seht ihr den Tab. Schön.
02:23:45 Der Skill, komplexe Aufgaben in kleinere Tasks aufzuzeigen, ist extrem wichtig. Ja, jetzt schon. Also wenn du das machen kannst, mega. Wie siehst du die Entwicklung im Vergleich von LLMs und Video-KIs? Ehrlich gesagt ziemlich ähnlich, nur Video-KIs sind einfach ein bisschen zeitverzögerter. Also ich meine, da haben wir jetzt auch gerade einen extremen Sprung nach vorne gemacht mit C-Dance und ich glaube nicht, dass es aufhören wird. Und auch Veo war schon ein ordentlicher Sprung nach vorne. Da sind sie noch ein bisschen langsamer, die Schritte, aber das wird ja auch kommen.
02:24:16 Ich habe jetzt einfach mal gesagt, dass es mir das Ganze visualisieren soll. Ja, es plottet die Kurven.
02:24:32 Ich glaube nicht mal, dass wir dann morgen irgendwie auf dem Acker stehen und das machen, was unsere Urgroßväter schon gemacht haben oder Großväter gemacht haben. Ich glaube nicht, dass das passiert. Ich glaube tatsächlich, dass diese Technologie einfach da ist und jetzt halt einfach auch nicht mehr weggeht. Und dementsprechend wird der Acker halt automatisch beackert. Es klingt drei Stunden draußen und gut.
02:25:01 Weil ich hatte jetzt, also ich hatte es irgendwann mal gesehen, aber das war mit Seelance war ja brutal. Ja, wo die Reise hingeht, weiß echt niemand.
02:25:14 Ne, ich mache nicht alles mit Gemini, aber ich mache wirklich das Allermeiste, was irgendwie mal schnell machen muss, mache ich mit Gemini gerade. Also was komplex ist, was ich wirklich und wo ich keine persönlichen Daten mit reingebe. Aber sowas hier mache ich zum Beispiel ganz gerne mit Gemini, wenn ich den direkten Bild als Antwort bekomme in den meisten Fällen. Ja, ich vergleiche es auch eigentlich ganz gerne mit der industriellen Revolution. Boah, ich bin jetzt so lächerlich warm gerade. Ich bin bei 29 Grad, ihr könnt euch das nicht vorstellen. Es ist wie Hochsommer, es ist zum Kotzen.
02:25:44 Ich habe den ganzen Morgen das Fenster aufgehabt, damit es möglich kalt ist für ein Streaming. Jetzt fängt das wieder hier an. Ohne Scheiß, ich schmeiß bald die Klimaanlage wieder an, wenn es so weitergeht. So. Fotograf ist eine gute Option tatsächlich. Niemand will... Man möchte ja nicht KI-generierte Fotos von seiner Hochzeit haben, beispielsweise. Ja, klar. Ja, 3.1 Pro ist Reasoning, ist extrem.
Datenvisualisierung und Wachstumsanalyse
02:26:1302:26:13 Trinken, danke. Jetzt kommt das Ergebnis. Schaut euch das an. Ich habe einfach nur die rohen Daten reingegeben und das kommt raus. Hier, einmal ganz kurz. Visualize the data for me. Include exponential growth. Und dann habe ich einfach die Daten reingegeben und bekomme so eine Antwort. Das ist halt schon was, was ich als Mensch nicht so leicht machen kann. Es hat einfach gepasst. Okay, das Bild ist viel zu klein. War das ein anderes Problem? Kann ich das?
02:26:44 Aha, so, wir schärmen diesen Tab. Okay. Und fairerweise ist das hier natürlich jetzt nicht reingerechnet. Und hier hinten wird es sehr dens.
02:27:22 Ja, ich glaube, wir müssen es vielleicht ein bisschen umlegen. Sekunde.
02:28:03 Wo fangen wir an mit GPT-4? GPT-4, ich glaube, das macht schon Sinn.
02:28:42 Ja, okay, man kann es auch. Ja, kann man machen. Ja, Notebook LM würde gehen. Was nimmt es für ein Wachstum? Das ist eine gute Frage. Stimmt, ich kann einfach die KI fragen, weil ich das Wachstum... Das tut mir so leid. Ich bin manchmal auch noch wie so ein Neandertaler.
02:29:23 Oh, ihr seht tatsächlich noch die andere. Ist ja cool. So, ich mache gerade mal hier weiter. Die wenigen Daten zu Beginn werden entsprechend wenig gewichtet. Ist nicht letztendlich wurscht, ob das exponentiell oder faktoriell wächst. In jedem Fall ist Sagenhaft. Fair, ja, schon. Das ging verhältnismäßig schnell. Ah, okay.
02:29:52 Exponential Growth Curve. Okay, makes the most sense. Explicit Doubling Time. Stimmt, das ist halt immer noch eine Option. Es kann halt immer noch sein, dass wir einfach irgendwann an den Ceiling kommen und dann einfach das Ganze an eine Schranke wächst. Das könnte halt wirklich irgendwann demnächst mal sein.
02:30:37 Jetzt. So. Ja gut. Fairerweise. Die Kurven sind basically sehr ähnlich. Noch. Ich glaube wir werden es irgendwann mal rausfinden. Ja. Wir werden es irgendwann mal rausfinden was es ist.
02:30:57 Die Mieter schreibt auf der Webseite zum Wachstum exponentiell mit sieben Monaten Verdopplungszeit. Aber die neuen Daten passen eher zu einer Verdopplung alle 4,5 Monate. Also es ist schon schneller geworden irgendwie auch nochmal. Ich meine, wenn man jetzt allein überlegt, ich brauche ja hier nicht mal...
02:31:20 diese Aufgabe zu 100% schaffen. Ich kann ja auch einfach eine Review machen mit demselben Modell und dann sagen, ey, mach das nochmal besser und dann mach es nochmal und mach es nochmal, so lange bis ich es wirklich korrekt habe. Das ist ja, also Reviewen ist ja auch ein Task, den ein Mensch machen würde und dementsprechend kann ich das auch von der KI machen lassen. Das ist schon spannend. Krass.
02:31:51 Hier haben wir 50% Success Rate. Interessant, da gibt es auch wirklich teilweise schwerere Tasks.
02:32:24 Das ist vermutlich keine Option, sondern irgendwann... Wie würde ich KI in Closed ERP System nutzen? Wow.
KI-Einsatz in geschlossenen Systemen und Zukunftsperspektiven
02:32:3302:32:33 Das kommt mega auf dein Projekt drauf an, glaube ich. Wenn du die Erlaubnis hast, es zum Coden zu benutzen, kannst du das natürlich machen, aber wenn du halt da die Erlaubnis nicht hast, dann ist es halt genau das Problem. Dann hast du, dann musst du es irgendwie self-hosted hinbekommen und ich glaube mittlerweile, wenn wir halt sowas wie ein Minimax oder sowas self-hosted hinbekommen, was man sich ja durchaus leisten kann, dann hast du auch da wieder die Möglichkeit, dass es skaliert, aber du hast es halt komplett unter deinem Dach sozusagen.
02:33:03 dass unabhängig davon, wie der Job genau aussehen wird, am Ende viel mehr Fachkräfte in der IT gebraucht werden. Ja. Wir werden einfach mehr machen. Das hat man ja schon öfters mal gesehen. Wenn mehr günstiger hergestellt werden kann, dann steigt einfach der Bedarf dafür. Und das ist irgendwie was, was in meinen Hähnchen nicht reingegangen ist. Ich wollte das mal alles in dem Video noch separat aufarbeiten. Ich glaube, ich mache das auch mal irgendwann demnächst.
02:33:35 Ich glaube sogar in England, da muss ich halt so einen Traktor leisten können. Okay, krass. Geil. Gut, GTA 5 ist auch fairerweise schon relativ alt, ne? Ach, schon mal hier. Ist auf dem 20.
02:34:07 AI Tools Cost 20% Slowdown, Completing Taskman Experience Open Source Developers Using Data. To understand how AI is impacting developer productivity over time, we started a new experiment in August 2025 with a larger pool of developers using the latest AI tools. Unfortunately, given participants' feedback, we believe that data from our new experiment gives us an unreliable signal of current productivity effect of AI tools.
02:34:36 The primary reason is that we have observed a significant increase in developers choosing not to participate in the study because they do not wish to work without AI, which likely bypasses downwards our estimate of AI-assisted speedup. We additionally believe that there have been selection effects due to lower pay rate. We reduced pay from $150 per Stunde to $50 in our measurements of...
02:35:04 Time spent on each task are unreliable. Krass. Die Developer weigern sich einfach, ohne KI zu arbeiten. Deswegen kann man die Studie nicht durchführen, was effektiver ist. Schön.
02:35:31 Also tatsächlich, wenn du denkst, du bist zu doof dafür,
02:35:37 Passiert nicht. Du kannst dir einfach die Aufgabe rauspicken, die dir Spaß macht und dann probierst du es einfach mal. Man wächst rein. Trust me. Du fängst an und hast keine Ahnung von irgendwas. Das ist völlig normal. Jeder fängt an mit IT und hat keine Ahnung von irgendwas. Und dann wächst du nach und nach rein und lernst verstehen, ah, das und ah, das und ah, das und dann wird das irgendwann. Das kommt von selber. Da musst du dir keinen Stress machen. Du musst nicht am Anfang alles können. Niemand ist irgendwie
02:36:06 in die IT gegangen, konnte schon programmieren und hat schon irgendwie mit allem gearbeitet, was es da draußen gibt. Das gibt's nicht. Krass. Und wenn du was nicht weißt, frag den Chatbot. Genau. Das ist eigentlich so das, was ich am allermeisten immer wieder sage. Versucht's euch erklären zu lassen.
02:36:26 Versucht, also wenn man irgendwas nicht versteht, nicht einfach hinnehmen, dass es die KI machen kann, einfach verstehen versuchen. Genau, wenn man es heutzutage machen möchte oder reinkommen möchte, dann ist es wahrscheinlich nichts so einfach wie heute, das Ganze zu verstehen.
02:36:55 Ich habe gerade noch das hier gelesen. Gemini meint, dass es exponentiell und nicht x hoch x oder factorial.
02:37:53 You've hit your limit. Nett. Schön. Oh, mein Gott. Schreib mal noch was anderes, bitte. Ich muss sehen, ob das alles von Cloud war. Da hat einfach jemand gerade in den Chat geschrieben. You've hit your limit. Reset 6 p.m. So.
02:38:24 In der Stunde Refresh. Oh my God.
02:38:42 So, nehme ich von 6-4-Mund. Aha! The growth over full timeline is indeed super exponential. Standard exponential growth relies on a constant doubling time. When your doubling time actively decreases as time goes on, the curve bends upward much more aggressively than the standard exponential function. To your point about xox or factorial growth, while it's tough to definitely lock the trend to exactly one of those two mathematical functions,
02:39:09 hmm the real world behavior matches their exact defining trait ever accelerating rate of growth yeah okay
02:39:57 Eine Sekunde, ich sage kurz den Ding bei euch. Wenn du nicht weißt, worauf du hinarbeiten sollst, suchst du ein Projekt und versuchst dann das Projekt einfach durchzuziehen. Einfach was, was dir Spaß macht für dich persönlich. Ui, ich habe gerade lags. Nee, YouTube laggt. YouTube-Seite laggt.
02:40:31 Und für IT ist perfektes Englisch auch nicht mehr wichtig. Du kannst auch mit Cloud auf Deutsch schreiben, das funktioniert auch. Das funktioniert vielleicht manchmal ein bisschen mehr holprig, aber es funktioniert mittlerweile sehr, sehr gut. So, to calculate the expected task. So, also ich habe gefragt, wie stark werden oder wie lange können Tasks sein Ende 2026, die wir ausführen können. Wir nehmen jetzt mal das von Februar, dem 5. Februar. Time Delta, genau.
02:41:01 T50 Horizon, doubling times 122,61 days. Ja, aber das ist jetzt gerade die doubling time. Using standard exponential growth. Ach, Gemini.
02:41:32 Welche Zahlen hat sie genommen? Hä? Moment, ich muss mal kurz die Zahlen von Mietern nochmal holen. Ah, das ist der CI, das... Scheiße.
02:42:02 Ich will jetzt rausgucken. Ich will wissen, wie lange ich meinem KI-Modell am Ende des Jahres sagen kann, was es tun soll. Also quasi, ey, hier, mach mal. Ich meine, es ist schon beeindruckend, wenn ich jetzt einfach... Allein das Wissen zu haben, ist schon geil, wenn ich jetzt weiß, okay, Claude kann einfach... Also Claude 4.6, was schon nochmal extrem viel länger ist. Hier, eine Aufgabe von 14,5 Stunden. Davor war es halt 5,5 Stunden. Das kam im November raus, das Modell. Das hier kam im Februar raus. Das sind...
02:42:31 Dezember, Januar, Februar. Das sind drei Monate. Bei Cloud droppt die Qualität nach der dritten. Ich finde, es ist besser geworden mit Cloud Opus 4.6. Bei 4.5 war es richtig schlimm. Bei 4.6 ist es sehr, sehr viel besser, habe ich das Gefühl. Ich muss mal gucken, ob du das Modell benutzt. So, jetzt hier.
02:42:55 Gemini ist wieder mal verwirrt gewesen. Das hat Gemini immer noch ganz extrem. Das ist einfach nach so zwei, drei Fragen, keine Ahnung mehr von dem, was es gerade gesagt hat. Effektive doubling time. 10. 90.
02:43:25 49, so. Massively outdated by the recent data points. If we project from our current baseline, cloud Opus 4.6 at 820...
02:43:42 Stabilizing at 90. Digga, wir haben gerade gesagt, es ist nicht stable. Man, free fall continues. So hier, ungefähr 60 Tage rate. Okay. If acceleration we saw between December and February continues, doubling time hovers around 60 days for the rest of the year. Das stimmt doch nicht. Muss ich das jetzt wirklich selber durchrechnen, Bruder. So. Also wir hatten Februar letzten Jahres, hatten wir ein doubling time von
02:44:16 Das wäre April, das wären 63 Minuten Tags-Test. So, wir machen das jetzt richtig. Wir sind ja hier für wissenschaftlichen Content, nicht wahr? Sorry, ich bin da manchmal ein bisschen versessen, I guess.
02:44:34 Das wäre Mai. Das wäre 2024 vor allem. Das wäre 2025. So, hier Februar. Haben wir eine Task-Length von 60 Minuten. Dann haben wir 120 Minuten. Hier, das wäre eine Verdoppelungszeit von ...
02:44:56 zwei Monaten tatsächlich und hier haben wir, wann haben wir vier Stunden da? Das wäre schon wieder, was haben wir hier? Fünf Stunden, das wäre halt November. Funktioniert nicht ganz, dass verschiedene Anbieter sind. Wenn man es da durchlegt, dann könnte es noch linear weitergehen. Nehmen wir es jetzt einfach mal so an, dass es passt. Ah, ich habe es gar nicht gesehen, sorry.
Prognose zur KI-Leistung und zur Zukunft des Agenten
02:45:2502:45:25 Also wenn wir das weiter berechnen oder weiter projizieren, dann sind wir zwischen 10.000 und 40.000, also 38.000 wäre die effektive Zahl. Jetzt muss ich kurz wissen, was für eine Zahl das ist. Okay, Kalk, den seht ihr jetzt gerade nicht, aber ihr könnt einfach kurz zuhören. Wir hatten...
02:45:54 Hier Opus 870 durch 60. Ich glaube nämlich 14,5 Stunden. Das sind die Stunden, oder? Ja, 14,5 Stunden. Also wenn sich das weiter so entwickelt, wie jetzt das gerade beim Mieter drinsteht, dann sind wir zwischen 10.000 und 40.000 Minuten. 38.802 Minuten wären...
02:46:23 Stunden. Das wäre hier. Ihr könnt eurem Agenten
02:46:32 Ihr könnt eurem Agenten am Ende des Jahres, also wenn sich das mit Mieter so weiterentwickelt, könnt ihr eurem Agenten Ende des Jahres sagen, ey jo, mach mal und ihr habt eine Aufgabe von 26,9 Tagen abgedeckt. Das heißt, ein Aufruf an den Agenten und ihr habt eine 50% Chance, dass es in einem Aufruf eine Aufgabe löst, für die ihr ungefähr einen Monat Arbeit braucht. Also einen Monat Arbeit braucht. Am Ende diesen Jahres.
02:46:59 Das ist exponentielles Wachstum. Ach du Scheiß, Alter. Monat Arbeit. Das wären vier Morpheus-Videos. Und drei Projekte. Oh Gott. Ja. Und dabei werden die ja nicht langsamer, die Modelle. Die werden ja immer noch schneller. Also ich meine, Claude Opus sage ich jetzt einfach irgendwas, es ist trotzdem schneller als 4.5. Obwohl die Aufgaben doppelt so lang sind.
02:47:29 Und selbst wenn es nur die 10.000 sind, selbst wenn es nur, sage ich mal, 10.000 Minuten sind, 10.000 Minuten durch 60, durch 24, sind immer noch 7 Tage. So, 10.000 Minuten ist gleich, äh, Minuten ist gleich
02:47:51 Ungefähr sieben Tage. Das heißt, selbst wenn es sich langsam weiterentwickelt, so wie es jetzt gerade ist, können wir am Ende des Jahres eine Aufgabe schicken und unser KI-Agent macht dann halt einfach einen Monat lang, eine Woche lang das, was wir gemacht hätten. Oder halt eine Woche unsere Aufgabe. Ich kann leider den YouTube-Chat nicht mehr lesen. Das ist der Wahnsinn. YouTube ist einfach tot. Es wäre immer cool, wenn die einen KI-Agent benutzen würden, um ihren Bug zu fixen hier. So.
02:48:20 Jetzt kann ich den Chat wieder lesen. Die ganzen Indie-Games mit Bitcoin-Miner und Steam. Oh, bitte nicht. Ja. Das ist schon was anderes nochmal. Muss man sich überlegen.
02:48:51 Was heißt das? Welche Aufgaben machen wir da noch? Ich habe auch tatsächlich einige Aufgaben. Also es gibt auch noch einige Sachen, die nicht funktionieren. Ich weiß nicht, ob ihr die Story gesehen habt. Wir haben im letzten Stream haben wir uns, ich muss mal gucken, ob ich die noch habe. Wir haben im letzten Stream die Mandelbrot-Zooms erstellt. Ich muss die euch nochmal ganz kurz zeigen.
02:49:19 Und zwar, das war der, hier, das war das, was, also es waren alles One-Shots. Das war der Code, der von Gemini 3.0 DeepSync gekommen ist. Also wo quasi DeepSync einfach gesagt hat, okay, hier, das rendere ich dir jetzt. Das ist deren Mandelbrot Zoom. Jetzt nicht das hübscheste, sag ich mal.
02:49:43 Das war der Code, den Claude Opus 4.6 rausgespuckt hatte. Also Opus 4.6, das ist das Modell, was hier gerade so krass gelobt wurde. Ich sag mal, der ist jetzt langsam.
02:50:03 Wie lange brauchst du dafür eine Aufgabe so zu formulieren, dass die KI wirklich 40 Tage beschäftigt ist und dass dann noch trifft, was du eigentlich willst? Genau, das ist genau das, das Alignment an dem, was wir eigentlich haben wollen. Ich glaube, das ist das, was wirklich, wirklich lange dauern wird, beziehungsweise wirklich schwer wird, auch hinzubekommen. Los, los, du musst es erreichen. Erreiche es.
02:50:29 Man iteriert mit einer KI, genau. Nee, keiner macht einen 40-Tage-Bondschot. Das geht eher darum, was die KI theoretisch machen kann in dem kurzen Zeitraum. Aber wenn du dann einfach so ein relativ ausgefeiltes Dokument hinlegst, von wegen, ey, mach das mal, und sie spuckt dir einfach quasi alles aus, instant, dann ist es halt schon krass. Und dann kannst du einfach sagen, ah nee, das will ich nicht und das will ich nicht, mach nochmal neu. Und dann ist halt so eine Iteration halt sehr, sehr viel schneller. Auch eine Websuche zum Beispiel oder sowas.
02:50:58 Erreichen wir es? Ja, irgendwann schon. Es dauert so rübelang. Jetzt. Da sind wir. Schön. Jetzt sind wir im Blauen.
02:51:27 Ja, vielen Dank. Also ich sag mal so, ich find's jetzt nicht schlecht, was es mir hier ausgespuckt hat, weil es auch wirklich so eine schöne Loop ist. Aber es ist halt nicht das, was man eigentlich unter einem Mandelbrot-Zoom versteht. Wir werden es nicht schaffen. Aber ich wollte ins Blaue rein mit euch, damit ihr seht, wie es weitergeht. So, und das, eine Sekunde, das ist ein Spoiler. Das hier ist das, was mir Gemini 3.1 ausgespuckt hat. In einem One-Shot übrigens.
02:51:56 Also das kam dann direkt raus. Es ist leider nicht unendlich. Ich will euch hypnotisieren jetzt tatsächlich. Ich liebe Mandelbrot-Zoom. Ich finde die Mathematik großartig. Theoretisch könnte man das jetzt laufen lassen bis ins Unendliche. Also es würde einfach nicht aufhören. Es würde unendlich weitergehen. Aber nicht von vorne wieder starten. Und ja, leider.
02:52:19 hat es hier dann tatsächlich irgendwann ein Ende. Das liegt einfach daran, dass es sehr, sehr schwer hinzubekommen ist. Aber ich will ganz kurz anmerken, dass diese Website einfach Grafikkarten-accelerated ist. Das ist so krass. Das hat es einfach nebenbei mal so gemacht. Oh, ich habe das auch noch offen. Ich habe noch einiges offen hier.
02:52:36 Wollt ihr den hier wieder gucken? Das ist der von 3.0 DeepThink. Ja, also 3.1 war schon nochmal ein ordentlicher Sprung nach vorne, finde ich. Also gerade was die Qualität davon, also nicht das natürlich, aber was die Qualität von den Details und so weiter angeht, das ist schon beeindruckend gewesen. Ich weiß nicht, wie ihre Modelle drin sind, aber ich...
02:53:04 Mich würde interessieren, warum du der Meinung bist, dass man Entwickler in der Zukunft noch brauchen wird. Das ist eine gute Frage. Wenn ich mir angucke, was ich so mache momentan, dann bin ich trotzdem noch ein Entwickler in dem Sinne. Aber ich glaube, wir müssen das so ein bisschen in die Perspektive stellen. Oh, ich muss das kurz stoppen. Sorry.
02:53:26 Wir müssen das so ein bisschen in die Perspektive stellen, was genau eigentlich gebraucht wird in der Zukunft und warum wir Dinge tun. Ich glaube, das muss ich mal wirklich aufschreiben. Ich glaube, das kann ich dir so direkt nicht präsentieren. Also pass auf, ich habe es mir aufgeschrieben als ein Video zu, muss ich meinen Wort nur laden.
02:53:56 So. Ich habe mir mehrere Videos in nächster Zeit aufgeschrieben. Ich habe noch was zu KI-Videos theoretisch. Ich weiß aber nicht, ob ich das nächste Woche schon machen kann, weil die sind noch nicht offiziell da. Ich habe was zu diesem...
02:54:11 was passiert, wenn KI wirklich so gut wird und dann wirklich wir in Richtung AGI kommen, was passiert dann? Und ich habe mir etwas zu speziell IT aufgeschrieben. Und ich habe mir aufgeschrieben, dass Super-KI gestoppt werden muss. Werdet ihr auch sehen, warum. Und ich habe das mit den chinesischen KI-Modellen aufgeschrieben. Also es sind einige Videothemen, die ich eigentlich gerne behandeln wollen würde. Jetzt am Sonntag kommt erst mal Matrix raus. Aber das wäre, ja, genau, das ist so der...
02:54:38 Tag und Nacht durch coden. Ey, das KI-Modell bei mir macht das momentan. Das codet einfach Tag und Nacht durch. Ich habe auch gerade tatsächlich, ich habe ja noch das OpenAI-Abo, das läuft erst in naher Zukunft aus. Und eine Sekunde, wo habe ich es? Ich habe es gleich für euch. Ne, das ist die Code Review, verdammt.
KI im Entwickler-Alltag: Automatisierung und Self-Hosting
02:55:0202:55:02 Wollte ich noch eine laufen lassen tatsächlich. Das ist es. Ich habe Codex Spark am Laufen. Ich muss euch das mal eben zeigen, wie schnell das läuft. So, Share Screen Window. Das da.
02:55:23 So, seht ihr das? So, Achtung, das ist Codex Spark jetzt. Ihr müsst mal kurz gucken. Ah, Context Compacted, guter Zeitpunkt. So, schaut mal kurz zu, wie schnell das gerade hier läuft. Das ist alles Code, der entweder gelesen, verarbeitet oder geschrieben wird von der KI. Und das ist Codex Spark.
02:55:43 ein KI-Modell, also das kleine KI-Modell, das bei Cerebras läuft. Und das läuft einfach die ganze Zeit bei mir im Hintergrund mit. Ihr könnt euch vorstellen wie so ein Mini- oder Nano-Modell von OpenAI gerade, das auf stark optimierter Hardware läuft. Und ich meine, ihr seht, wie schnell das geht. File updated, File updated, File updated, hier, bla. Das ist so schnell, das ist einfach...
02:56:13 Ja.
02:56:18 Also es sind keine Secrets oder sowas drin, keine Sorge und es ist limitiert auf genau diesen Bereich hier. Aber trotzdem ist es halt der Wahnsinn. Für das normale Codex-Modell braucht es halt übel lang und das ist halt instant da. Dafür brennt man sich auch innerhalb von einem Tag komplett durch die gesamte Woche an Nutzungslimits durch. Das ist aber auch gar kein Problem für mich. Ich lasse es einfach im Hintergrund laufen und beobachte es nicht mal, weil ich weiß ganz genau, dass der Code sowieso am Ende nur, also noch überprüft werden muss für mir.
02:56:48 Ne, ich habe tatsächlich, wie man die KI über Nacht laufen lassen kann, das ist erstmal die Frage. Ich habe bei mir ein Bash-Script drin stehen, da steht einfach drin, schnapp dir den neuesten GitHub-Issue und löse ihn und dann macht eine Review dafür und dann löse es und löse es und löse es. Bis du es fertig hast, dann machst du den nächsten GitHub-Issue. Und dementsprechend ist es quasi einfach eine dauerhafte Schleife, die da permanent durchläuft.
02:57:13 und dann was programmiert. Und ich will, also ich kann dir noch nicht sagen, ob es funktionieren wird. Das Ding läuft noch, aber es läuft immerhin. Es wächst nach und nach und ich sehe ja die Commits, die es für mich macht. Ich habe es allerdings gerade nicht offen, aber es macht immer mal wieder neue Commits. Was, wenn es keine Issues mehr gibt, dann hört es auf. Dann ist es einfach fertig.
02:57:36 Aber ich habe irgendwie 300 oder so was Issues definiert. Also ich habe auch eine KI genommen, die einfach aus dem Dokument raus Issues definiert hat und dann diese Issues implementiert jetzt. Also quasi eine KI schreibt die Issues, die andere löst sie einfach die ganze Zeit. Geht das nicht auch mit N? Doch, würde gehen. Kannst du schon machen, aber man kann auch einfach das Ding benutzen. Also ich meine, ja, klar. Ich kann auch einfach, also ich habe einfach ein Bash-Skript geschrieben.
02:58:02 dass er einfach genau das gemacht hat. Ist das mit Hooks? Ne, tatsächlich ohne Hooks, ohne irgendwas. Aber ja, ich mache mal ein Video hier auf dem Kanal dann dafür. Also ich habe zwei Videos eigentlich, die ich hier plane. Einmal für dieses Loop-Dingens und einmal eben für genau das. Weil das einfach, es funktioniert leider. Also ich kann ja nicht sagen, wie gut es funktioniert, aber es läuft zumindest. Ja. Perplexity Computer, sagst du?
02:58:40 Perplexity Computer. Ich schau mal kurz, was das ist. Perplexity Computer.
02:59:18 Ist das nicht Cloud Cowork von Perplexity? Wir stellen Perplexity Computer vor. So, eine Sekunde, ich share es euch. Screen, das hier, share.
02:59:31 So, wollen wir mal gucken. Wir stellen perplexe die Computer vor. Frontier-KI-Modelle werden immer intelligenter, die besten, heute finden wir genau das hier. Vereint jede aktuelle KI-Funktion in einem einzigen System. Computer ist ein digitaler Alltag-Mitarbeiter, der, ach ne, ja, ist das wirklich so ein Open Cloud, Cloud Cowork?
03:00:04 Das haben die komplett mit KI schreiben lassen.
03:00:30 Tatsächlich, ja. Es ist einfach nur ein KI-Modell, das jetzt einen ganzen Computer bedienen kann. Über genau das, was Cloud Code macht. Ja, das ist basically auch OpenClaw, würde ich behaupten. Aber ist das da? Das kam gestern raus. Jesus. Das ist ja... Ich frage alles. Ja, ich würde gerne was hier zu fragen kommen. Probieren wir mal.
03:00:58 Ja, das ist halt genau dasselbe. Habt ihr mir irgendwie einen Link oder so dazu? Wir stellen perplexe die Computer vor. Aha. Aber wo ist es? Gucken wir nochmal. Nee, nee, überhaupt nicht. Computer, da. Aha.
03:01:28 Using computer requires a max plan. Es ist wirklich Claude Cowork. Ja, tatsächlich. Genau dasselbe. All more trace. Eine Sekunde. All more trace. Open source.
Transparenz in KI: OMOTrace für das Training nachvollziehen
03:01:5803:01:58 Tool, dass die Transparenz von KI-Modellen erhöht. Das ist ja der Wahnsinn. Wir gehen hier gerade einfach nur durch Nachrichten durch. Ich komme ja selber nicht mehr hinterher. Allmode Trace. Going beyond data, increasing transparency and trust in language models with Allmode Trace.
03:02:22 Feature in the AI Playground that lets you trace the outputs of language models back to their full... Was? Ah, das ist quasi ein...
03:02:51 Okay, das ist beeindruckend. Moment, ich muss mir das eben angucken. Achso, ich brauche Kopfhörer dafür. Ah, sorry, sorry, sorry. Ihr seid völlig im falschen Browser-Tab.
03:03:12 Hi, I'm Jia Cheng, a researcher at AI2. Today I'd like to share a brand new tool in the AI2 Playground that lets you trace a language model's outputs back to its training data. We call it OMO Trace. Let me show you how it works. Start by writing a query to our large language model, OMO2.
03:03:34 Also kein Rack in dem Sinne, sondern wirklich vom Training, also von den Pre-Trainings-Data.
03:04:03 Okay. Dengan den Ton. Ihr habt Ton, oder? Molmo 2, krass, ey. Ihr habt Ton, Ton. So, what can you get from seeing these connections?
03:04:31 Sometimes you may want to figure out where the large language model got a specific fact, like this one about Celine Dion's birthplace and date. Knowing where it came from may give you a better sense of how much trust to place in it.
03:04:47 Wenn der LWM ist Hallucinatet oder gebt die Information, OmoTrace kann man helfen, was der Hallucination ist. Wie in dieser Beispiel, wo der LWM likely confused die Wissenschaften von Johann Bernuthi mit den von seinen Bruder, Jakob, wie wir sehen von diesem Training Dokument.
03:05:09 In creative tasks, like this example, where I asked Omo to write a poem, there is less of a need for fact-checking. But seeing where the model got certain phrases gives us a window into how it puts together its creative responses.
03:05:26 Omotrace ist eine eine Art von einem Feature und ist nur möglich, dass AI2's commitment zu machen, large training Datasets komplett offen zu machen.
03:05:43 oder wenn du finden kannst, was genau wo ins Training reingeflossen ist, nicht nur die Trainingsdaten, was alles verwendet wurde, sondern auch wie das Modell intern funktioniert und warum es anfängt zu halluzinieren oder warum es zum Beispiel anfängt, das Alignment kaputt zu machen oder sowas, dann ist es halt richtig genial, wenn du sehen kannst, warum, also wegen welchen Trainingsdaten ist jetzt hier das Alignment zum Beispiel kaputt gegangen. Wow!
03:06:09 Wir sind sehr glücklich, wie die Community die Somotrace benutzen kann, um uns besser zu verstehen, wie große Sprachmodellen funktionieren.
03:06:34 Das sind wirklich Open Models dann, also die Modelle sind ja quasi komplett Open Open. Vor allem das sind 32B Modelle, das ist nicht schlecht. Ja. Okay, das hatten wir gerade, das hatten wir gerade. Ich will noch mehr von ihrem YouTube-Kanal sehen.
03:07:15 Ah ja, hier ist noch was für ein Molmo, krass. Eine Sekunde, dann probieren wir es gerade mal aus. Tatsächlich Demo. Geil. Yes, yes, do it. You can have it. This model allows tool crawling. Nee, brauchen wir erstmal nicht. So. Boah, was wollen wir?
03:07:50 Habe ich noch hier irgendwas gerade offen? Achso, ihr seht es falsch. Sorry. Wobei doch, wir machen mal Toolcalling. Ja, das wäre natürlich noch geiler, wenn es dir die einzelnen Neuronen anzeigen würde. Warum, wie, wo, weshalb.
03:08:24 Es dauert eine Weile, aber das macht nichts. Ich schaue währenddessen mal hier weiter.
03:08:50 Reasoning across documents. Ich schau mal gleich das hin. So. Ah, das sind wir. Okay. Search papers by relevance. Okay.
03:09:16 refers to metric, oh perplexity, was, was, was, was, was, okay da will ich jetzt tatsächlich mal wissen, was das ist ist ja spannend okay
03:09:47 Hier komme ich wieder raus. Selection ab. First metric used to evaluate how well a probabilistic model, also völlig falsch natürlich, weil es sich auf komplett rein wissenschaftliche Fragen bezieht. Lower perplexity indicates that the model is more confident in its predictions.
03:10:16 Spannend, also es kennt halt einfach die Markennamen Perplexity nicht. Ah, it is commonly used to assess the performance of language models like those behind ChatGPT, Gemini and Perplexity AI. Wo hast du Perplexity raus?
03:10:43 JGPG Gemini Cloud? Hier. Aha, hier sind ein paar. Das ist echt, also ich meine, das Modell ist offensichtlich nicht so besonders current gerade, aber holy moly, nicht schlecht. Das ist schon geil, wenn man das einfach nachvollziehen kann.
03:11:12 Das ist schon cool. So, jetzt will ich mir das hier noch angucken, wie das mit Videos funktioniert.
03:11:28 Momo kann nun counten und tracken Objekte oder Aktionen in einem Video, sowie answerte complex Fragen. Momo, was die White Team getan hat hier? Die White Team hat die Ball nicht zu verletzten. Wenn die Blue Team geöffnet hat, sie nicht. Momo, kann man einen Schritt-by-step-instruktion aus dem Video machen? Hier sind Ihre Schritt-by-step-instruktionen, based auf den Clip.
03:11:55 Momo 2 ist trainiert auf dem largest fully open video centric multimodal corpus. Das heißt, es arbeitet auf den Video Frames dann tatsächlich. Und halt alles auf Open Source Daten, das ist schon geil.
03:12:23 ...of an Image Encoder. Momo, why can't the cat get the snail? The cat can't get the snail because there's a glass window between them. Momo's artifact detection can even help locate anomalies in videos that may be generated artificially. Artifact detected. Momo can reason across multiple images, documents, or videos simultaneously. With the ability to reason across multiple live input streams, the possibilities are endless.
03:12:51 Das ist richtig cool. Wie cool. Molmo 2, das ist das hier. Da kann man quasi Videos reingeben. Oh, das will ich mal ausprobieren.
03:13:20 Wie viel macht sie denn? Ach, wissen wir selber nicht. Okay, müssen wir kurz aufwarten. Das ist ein 8B-Modell übrigens. Ein 8B-Modell.
03:13:36 Genau, also wenn ich es richtig verstanden habe, ist es ein, sie geben denen einfach mehrere Input-Daten. Ich vermute, dass sie mehrere Input-Frames geben. Ich glaube nicht, dass sie alle Frames in dem Video als Input geben, aber muss ja auch nicht. Das ist schon cool.
Benchmark-Kritik und die SWE-Bench-Debatte
03:13:5703:13:57 Wieso habe ich bei CloudMax bei so Net4.6 200k Token Windows, wurde mir doch eine Million versprochen. Ja, das Modell kann eine Million, aber du zahlst für eine Million extra. Alles, was über 200k Token Windows geht, macht deswegen CloudCode, also wahrscheinlich hast du CloudCode genommen, macht es nicht. Ja, ich zeige es dir eben. So, eine Sekunde.
03:14:32 Ja, ich finde es nicht. Das ist wieder so versteckt bei denen. Egal.
03:14:41 Klar, dass sowas niemals auf Frontier-Level existieren kann, dann gibt es eigentlich eine ernst... Aber gibt es eigentlich eine ernstzunehmende, komplett offene AI-Bewegung, AI-Zern? Nicht wirklich. Also, komplett offen heißt ja auch, die Trainingsdaten offen und im besten Fall so offen wie das hier. Oh, hä? Wieso seht ihr nichts? Ah, es tut mir leid. Es tut mir leid, ich habe vergessen, den Screen zu switchen.
03:15:04 Also es gibt eigentlich nichts, was wirklich so offen ist, wie es wirklich Open Source wäre. Es gibt Open, also Open-Wade-KI-Modelle, die eigentlich an sich, ja, vieles nicht richtig oder noch nicht perfekt machen. Aber ja. So, sie macht einen. Boah, und sogar die Dings kommen hier. Die Frames, die erkannt werden. Zwei. Drei.
03:15:36 4 5 Es hat die Frames richtig genommen. Hier, ein Frame. Nächster Frame. Nächster Frame. Die Kunst ist ja hier, dass es nicht sagt, ey yo.
03:15:57 Hier ist ja auch schon eins. Also hier ist schon ein Frame und da ist noch ein Frame, da ist noch ein Frame, da ist noch ein Frame. Das ist irgendwie jedes Bild einzeln zählt, sondern wirklich, okay, hier ist es über Kopf und hier ist sie wieder normal und da ist sie wieder über Kopf. Wahnsinn. So, jetzt will ich wissen, wie die... Ah, hier gibt es kein Trace, okay. Okay, okay, okay.
03:16:31 Klickt das schon? All more Trace. Hier gibt es keine All more Trace. Richtig gut, ey. Bloom ist fully open, auch mit Daten.
03:16:41 Genau. Eben, Olmo ist komplett open gedacht. Auch mit EU. Es gibt eins aus Zürich, meine ich, von der ETH kann das sein. Aber die sind alle nicht Frontier, also nicht wirklich so im Sinne von Flaggschiff-Modell mit 250 Milliarden Parametern, mit allem drum und dran, mit Flaggschiff-Performance, mit Benchmarks auf Max. Das gibt es halt nicht, das meinte ich, sorry.
03:17:10 Plötzlich Hinderniserkennung, wie ein Menschen erkennen, der reinläuft, geht halt noch nicht so richtig. Ja, gut, das mit dem Tanzen ist auch oftmals einfach hardcoded. Ja, ganz ehrlich, BIS3 macht schon was. Das stimmt schon. Was macht Olmo 3.1? War das, was wir davor haben. Genau. Richtig beeindruckend, ey, voll gut.
03:17:33 Ja, krass. Also es ist, ohne Scheiß, es passiert so schnell so viel. Ich komme gar nicht hinterher. So, was ist Thüly 3 jetzt? Thüly's Leading Instruction-Following Model Family, offering fully open-source data, code and recipes designed to serve as a comprehensive guide for modern post-training techniques. Ah!
03:18:01 Von Sera habe ich schon mal gelesen. Sera ist auch, glaube ich, komplett open, oder? Open Coding Agents 32B. Krass.
03:18:35 Das ist unfassbar. Wir kommen immer wieder zurück zu Hacking Face. Den wollte ich euch eigentlich auch noch irgendwann zeigen. Hier der Qwenn 3.5 ist auch noch online gekommen die letzten paar Tage. Das ist halt ein lokales Modell, was extrem gut ist. Kriegen wir das? Ach, scheiße. Sorry, ich habe verkackt wieder mal. So, Serum. Das wollte ich euch eigentlich zeigen. Ich habe vergessen zu switchen wieder. Danke.
03:19:10 Genau. Hier Platz zwei der fully open source Models, nur schwächer als Serra 32b. Und das ist ja auch von denen. Das ist schon hier das hier. Komplett open. Krass.
03:19:40 So, und dann bin ich hier wieder zurückgegangen und wollte euch das hier noch zeigen. Und zwar QEN 3.5, 35BA3B. Das muss ich aber irgendwie schauen, dass ich das in einen neuen Tab aufmache. Nein, das wird mir nicht angezeigt. Gut, dann müssen wir das jetzt so machen. Hier, so.
03:20:07 Das hier ist von, warte, welches ist das? Welches? Das hier ist so Nett 4.5, so das Graue. Das Graue ist das Modell, was alle damals so übelhart gefeiert haben. Und das hier ist jetzt ein, nee, wo ist es? Das hier ist das Helle.
03:20:26 Was ist das da? Das ist, glaube ich, das da. Ist ein extrem kleines 35B-Modell, was wir theoretisch bei uns in der eigenen Grafikkarte reinpacken können. Was besser ist als das 122B-Modell? Hä? Wie geht das denn?
03:20:44 Ah, nee, Terminal Bench ist ein bisschen schlechter. So, hier, das Ding übertrifft halt so nett 4, 5, ne? Und zwar nicht mal so knapp, hier ist es doppelt so gut. Es übertrifft es in fast jedem Benchmark. Das ist halt ein Modell, was einfach bei uns lokal laufen kann. Das ist einfach komplett wahnsinnig.
03:21:07 welches Modell ich für O-Lama Open Claw empfehlen würde. Boah, ehrlich gesagt, weiß ich nicht, ob ich dir ein O-Lama-Modell überhaupt für Open Claw empfehlen würde. Also Open Claw ist ja schon riskant, sag ich mal. Wenn du da ein schwächeres Modell hast, dann ja.
03:21:29 Warum zahlst du nicht Minimax? Warum nutzt du nicht Minimax 2.5 über Olama? Zahlst du 20 Euro pro Monat? Achso, du meinst über Olama Abo?
03:21:39 Kann man eigentlich, gut, weil ich halt bei Minimax direkt das Abo einfach abgeschlossen habe, ich wollte es einfach mal ausprobieren. Ich dachte tatsächlich, dass es da noch ein bisschen was AI-mäßiges gibt, aber was ich testen könnte, aber ja. Kann man eigentlich nicht OpenAI-Abo für OpenClaw verwenden per OAuth. Du kannst es tun, aber die Frage ist, ob sie dich bannen. Bei Claude, es gab auch Verbindungsmöglichkeiten, aber sie haben dann angefangen, da die Leute zu bannen, deswegen wäre ich vorsichtig.
03:22:07 Ja, genau. Das von der ETH Zürich ist Apertus. Dankeschön. Genau das meinte ich. Apertus war das. Das ist auch Open Source, genau. Eben, und hier sind nur 3 Milliarden Parameter aktiv von 35.
03:22:36 Das ist so wild. Einfach 69,2 im SWE-Bench. Das ist ein 35B-Modell. Das ist ein lokales Modell. Das können wir hier laufen lassen. Das ist besser als GPT-5 Mini. Definitiv. Wahnsinn. Code Force ist einfach 2000.
03:23:09 Taubench 81 Hat sogar Vision Language, das wusste ich nicht mehr Ich benutze Vision Language erstaunlich selten, muss ich sagen Und das hier ist eh wild, das Ding ist
03:23:26 Das sehe ich irgendwo, genau hier. Cloud 4.5 Opus. Ist einfach fast gleich gut in den meisten Sachen. Hier. Opus. Quen. Und das ist halt, das kann man runterladen bei sich ausführen. Opus. Quen. Also klar, wie gesagt, Opus 4.6 ist nochmal krasser, aber trotzdem. Ah, Peter hat gesagt, dass OpenAI das okay findet. Ja okay, dann. Dann easy. Dann gönnt ihr.
03:23:59 HEE Verified 37. Wer ist Kimi? Kimi ist auch ein Open-Source-Modell von Moonshot AI, heißen die. Anthropic hat den SWE Bench Verified nicht mehr aussagekräftig bezeichnet. Weißt du warum?
03:24:28 Das muss ich mir auch angucken. SWE Bench Verified.
03:24:56 War lange ein führender KI-Benchmark, der die Leistung war. Nun erklärt Entropic den Benchmark für nicht länger verwendbar und empfiehlt stattdessen SWE Bench Pro.
03:25:07 Erstens werden in vielen Fällen auch korrekte Lösungen als falsch gewertet. Zweitens werden die offenen Quellen des Benchmarks oft, ja okay, für KI-Modelle mitverwendet, sodass die Probanden die Lösung der Gestellten quasi auslösen. Ja, Mann. Ja, okay, das ist halt das Problem, wenn du immer einen offenen Benchmark hast, dann kann natürlich jeder sich einfach bedienen und darauf halt overfitten oder benchmaxen.
03:25:32 Entropic schließt daraus, dass die Ergebnisse bei SWE Bench Verified nicht länger den Fortschritt beim Modell... Ich habe nicht so viel geschlafen, Leute, heute Nacht. Stattdessen zeigten sie nur, wie sehr das... Ja, okay. Deshalb will Entropic diesen Benchmark nicht mehr verwenden, empfiehlt auch anderen davon Abstand zu nehmen. Gut, die 80% sind dann wahrscheinlich gleich die Leistung, dass da die richtigen Lösungen auch als falsch gewertet werden.
03:26:05 Ja, genau, das ist immer das Ding. Viele, viele Benchmarks sind mittlerweile gesättigt. Die brauchen wir eigentlich gar nicht mehr. Mittlerweile eigentlich so ARK-AGI ist für mich immer noch so ein, also ARK-AGI 2 ist mittlerweile für mich so ein Go-To HLE. Und es gab einen neuen SWE-Benchmark. Wie hieß denn der? Oh, vielen Dank an RMG Skatecram fürs Abo.
03:26:36 Ja, ja, das Könnenmodell hier kannst du nicht lokal ausführen. Das 375 kannst du nicht lokal, also 397, sorry, das kannst du nicht so leicht lokal ausführen. Aber trotzdem, es ist halt ein offenes Modell, was du theoretisch runterladen kannst und dann doch lokal ausführen kannst. Was du ausführen kannst lokal ist halt sowas hier, 35B. Das geht lokal und das ist halt auch schon auf einem Level.
03:27:00 das deutlich besser ist als sowas wie GPT-4O, was wir noch vor ein paar Monaten unser bestes Modell nannten. Sorry, ich habe eine Sache noch rausgesucht. Nicht Frontier? Nee, den meinte ich nicht. Wie hieß denn der?
03:27:30 war das revenge weiß ich dass der hier war ja das war genau revenge bei der ist echt schwer
03:27:54 Hier, das sind die ganzen Dinger im Vergleich. Und das stärkste ist gerade Claude Opus 4.6 mit Claude Code mit einer Lösrate von gerade mal 52 Prozent, was wirklich nicht so viel ist. Also klar, wenn man es fünfmal drüber lässt, dann haben wir 70 Prozent, aber trotzdem, das ist schon nicht so viel. Und der ist richtig, richtig bockschwer, der Test.
03:28:19 Was ich sehr gut finde. Weil das Ding ist, man braucht ja irgendwo immer was, wo man halt nicht auf Max ist direkt, sondern wo man sagen kann, okay, wo können wir überhaupt noch Fortschritte machen? Also quasi neue Grenzen stecken, um besser zu werden sozusagen. Deswegen gibt es dann die neuen Benchmarks auch irgendwann wieder. Aber wenn jetzt SWE-Bench halt nicht mehr dabei ist, dann ist wahrscheinlich sowas hier auch durchaus sinnvoll zu machen.
03:28:41 Naja, das ist schon krass. Spannend. Dankeschön für das Update mit dem SWE Bench Verified. Wenn der natürlich offen ist von den... Sind hier die Daten auch offen, ist die Frage. Ich fürchte, die Daten sind hier offen, oder?
03:29:17 Hier ist es bis dann, ich weiß nicht, ob hier alles offen ist, ehrlich gesagt. Ups, da wollte ich gar nicht hin. Hier.
03:29:48 Hmm.
03:30:20 Was meinst du? Entropic? Ach, du meinst das mit dem, ja, das ist übel. Ups, sorry. Wo ist es denn? Da ist es. Also ja.
03:30:49 Aha, SWE Bench Verified. Nee. Nee, nee, nee, Moment. Okay, also ja, schon offen. Okay. Ja, das mit Entropic muss ich euch auch noch kurz zeigen. Das war übel. Entropic hat mit dem Pentagon Stress gehabt. Ich finde es kurz. Eine Sekunde. So.
03:31:18 Ah, perfekt. Eine Timeline. Genau das. Nein, kein Newsletter. Vielen Dank. Wo fangen wir an? Ich glaube, wir brauchen es gar nicht so detailliert. Auf jeden Fall. Genau, da sind sie.
Konflikt zwischen Anthropic und dem Pentagon
03:31:4103:31:41 Ja, genau hier. Also sie haben ihren Vertrag geschlossen im Pentagon, Entropic meine ich, und haben gesagt, okay, let's fucking go, hier sind Mille und die haben Bock da drauf. Und dann haben sie tatsächlich Claude benutzt, um in Venezuela Maduro zu fangen. Also quasi die US Special Operation Forces, die da nach Venezuela gegangen sind und Maduro.
03:32:10 festgenommen haben oder wie man es auch immer nennen möchte. Und jetzt hat Entropic dann gesagt, als sie mitgekriegt, also die wussten davon nicht, sie haben einfach nur gesagt, ja klar, dürft ihr KI benutzen, aber haltet euch halt bitte an die Richtlinien. Und die Richtlinien sagen eigentlich bei Entropic, militärische Nutzung ist untersagt. So. Genau. Und jetzt hier am 13. Februar sind Reports aufgekommen und dass sie eben Cloud benutzt haben.
03:32:37 Und Entropic hat gesagt, ey, nicht okay, Leute.
03:32:41 Wir wollen eigentlich nicht, dass unsere KI für militärische Zwecke benutzt werden. Das ist eigentlich gegen unsere Richtlinien, Digga. Und da kam dann tatsächlich aus dem Pentagon wiederum Gegenwehr, die gesagt haben, ja, also ihr habt die Verpflichtung quasi uns gegenüber hier alles zu liefern und wir müssen die KI benutzen können, weil das Pentagon hat Entropic, also Claude, als zuverlässigen Dienstleister etabliert.
03:33:11 Ein zuverlässiger Dienstleister heißt so viel, wie das Pentagon sagt, sie werden sogar zugelassen, ich meine für Safety-Sachen, also für quasi so interne Berichte, weil Entropic damit wohl gut genug umgeht. Diese Zertifizierung haben sie sich wohl richtig hart erarbeitet. Und jetzt ist es so, dass das Pentagon gesagt hat, ihr wollt, dass ihr diese Richtlinie streicht, dass man, also dass Entropic...
03:33:37 nicht oder dass Claude nicht genutzt werden darf für militärische Dinge. Also dass das Pentagon es auch für militärische Operationen nutzen darf. Das will das Pentagon von Entropic. Und Entropic will das eigentlich nicht. Aber jetzt haben sie halt ein Ultimaten bekommen und zwar bis morgen. Ich weiß gar nicht, wo das ist. Ah ja, und genau, Krog ist jetzt approved for classified use. Ja.
03:34:05 Das war vorgestern, genau. Ja, genau. Das hier war vorgestern. Haben sie gesagt, Entropic hat bis Freitag Zeit, um die neuen Richtlinien umzusetzen. Also sprich, dass sie eben auch für militärische Dienstleistungen genutzt werden dürfen. Das heißt, dass das Pentagon quasi sie auch im Krieg einsetzen darf. Und diese Deadline ist morgen.
03:34:33 To comply with demands. Or face consequences. Ja, ich bin so gespannt, wie das ausgeht. Nein, es gibt noch kein Settlement. Ich weiß wirklich nicht, wie das ausgehen wird. Blacklisting Entropic. Sends best and final offer. Wow. Ja, ganz ehrlich, kannst du sagen, was du willst, aber Entropic wird da kuschen. Die werden da. Ne, ich glaube, nicht alle US-Firmen sind verpflichtet, mit denen zusammenzuarbeiten.
03:35:06 Ja, vielleicht wird dann einfach die Firma geschlossen, weil sie potenziell bösartig ist oder sowas. Oder Entropic wandert tatsächlich aus. Vielleicht kommt ja dann Entropic in die EU. Das wäre so lustig. Entropic wandert aus, weil sie nicht militärische Nutzung erlauben wollen. Das wäre so geil. Ja, das ist wirklich schade gewesen. Ach man, wirklich. Dass man doch alles immer direkt für den Krieg benutzen muss. Ich weiß nicht.
03:35:36 Naja, gut. Ich würde es damit mal heute belassen. Also wir haben jetzt noch einiges an News durchgeguckt. Ich bin ein bisschen durch. Wegen mir kann Entropic dann gerne in die EU reinkommen und sich dann an europäisches Recht halten und dann einfach sagen, hey, Pentagon, ihr wolltet uns militärisch benutzen, das wollen wir aber nicht. Und dann wird einfach Entropic europäisch, das wäre cool. Aber ja, ich mache mal Feierabend für heute, glaube ich. Ich bin ein bisschen fertig.
Streamende und Ausblick
03:36:0403:36:04 Montag, Dienstag irgendwie von 7 bis 23 Uhr jeweils gearbeitet und gestern auch ein bisschen zu lange, weil ich das Video fertig kriegen wollte für Sonntag. Deswegen seht ihr mir bitte ein bisschen nach, dass ich echt müde bin gerade. Aber, ja, ich hoffe, es hat euch auch gefallen, dass wir heute einen Gast dabei hatten im Stream zum Podcasten und ich hoffe, es hat euch insgesamt gefallen, was wir heute gemacht haben. Und?
03:36:29 Ja, genau. Wir hören uns wahrscheinlich morgen mit einem Reel oder sowas und am Sonntag kommt dann wieder das Video. Ihr wisst, am Sonntag ist wieder D-Day, also Digital Independence Day. Das heißt, da werden wir wieder umsteigen. Und ja, bis am Sonntag, I guess. Genau. Macht's gut. Ciao, ciao.