Chinesische LLMs im Test

Chinesische KI-Modelle im direkten Vergleich getestet

Chinesische LLMs im Test

Kanal: Morpheus407

Morpheus407

19.02.26 • 04:02:41 • 2.397 Views

Twitch: 2701959792

Transkription

Eine neutrale Untersuchung bewertet die Leistung führender chinesischer KI-Modelle. Im Test zeigen Systeme wie Qwen 3.5 und Minimax eine erstaunliche Konkurrenzfähigkeit zu westlichen Modellen. Die Analyse offenbart jedoch auch, dass politische Sensibilität die Antworten der Modelle maßgeblich prägt. Die Ergebnisse deuten auf einen rasanten technologischen Wettbewerb hin.

00:00:00

Just Chatting

Einführung und Recherche zum Thema chinesische LLMs

Der Stream beginnt mit einer Vorstellung des Themas chinesische Sprachmodelle (LLMs). Der Streamer gibt an, sich tief in das Thema eingelesen zu haben und bezeichnet es als ein 'Rabbit Hole', also ein sehr umfassendes und komplexes Feld. Er möchte sein neu erworbenes Wissen mit der Community teilen und einen Benchmark für die Modelle durchführen. Nach der Begrüßung der Community gibt es kurze technische Ablenkungen und Problemlösungen, bevor er zum eigentlichen Thema übergeht. Er erwähnt nebenbei seine Projekte wie EuropeanAlternatives.Cloud und kündigt an, ein Video über OpenAI für den Sonntag vorzubereiten.

Vorstellung der wichtigsten chinesischen Flaggschiff-Modelle

Nach einiger Einleitung und kleineren Abschweifungen kommt der Streamer zum Kern des Streams: der Bewertung chinesischer LLMs. Er stellt fünf führende Modelle vor, die mit US-amerikanischen Konkurrenten mithalten können: Minimax 2.5, KimiK 2.5, GLM-5, DeepSeek Version 4 und Qwen 3.5 Plus. Er hebt hervor, dass er selbst ein Abo für Minimax 2.5 abgeschlossen hat, das für nur 50 Euro pro Monat eine hohe Anzahl an Anfragen bietet. Besonders beeindruckt ist er von den geringen Kosten im Verhältnis zur Leistungsstärke und stellt fest, dass diese Modelle eine ernsthafte Alternative zu etablierten Anbietern darstellen.

Benchmark-Vergleich mit US-amerikanischen Modellen

Im Mittelpunkt des Streams steht der Vergleich der chinesischen Modelle mit den besten aus den USA. Der Streamer nutzt verschiedene Benchmarks wie Arc AGI, Livebench und SWE Bench, um die Fähigkeiten zu evaluieren. Er zeigt auf, dass Modelle wie Qwen 3.5 in vielen Benchmarks den US-Konkurrenten wie Gemini 3 Pro, GPT-5.2 und Claude Opus 4.5 ebenbürtig oder sogar überlegen sind. Besonders beeindruckend ist die Leistung in Programmieraufgaben, wo Qwen 3.5 sogar besser abschneidet als die großen US-Modelle. Der Streamer betont, dass die chinesischen Modelle aufholen und auch in komplexen Aufgabenbereichen konkurrenzfähig geworden sind.

Praktische Anwendung, Kosten und Hostings-Möglichkeiten

Nach der reinen Analyse der Benchmarks wechselt der Streamer zur praktischen Anwendung der Modelle. Er zeigt die Plattform OpenCode.com, die einen einfachen und kostenlosen Zugang zu verschiedenen chinesischen Modellen wie GLM 5 ermöglicht. Er testet die Funktionalität und stellt fest, dass die Antwortzeiten auch bei der kostenlosen Version sehr schnell sind. Ein weiteres Thema ist das Self-Hosting. Während dies für die riesigen Flaggschiff-Modelle auf Consumer-Hardware nicht realistisch ist, werden Plattformen wie Cerebras als mögliche, aber teure Alternative erwähnt. Der Streamer bewertet abschließend, dass Modelle wie Minimax 2.5 im Verhältnis zu ihrer Stärke extrem günstig sind, aber nicht ganz die Leistung von Spitzenmodellen wie Claude Opus 4.6 erreichen.

Benchmark Framework für Chinesische LLMs

Der Stream stellt ein wiederverwendbares Benchmark Framework vor, das entwickelt wurde, um LLMs, insbesondere chinesische Modelle, zu evaluieren. Das Framework bewertet die Modelle über mehrere Dimensionen wie Korrektheit, Verzerrungen (Bias), Einfluss von Politikern und Influencern sowie Zensur. Der Prozess ist automatisiert: ein OpenCode-Sensor generiert einen Prompt, die Antwort des Modells wird erfasst, strukturiert und als JSON ausgegeben, und anschließend bewertet Codex die Antwort und erzeugt konfigurierbare Bewertungsscores.

Fokus auf politische Sensibilität und Sicherheit

Ein zentrales Anliegen der Untersuchung ist die Evaluation, wie die chinesischen Modelle mit spezifischen staatlichen und politisch sensiblen Themen umgehen. Es wird geprüft, ob die Modelle bei Themen wie China anders bewerten und ob potenziell unerwünschte Ergebnisse entstehen könnten. Darüber hinaus werden Tests durchgeführt, um die Anfälligkeit für Prompt Injection zu ermitteln. Bezahlmethoden werden diskutiert, wobei anonyme Optionen wie Kryptowährungen auf Plattformen wie Open Router als schwerer nachverfolgbar und daher sicherer eingestuft werden.

Praktische Durchführung des Benchmarks

Die praktische Anwendung des Benchmarks wird mit dem Minimax M2.5-Modell demonstriert. Das Framework ist so konzipiert, dass es direkt relevante Benchmarks mitliefert, wie beispielsweise den 'Schiffahrtsgesellschaft'-Test zur Prüfung der Genauigkeit bei spezifischen Aufgaben und den 'Tiananmen Benchmark' zur Bewertung der Censorship Resistance. Die Ergebnisse werden detailliert analysiert: Das Modell zeigt eine hohe faktische Korrektheit, aber die Bewertung der Censorship Resistance fällt mäßig aus, da die Antwort zwar direkt ist, aber kritische Details wie genaue Opferzahlen und eine präzise Sprache durch weichere Formulierungen und Auslassungen eingeschränkt wird.

Vergleich von Modellen und politische Bewertung

Nach dem Test von Minimax M2.5 folgt der Vergleich mit weiteren chinesischen Modellen wie GLM-5. Im Gegensatz zu Minimax, das bei politischen Fragen ausweicht, zeigt GLM-5 eine ausgewogene und inklusive Haltung in Bias-Tests. Es werden jedoch auch die Grenzen der getesteten Modelle deutlich, die bei komplexen Reasoning-Aufgaben oder Codierungsproblemen wie FizzBuzz teilweise scheitern. Die Komplexität des LLM-Marktes wird betont, wobei Modelle wie Qwen 3.5 und Kimi diskutiert werden, die zwar in den Ranglisten gut abschneiden, aber oft kostenpflichtig sind.

Bewertung der aktuellen LLM-Landschaft

Die Analyse der LLM-Entwicklung zeigt, dass große Fortschritte erzielt wurden, insbesondere in der Codegenerierung, aber auch erhebliche Herausforderungen bleiben. Während Cloud-Modelle wie Opus 4.6 beeindruckende Fähigkeiten haben, stoßen sie an Nutzungs- und Kostengrenzen. Die Leistung ist oft von der Domain abhängig, während Modelle in einem Bereich besser werden, können sie in anderen stagnieren oder sogar zurückfallen. Die zukünftige Entwicklung wird auf Effizienz, kleinere Modelle für lokale Nutzung und spezialisierte Anwendungen abzielen, während weiterhin neue Benchmarks die aktuellen Schwächen aufdecken werden.

Entwicklung und Investition in chinesische KI-Modelle

Die chinesischen KI-Modelle entwickeln sich rasant weiter, werden aber für komplexe Aufgaben wie Übersetzung oder Programmierung noch als mager angesehen. Investitionen in Milliardenhöhe treiben die Weiterentwicklung voran, wobei spezialisierte Modelle, wie Gemini DeepThink oder GPT-5.2 Pro API, entstehen. Die Entwicklungszyklen sind extrem kurz, wöchentlich erscheinen neue Modelle, und der Wettbewerb zwischen den Anbietern führt zu drastischen Preis senkungen, was die Modelle vorübergehend extrem günstig und zugänglich macht.

Bias-Tests und politische Zensur

Die Modelle werden auf verschiedene Arten von Bias getestet. Im Gender-Bias-Test schnitten die chinesischen Modelle neutral ab, was im Vergleich zu früheren Modellen eine Verbesserung darstellt. Der interessanteste Test ist der Political Bias. Ein chinesisches Modell (z.B. Qwen 3.5) zeigte hier beeindruckende Ergebnisse: Es behielt bei China-kritischen Texten den Ton und die Fakten bei, ohne zu zensieren, was auf eine relativ offene Handlungsfähigkeit hindeutet, solange die Inhalte nicht direkt in China verboten sind.

Fähigkeiten und Grenzen der Modelle

Die Modelle zeigen beeindruckende Fähigkeiten in bestimmten Bereichen, aber auch klare Grenzen. Qwen 3.5 TTS wurde als 'mega stark' und beeindruckend im Bereich der Text-zu-Sprache-Generierung gelobt. Bei Reasoning-Aufgaben wie der Auto-Wasch-Frage oder dem Zählen von Buchstaben in 'Strawberry' scheiterte das Modell jedoch. Offensichtlich gibt es weiterhin Schwächen im logischen Schlussfolgern und in der Anwendungslogik, selbst bei sonst leistungsstarken Modellen.

Coding-Leistung und Kosten der Anbieter

Die Coding-Leistung der chinesischen Modelle wird als solide, aber nicht mit den führenden westlichen Modellen vergleichbar angesehen. Anbieter wie Minimax werden für ihre günstigen Pläne gelobt, die für das Programmieren oft ausreichen. GLM-5 wird als 'fürs Coding scheiße' bezeichnet, während Kimi (Kim-Claw) hohe Nutzungsquoten bietet. Kritisch gesehen wird die Tendenz, die Usage-Limits und Kosten für Programmierer drastisch zu erhöhen, was die Kostenstruktur der Anbieter noch unrentabler macht.

Stepfun AI: Ein unbekannter Player mit starker Performance

Ein überraschender Kandidat ist Stepfun AI mit seinem Modell Step 3.5 Flash, von dem zuvor noch nie gehört wurde. Obwohl es nur 196 Milliarden Parameter hat, schneidet es in Benchmarks extrem gut ab und übertrifft Modelle wie Kimi K2.5 in vielen Bereichen. Es zeigt sich politisch zurückhaltend, weigert sich, über Tiananmen Square zu sprechen, ist aber bei anderen Themen wie Taiwan und Uiguren offen. Die Modelle in China sind kleiner und dichter, aber leistungsfähig und ein starker Wettbewerber.

Fazit und Ausblick

Die Schlussfolgerung des Streams ist, dass chinesische KI-Modelle beeindruckende Fortschritte gemacht haben, besonders bei Bias und politischer Sensibilität. Sie sind in der Lage, mit westlichen Modellen zu konkurrieren, werden aber aufgrund kultureller und rechtlicher Gegebenheiten anders handeln. Die rasanten Veröffentlichungen neuer Modelle sind für den Streamer nicht mehr zu bewältigen, und es wird gefordert, dass auch die EU ein eigenes Flaggschiff-Modell entwickeln muss, um im globalen KI-Wettbewerb nicht den Anschluss zu verlieren.