Die meisten Humanoiden brauchen für jede Aufgabe spezifische Trainingsdaten. Man zeigt dem Roboter hundertfach, wie man eine Kiste greift, und hofft, dass er es dann auch mit anderen Kisten kann. 1X geht einen anderen Weg. Ihr neues “World Model” nutzt Video-Generierung, um Neo Aufgaben beizubringen, die er noch nie gesehen hat.
Was ist das World Model?
Das 1X World Model ist ein zweistufiges System:
1. Pre-Training auf Web-Scale-Videodaten: Das Modell lernt von Milliarden Internet-Videos, wie Menschen mit Objekten und ihrer Umgebung interagieren.
2. Post-Training auf Roboter-Daten: Diese abstrakten Muster werden dann auf Neos physische Realität “geerdet” – also an seine Körperform, seine Motoren und die echte Physik angepasst.
Das Ergebnis: Neo kann sich vorstellen, wie eine Aufgabe aussehen würde, bevor er sie ausführt. Das World Model generiert ein Video der geplanten Aktion. Ein eingebautes “Inverse Dynamics Model” übersetzt diese Visualisierung dann in echte Gelenkbewegungen.
Zero-Shot Generalisierung
Im Video zeigt 1X, wie Neo:
– Einen Toilettendeckel öffnet
– Eine Schiebetür öffnet
– Ein Hemd bügelt
– Haare bürstet
Das sind keine Aufgaben, die vorher explizit trainiert wurden. Das World Model transferiert menschliches Wissen aus Internet-Videos auf diese neuen Situationen.
Wichtig: Das ist keine bloße Generalisierung auf ähnliche Aufgaben. Neo hat nicht nur die Toilette noch nie gesehen, sondern auch keine vergleichbare Aufgabe trainiert. Außerdem ist das World Model robust gegenüber Umgebungsänderungen. Wechselnde Beleuchtung oder zufällige Objekte im Raum bringen klassische Robotik-Modelle schnell durcheinander. Neos Ansatz nutzt menschliches Wissen aus Videos, um mit solchen dynamischen Situationen umzugehen.
Der Self-Teaching Flywheel
Hier wird es interessant. Weil Neo mit dem World Model Aktionen in der echten Welt ausführt, generiert er automatisch neue Trainingsdaten. Jeder erfolgreiche (oder gescheiterte) Versuch fließt zurück ins Training. Ein sich selbst verbesserndes System.
1X formuliert das als “Paradigm Shift”: Roboter, die sich selbst alles beibringen können, indem sie die Daten nutzen, die sie selbst erzeugen.
Human-in-the-Loop beim Start
Ein wichtiges Detail, das 1X offen kommuniziert: Die ersten Auslieferungen von Neo in 2026 werden mit “Human-in-the-Loop” laufen. Bei komplexen oder unbekannten Aufgaben schalten sich menschliche Tele-Operatoren zu. Die dabei gesammelten Daten verbessern dann die Autonomie schrittweise.
Der Roboter: Neo

Neo ist der Consumer-Humanoid von 1X. Die Specs:
– Höhe: 168 cm
– Gewicht:30 kg
– Nutzlast: bis 70 kg heben, 25 kg tragen
– Hände: 22 DoF pro Hand, IP68 (wasserdicht)
– Akku: 4 Stunden Laufzeit
– Preis: $20.000 oder $499/Monat Abo
– Verfügbarkeit: Pre-Orders laufen, erste Auslieferungen 2026 (USA)
Das Sicherheitskonzept ist bemerkenswert: weicher Körper aus einem speziellen Polymer-Gitter, einklemmfreie Gelenke, niedrige Trägheit. Neo ist für die Interaktion mit Menschen im Haushalt konzipiert.
XONOID Fazit
Das World Model ist konzeptionell spannend. Die Idee, dass Video-Modelle à la Sora implizit Physik verstehen und dieses Wissen auf Roboter übertragen werden kann, geistert schon länger durch die Branche. 1X ist einer der ersten, der das konkret umsetzt und zeigt. OpenAI ist Investor. Das Unternehmen hat Zugang zu den besten Video-Modellen der Welt. Wenn jemand diesen Ansatz zum Laufen bringen kann, dann sie.
