Wir haben fünf große Sprachmodelle (LLMs) getestet, um ihre Fähigkeit zu bewerten, eine Website mit Client-Side Rendering (CSR) mit React unabhängig in Server-Side Rendering (SSR) mit Next.js zu konvertieren. Die getesteten Modelle waren:
- ChatGPT
- DeepSeek
- Zwilling
- Devin
- Llama
- Keines der getesteten Modelle war in der Lage, die gestellte Aufgabe allein zu bewältigen.
- Wenn ein erfahrener Pool von Programmierern zur Verfügung steht, ist es effizienter, die Migration selbst durchzuführen. Derzeit kann keines der von uns getesteten LLMs mehrere kritische Aspekte bewältigen, so dass in jedem Fall ein erfahrener Entwickler benötigt wird. In diesem Fall kann ein Entwickler effizienter sein, wenn er es direkt selbst macht, ohne LLM-Anweisungen, die oft unzuverlässig sein können.
- Unerfahrene Benutzer könnten die LLM-Anweisungen für einfache Aufgaben befolgen, aber langfristige Wartbarkeit und Fehlersuche würden immer noch Fachwissen erfordern.
- Wir glauben, dass die aktuellen Versionen der LLMs, die wir getestet haben, für eine schnellere Einarbeitung eines unerfahrenen/jungen Entwicklers in neue Programmiersprachen hilfreich wären.
ChatGPT 4o kann Code aus hochgeladenen ZIP-Dateien lesen und konvertieren, so dass Sie die Ergebnisse direkt herunterladen können. Der darin enthaltene Code bleibt jedoch unverändert - er wird einfach kopiert und ohne jegliche Änderungen eingefügt.
Ich habe auch die o3-mini-high-Version zur weiteren Überprüfung verwendet, Datei-Uploads werden nicht unterstützt; man muss den Code manuell kopieren und einfügen. Die Konvertierung war besser, aber immer noch nicht vollständig und scheiterte an der vollständigen Projektmigration.
Beschränkungen
Gemini konzentriert sich hauptsächlich auf die Sprachverarbeitung. Seine Fähigkeit, Code zu verstehen und zu konvertieren, insbesondere bei Aufgaben, die mehrere Dateien und komplexe Abhängigkeiten beinhalten, wie z. B. die Projektkonvertierung, ist möglicherweise nicht ganz so kompetent.
Gemini unterstützt derzeit möglicherweise nicht die direkte Verarbeitung von ZIP-Dateien oder Dateien im JSX-Format, was seine Fähigkeit einschränkt, auf Projektebene zu arbeiten.
Testergebnisse
Ein Test durch Einfügen der App.JSX von der offiziellen Website ergab, dass Gemini eine Code-Konvertierung durchführen kann, allerdings nur für die Konvertierung einer einzelnen Datei, und es ist ein manueller Eingriff erforderlich, um Details zu bestätigen.
Gemini kann die Konvertierung eines Next.js-Projekts nicht direkt abschließen und erfordert weiterhin das Eingreifen eines Front-End-Ingenieurs.
Im Vergleich zu Chatgpt versteht DeepSeek besser, wie Frameworks wie React.js und Next.js funktionieren, und kann gut detaillierte, präzise Beispiele geben, die klar zu verstehen sind, auch wenn die Eingabeaufforderung nicht ausgefeilt ist.
DeepSeek verfügt über eine DeepThink(R1)-Funktion speziell für Aufgaben, die komplexes logisches Denken, mathematisches Problemlösen und detaillierte Erklärungen zu einer Schlussfolgerung erfordern. Der Benutzer kann sehen, bei welchem Teil der Aufforderung DeepSeek unsicher ist, um die Aufforderung zu verbessern und ein besseres Ergebnis zu erzielen.
Beschränkungen
Derzeit ist die Skalierung nicht ausreichend für die Nachfrage. Manchmal kommt nur die Meldung "Der Server ist beschäftigt. Bitte versuchen Sie es später erneut".
Es können keine Zip-Dateien akzeptiert werden.
Manchmal kann es irreführend sein, was seine Fähigkeiten angeht, z. B. behauptet es, dass es in der Lage ist, ein Repository über seinen GitHub-Link zu analysieren, aber wenn ein Repo-Link angegeben wird, behauptet es, dass es dazu nicht in der Lage ist.
Persönliche Meinung eines Entwicklers: "Deepseek hat besser abgeschnitten als Chatgpt, als es darum ging, die React-App in die Next-App zu migrieren. Auch wenn es nicht leistungsfähig genug ist, um auf das Repository zuzugreifen und es zu manipulieren, gibt es eine klare und präzise Anleitung, wie man vorgehen muss. Außerdem gibt sie weitere relevante Ratschläge und Tipps, die in der Aufforderung nicht ausdrücklich gefragt werden. Wenn seine Skalierung verbessert wird, ist es Chatgpt vorzuziehen, da es einen kritischeren Denkprozess zu haben scheint."
Wir haben es getestet, indem wir es zur Massenmigration von Dateien von React.js zu Next.js aufgefordert haben, und Devin konnte auf keine ZIP-Dateien zugreifen. Die einzige Möglichkeit, dies zu umgehen, ist das manuelle Kopieren von Codeschnipseln in Chat-Threads, was nicht ideal ist.
Devin ist in der Lage, ein Repository zu klonen und Änderungen am Code in der dafür vorgesehenen IDE vorzunehmen, aber um es zu testen, müssen Sie ein Abonnement abschließen, das 500 USD/Monat kostet. Wir haben weitere Nachforschungen über Devin angestellt, indem wir Artikel gelesen und Bewertungen von Programmierern angeschaut haben, die Erfahrungen mit der kostenpflichtigen Version von Devin gemacht haben, und die Ergebnisse waren nicht zufriedenstellend.
Die Verarbeitung ist zu langsam, es ist nicht möglich, Änderungen in Echtzeit in der lokalen IDE zu sehen (es ist zwingend erforderlich, zur Bestätigung der Ergebnisse die Remote-IDE von Devin aufzurufen), die Ergebnisse sind nicht präzise, und der Hype wird nicht erreicht.
Mit Llama wurden Übertragungsversuche unternommen, indem zunächst mehrere CSR-Dateien hochgeladen wurden, um sie in SSR zu konvertieren, aber die Ergebnisse waren nicht zufriedenstellend. Das Modell behandelte die Aufgabe als Beispielprojekt und lieferte nur ein minimales SSR-Beispiel, anstatt eine echte Datei-für-Datei-Konvertierung durchzuführen.
Um weiter voranzukommen, wurden zwei Hauptrichtungen für die Optimierung ermittelt:
Aktuelle LLMs können erfahrene Entwickler bei komplexen Aufgaben wie der Migration von CSR zu SSR nicht ersetzen.
Sie eignen sich am besten als Hilfsmittel für das Lernen, die Fehlersuche und die Automatisierung in kleinem Maßstab.
📢 Was denken Sie? Haben Sie andere LLMs für Entwicklungsaufgaben getestet? Lassen Sie es uns wissen!
Sollten wir weitere Modelle testen?
Erste Tests deuten darauf hin, dass Grok Potenzial hat, aber ein vollständiger Erfahrungsbericht wurde noch nicht durchgeführt. Wir freuen uns über Vorschläge für andere Modelle, die einen Test wert sein könnten.