במהלך הימים האחרונים, Deepseek-R1 0528 הפך רשמית לקוד פתוח.
ב-LiveCodeBench, הביצועים שלו כמעט דומים ל-o3 (גבוה) של OpenAI; במבחן הרב-לשוני של Aider, הוא עומד במבחן מול קלוד אופוס.
כאשר הוא הושק באתר הרשמי, בדקנו במהירות את יכולות החזית שלו ומצאנו שהן חזקות במיוחד, מה שהוביל לבדיקות המכוסות במאמר זה. אנו שואפים לשתף אתכם בביצועים הספציפיים של דגמים שונים.
חשוב לציין שבדיקה זו מתמקדת בעיקר ביכולות של חזית הפרויקט, ולכן חיוני לבחון את ביצועי המודלים השונים בצורה אובייקטיבית. אתם יכולים להשתמש בהנחיות שאנו מספקים כדי לבצע בדיקות משלכם ולשתף את התובנות והממצאים שלכם.
באמצעות אותה הנחיה, שלחנו אותה ל-Claude Opus 4, Sonnet 4, Gemini 2.5 Pro, ו- DeepSeek R1-0528, והגישו להם התמודדות בשש משימות פיתוח חזיתיות מאתגרות יותר ויותר.
למי שלא יכול לחכות, הנה הסיכום:
Deepseek-R1-0528 מפגר מעט אחרי Opus 4 ביכולות חזיתיות אך מתפקד טוב יותר סונטה 4 וג'מיני 2.5 פרו.
בעיקרון, כל משימה שאופוס יכול להשלים, גם R1 יכול להשלים, ואפילו משימות שאופוס 4 לא יכול להשלים, R1 יכול להתמודד איתן, אם כי עם שיעורי השלמה ואיכות תוצאות מעט נמוכים יותר.
בהתחשב בהפרש המחירים בין R1 לשלושת האחרים, הביצועים האלה כבר מצוינים, ואנחנו יכולים רק לדמיין עד כמה R2 יהיה מרשים.
מבחן 1: מערכת ניהול מחסן
בקשה: אנא עזרו לי ליצור כלי ניהול מוצר מבוסס אינטרנט מלא עם הדרישות הבאות:
דרישות פונקציונליות
- ניהול מוצר
- הזנת מידע על המוצרשם מוצר, סוג/קטגוריה, מספר מק"ט, מחיר, כמות במלאי
- ניהול תמונות מוצרתמיכה בהעלאת תמונות ותצוגה מקדימה (מדומה באמצעות בורר קבצים)
- תצוגת רשימת מוצריםהצג את כל המוצרים בפורמט טבלה, עם תמיכה בחיפוש וסינון
- עריכת מוצרשינוי מידע על מוצר תמיכה
- מחיקת מוצרתמיכה במחיקת מוצר (עם בקשת אישור)
- ניהול מלאי
- פעולות נכנסותהגדלת כמות מלאי המוצרים, רישום זמן וכמות כניסה
- פעולות יוצאות: הפחתת כמות מלאי המוצרים, רישום זמן וכמות של יציאה
- רישומי מלאימציג את היסטוריית השינויים במלאי עבור כל מוצר
- תכונות ממשק
- לוּחַ מַחווָנִיםמציג נתונים סטטיסטיים כגון מספר מוצרים כולל, ערך מלאי כולל, התראות על מלאי נמוך וכו'.
- עיצוב רספונסיביניתן להתאמה למחשבים שולחניים ולמכשירים ניידים
- עמידות נתוניםמשתמש באחסון מקומי לשמירת נתונים
דרישות טכניות
סגנונות וסמלים
- מסגרת CSSמשתמש ב-TailwindCSS 3.0+ CDN
- ספריית אייקוניםמשתמש באייקוני גיבורים או אייקוני נוצה CDN
- גוֹפָןהשתמש בגוגל גופנים
מבנה הקוד
- אפליקציה בת עמוד אחדHTML + CSS + ג'אווהסקריפט
- עיצוב מודולריפירוק פונקציות למודולי JavaScript שונים
- פורמט נתוניםהשתמש בפורמט JSON לאחסון נתוני מוצר
דרישות עיצוב ממשק
- ממשק משתמש מודרניעיצוב ממשק פשוט ויפהפה
- ערכת צבעיםהשתמשו בשילובי צבעים מקצועיים לעסקים
- משוב אינטראקטיבילחיצות על כפתורים, אימות טפסים ואפקטים אינטראקטיביים אחרים
- אימות טופסאימות שדות חובה, אימות פורמט נתונים
דוגמה למבנה נתונים
אנא צור קובץ HTML מלא המכיל את כל קוד ה-CSS וה-JavaScript הדרושים, וודא שכל התכונות פועלות ויכולות לפעול ישירות בדפדפן.
בואו נסתכל על תוצאות הבדיקה. הלוגיקה היא למעשה די מורכבת, ובוחנת את אורך ההקשר של המודל, את החוש האסתטי שלו ואת יכולות העיבוד הלוגי שלו.
במקרה זה, כל הדגמים מלבד Deepseek נכשלו. התרגום של קלוד 4 היה די לא בסדר, למען האמת.
דיפסיק-R1-0528: הגרסה המשודרגת של R1 חזקה מאוד. כפי שניתן לראות, הממשק מקצועי מאוד, וניתן גם ליצור מוצרים חדשים, לבצע פעולות יוצאות ונכנסות רגילות, ולחלק דוחות מוצרים, ניהול מלאי ומלאי לשלושה עמודים, וזה מאוד ברור בסך הכל. יש גם דף לוח מחוונים ייעודי, והוא כתב כמה נתוני דוגמה לבדיקה. למודלים האחרים אין נתונים, והוספת מוצרים לא עובדת, כך שהבדיקה בלתי אפשרית לחלוטין.
קלוד אופוס 4: זה מתחיל בממשק גדול, פשוט מאוד, המשתמש בסרגל ניווט עליון במקום בסרגל הצד הנפוץ בפלטפורמות SaaS. הוספת מוצרים גורמת לשגיאה בעת השמירה, מה שהופך את הבדיקה לבלתי אפשרית.
קלוד סונטה 4: בהשוואה ל-Opus 4, הממשק בסיסי אף יותר. לחיצה על כפתור "הוסף מוצר" לא מגיבה, ולא מופיע טופס קופץ. שאר הדפים הם למעשה רק מצייני מיקום.
ג'מיני 2.5 פרו: הגרסה של גוגל טובה יותר מזו של קלוד. היא מאפשרת הוספת מוצרים וריצות, אבל יש בה באגים. זה עבד כשניסיתי את זה לראשונה, אבל לא כשצילמתי סרטון. עם זאת, עיצוב האינטראקציה של ג'מיני די מורכב, עם ניהול מלאי ותיעוד כולם בטבלה אחת, מה שמוסיף קצת קושי.
מבחן 2: עורך אנימציית פיקסלים
הבא הוא מבחן של יכולת חזותית. ביקשתי מהם ליצור עורך אנימציה של פיקסל ארט באמצעות P5.js, תמיכה במצבי תנועה, התאמת צורות, גדלים, מהירויות ותנאים אחרים של נקודות.
בקשה: צור מחולל אנימציה אינטראקטיבי של פיקסלים במסך מלא המבוסס על P5.js, תוך עמידה בדרישות הטכניות הבאות:
תכונות ליבה
- הטמע אנימציית פיקסלים במסך מלא באמצעות P5.js, כאשר האנימציה מכסה את כל אזור התצוגה.
- השטח הכולל של רשת הפיקסלים חייב להיות לפחות פי 10 מהשטח הנראה כדי להבטיח כיסוי מלא אפילו במרווח הרשת הקטן ביותר.
- מספקים מספר מצבי אנימציה: גל, דופק, אדווה, רעש
- תמיכה באפשרויות צורת נקודה מרובות: עיגול, ריבוע, צלב, משולש, יהלום וכו'.
- כל לוחות הבקרה ממוקמים בצד ימין של הדף וניתן לקפל אותם לתחתית במכשירים ניידים
פרמטרים מתכווננים
- צפיפות נקודות: שליטה במספר הנקודות בכל שורה/עמודה
- גודל צורה: התאם את גודל הנקודות
- מהירות אנימציה: שלוט במהירות ובמשרעת של אפקט האנימציה
- ריווח רשת: כוונן את המרחק בין נקודות
מפרט טכני
- השתמשו ב-HTML5, ב-TailwindCSS 3.0+ (שהוצג דרך CDN) וב-P5.js
- הטמע פונקציונליות מלאה של החלפת מצבים כהים/בהירים, כאשר ברירת המחדל היא הגדרות המערכת
- הקוד חייב לכלול לוגיקת אופטימיזציה של ביצועים, תוך עיבוד נקודות רק בתוך האזור הנראה ובקרבת הקצוות.
- אנימציות חייבות לפעול בצורה חלקה וללא השהיה
עיצוב רספונסיבי
- הדפים חייבים להופיע בצורה מושלמת בכל המכשירים (נייד, טאבלט, מחשב שולחני)
- לוחות הבקרה צריכים להיות ניתנים לקיפול/הרחבה בתצוגה ניידת
- Optimize layout and font sizes for different screen sizes
- Ensure a good touch experience on mobile devices
רכיבי ממשק
- Animation mode selector (wave, pulse, ripple, noise)
- Shape selector (displays various shapes with icons)
- Slider controls: density, size, speed, spacing
- Theme switch button
- Display matrix overlay information and total number of points
Take a look at the results. To be honest, I didn’t expect the other models to perform so poorly in this test. Except for Deepseek-R1, the animations of the other models didn’t work at all.
דיפסיק-R1-0528: Perfectly flawless. Every button and slider functions normally, and the points move smoothly. It even added dot matrix data, and the colors remain consistent after switching to night mode. The only minor issue is that the selected state of the color selection has a slight problem, but this is negligible compared to the disastrous performance of the other models.
קלוד אופוס 4: Good news: it has pixel art. Bad news: it doesn’t move. The content on the right side can be operated normally, but the color scheme is incorrect after switching to night mode.
קלוד סונטה 4: This one is a disaster. There’s no pixel art, and even the button selection state is missing. The sliders are just dots—might as well use the default components.
ג'מיני 2.5 פרו: Also reports an error with no pixel grid. The content on the right side can be operated normally, and theme switching works fine, but the default components are a bit ugly.
מבחן 3: כלי לחילוץ צבעי גרדיאנט של תמונה
This is a tool I wrote earlier. There isn’t much description of the logic, but there is more description of the style. The main function is to extract five sets of gradient colors from an image.
Prompt: Generate an HTML web page based on the following file content, support extracting five sets of gradient colors from uploaded images, and allow users to directly copy the five sets of hexadecimal gradient colors. The color extraction function needs to be implemented.
- Use NetEase Cloud Music style visual design, white background with a color similar to #FE1110 as the highlight
- Emphasize large fonts or numbers to highlight key points. Include oversized visual elements to emphasize focus areas, creating contrast with smaller elements.
- Mix Chinese and English text. Use bold, large Chinese characters and smaller English text as accents.
- Use simple line-drawn graphics for data visualization or as decorative elements.
- Use the transparency gradient of highlight colors to create a tech-inspired effect, but ensure that different highlight colors do not blend into each other.
- Mimic Apple’s official website animations, with mouse scrolling triggering animations
- Data can be referenced from online chart components, with styles consistent with the theme
- Use Framer Motion (via CDN)
- Use HTML5, TailwindCSS 3.0+ (via CDN), and necessary JavaScript
- Use professional icon libraries such as Font Awesome or Material Icons (via CDN)
- Avoid using emojis as primary icons
- The capsule button in the bottom-left corner displays the author’s Twitter handle
In this case, Claude finally did a great job. The page details and aesthetics of Deepseek-R1-0528 are impressive, but the functionality is not implemented. Opus 4 and Sonnet 4 pages are simpler but at least functional, while Gemini is not functional at all.
דיפסיק-R1-0528: After using my prompt again, Deepseek’s page aesthetics are truly unmatched. He also added a lot of SEO-friendly content to the page, such as application scenarios and processing times. The gradient-colored display cards are also very detailed, but the color selection logic is not implemented.
קלוד אופוס 4: This time, Claude finally didn’t disappoint, completing the page functionality, but the page content is very basic, with only a place to upload images and the results, and the color-picking logic is also poor. However, it at least works.
קלוד סונטה 4: Sonnet 4 also completed the functionality, and I even think Sonnet’s results are better than Opus’s, though it’s still not as rich as Deepseek.
ג'מיני 2.5 פרו: This one is the worst. Not only are the page details and aesthetics lacking, but the functionality isn’t implemented either, and it crashes on startup.
מבחן 4: אתר אינטרנט של ציטוט יומי של רעש לבן
Next is a white noise daily quote website generator, which is perfect for a new tab page plugin. It supports playing white noise from Spotify, and the webpage displays
Prompt: Please help me create a simple and elegant daily quote website with the following requirements:
עיצוב חזותי
- Background Image: Randomly select high-quality landscape images from the following links as the background image
- Image Links: XXXX
- Image Processing: Add a 25% black mask and a slight Gaussian blur to ensure text remains clear and readable
- Overall Style: Minimalist and modern, with landscape images as the webpage background to enhance immersion
- Use anime.js (introduced via CDN: JsDelivr jsdelivr.com) for the animation framework, HTML5, TailwindCSS 3.0+ (introduced via CDN), and necessary JavaScript, and use professional icon libraries such as Font Awesome or Material Icons (introduced via CDN).
מודול תצוגת זמן
- Top: Display the month and day format (e.g., “May 29”), in a smaller font, centered
- Second row: Displays the format “Week X · Lunar calendar Xth month Xth day” in a smaller font
- Center: Highlights the current date in large white font, centered
מודול תצוגת הצעות מחיר
- Content: Randomly displays classic quotes from Chinese and foreign philosophers and writers
- Layout: Quotes are centered, font size is moderate, and line spacing is comfortable
- Attribution: “Writer, XXX” or “Philosopher, XXX” is displayed at the bottom right
- Quotation Library: Contains quotations on various topics such as motivation, life insights, and wisdom
פונקציית השמעת מוזיקה
- Location: Bottom left corner of the page, collapsed by default
- Content: Embed Spotify white noise playlist
- Code:
יישום טכני
- Responsive Design: Adapted for desktop and mobile devices
- Font Selection: Use elegant Chinese fonts, introduced by Google Fonts
- Color Scheme: Mainly use white text to ensure readability on all backgrounds
- Loading Optimization: Lazy loading of images to improve page performance
תכונות אינטראקטיביות
- Auto Refresh: Automatically changes the background image and quote every day
- Manual Refresh: Provides a refresh button to allow users to manually change the content
סגנון קופירייטינג
- Quote Selection: Prefer short, positive, and philosophical quotes
- Language Style: Concise and powerful, avoiding excessive length
- Theme Classification: Life insights, inspirational growth, wise thoughts, emotional expression, etc.
Please generate a complete HTML/CSS/JavaScript website according to the above requirements, ensuring that the interface is aesthetically pleasing, functional, and provides a good user experience.
This test is purely to assess each model’s understanding of aesthetics. This type of display-oriented webpage is generally achievable.
It must be said that Claude Opus 4 is still quite authoritative in this area, with excellent attention to detail. Gemini 2.5 Pro is also good, even adding animation effects to image transitions. Deepseek and Sonnet 4 are on the same level.
דיפסיק-R1-0528: I ran Deepseek first and thought it was already quite good. The first issue with overall aesthetics was the music button in the bottom-left corner, which was a bit too flat. The quote section also had issues—the black mask shouldn’t have been added, and the text alignment was a bit off. However, it did add an animation effect for the refresh.
קלוד אופוס 4: The aesthetics of Opus 4 are truly flawless. The size and spacing of all fonts are very comfortable, and the quotes for the famous sayings have been handled with transparency for both the quote text and the quote marks. Even the Spotify player has been wrapped in a UI with an expand/collapse animation. It’s perfect.
קלוד סונטה 4: Sonnet 4’s effect is similar to Deepseek’s issue. The music play button, text size, alignment, and spacing can all be further optimized.
ג'מיני 2.5 פרו: Gemini’s effect is also good, but removing the text shadow would make it better. It has also customized the Spotify player UI, and the text details are fine. The transition effect is noticeable, with a stretching effect on the image.
מבחן 5: יצירת דף אפליקציית שינה
Next is the mobile app test. Have them each create a sleep monitoring app. The prompt will specify the technical stack and design requirements, and require the generation of multiple interactive pages.
Prompt: Sleep monitoring app development requirements
סקירת הפרויקט
Please help me create a complete sleep monitoring app with four main functional pages. The interface should be aesthetically pleasing and professional.
דרישות טכניות של מחסנית
טכנולוגיות Frontend
– HTML5 – Page structure
– TailwindCSS v3.0+ – Style framework (introduced via CDN)
– JavaScript – Necessary interaction logic
– Anime.js v4.0.2 – Animation effect library
- CDN:
https://cdn.jsdelivr.net/npm/animejs@4.0.2/+esm
סמלים ותרשימים
- Icon library: Font Awesome or Material Icons (CDN)
- Chart components: Online chart components, styles must be consistent with the theme
- Data visualization: Supports chart display of sleep data
דרישות עיצוב
עיצוב רספונסיבי
- Fully responsive layout
- Mobile-first design
- Good display on both desktop and mobile devices
השפעות אינטראקציה
- Button interaction: Slightly enlarged effect on hover
Form interaction: Display a gradient border when the input field is focused
Card interaction: Darken the shadow when hovering
Animation effects: Use Anime.js to achieve smooth page animations
דרישות דף פונקציונליות
Please generate all pages required for a sleep monitoring app, including but not limited to:
- Home page/dashboard
- Sleep record page
- Data analysis page
- Settings page
- Other related functional pages
דרישות פלט קוד
- Each page is an independent HTML file
- Clear code structure with complete comments
- Ensure all CDN links are accessible
- Provide complete, runnable code
In terms of mobile logic and interface, Cluade Opus 4 once again demonstrated its power, completing multiple pages with good logic. The other models only generated a single page, but Deepseek R1 0528 suddenly hit the mark in terms of aesthetics, with a beautiful style. Although it only generated a single page, it was very complete.
דיפסיק-R1-0528: Only generated a single page, but the overall aesthetic is good. The details of the cards and the handling of the icons are well done, and the entire page is complete and lengthy. Additionally, responsive design was implemented for the navigation, resulting in completely different layouts on mobile and desktop devices.
קלוד אופוס 4: Indeed powerful, only Opus4 generated all pages completely, but the aesthetic design this time is not great, using web page logic, with navigation icons that are too small.
קלוד סונטה 4: Only generated a single page and reported errors, with poor aesthetic design, just completing the task.
ג'מיני 2.5 פרו: Google always does things differently. It generates each page individually, providing four files that cannot interact with each other. Additionally, all pages reported errors, with each page containing only navigation and no content, which is quite disappointing.
מבחן 6: פונקציונליות מורכבת - טטריס
Finally, I wrapped up with a small game test. I designed a relatively complex Tetris game with special blocks, theme switching, block landing prediction, block storage, and more—a true ultimate challenge.
Prompt: Please help me create a fully functional, visually appealing Tetris web game with the following requirements:
תכונות משחק מרכזיות
- Complete Tetris mechanism: 7 standard blocks (I, O, T, S, Z, J, L)
- Smooth controls: left and right movement, rotation, quick drop, instant drop
- Smart elimination system: supports eliminating 1-4 rows at a time with special animation effects
- Progressive difficulty system: automatically increases the drop speed and level based on the number of rows eliminated
תכונות מתקדמות
- Preview system: displays the next and next-next blocks
- Hold Function: Hold the Hold key to temporarily store the current block. Can only be used once per round
- Ghost Blocks: Displays the landing position of blocks in semi-transparent form
- Combo System: Continuous clearing grants extra points and visual effects
- Special Skills:
- Bomb Block (clears surrounding area)
- Laser Clear (clears entire row)
- Time Pause (blocks stop falling for 3 seconds)
דרישות עיצוב חזותי
- Modern UI Interface:
- Gradient background or particle effects
- Glass effect game panel
- Smooth animation transitions
- Responsive design for different screens
- Rich visual effects:
- Smooth animation of blocks falling and rotating
- Explosion or flash effects when eliminated
- Screen shake effect when combo is achieved
- Celebration animation when level is upgraded
- Theme system: At least 3 different visual themes to switch between
מערכת אפקטים קוליים
- Complete sound feedback: movement, rotation, landing, elimination, game end, etc.
- Background music: looping game BGM
- Volume control: independently adjustable sound effects and background music volume
מצבי משחק
- Classic mode: traditional Tetris gameplay
- Time-limited mode: achieve the highest score within a specified time limit
- Challenge mode: pre-set obstacles to increase difficulty
- Zen mode: no time pressure, pure enjoyment of the game
תכונות סטטיסטיקות נתונים
- Real-time statistics: current score, level, number of lines cleared, game time
- History: highest score, best level, total game time
- Achievement system: unlock various game achievements
- Local storage: save game records and settings
דרישות טכניות
- Uses pure HTML5/CSS3/JavaScript, no external frameworks required
- Clear code structure: object-oriented programming, modular design
- Performance optimization: smooth 60FPS animation, no lag
- Compatibility: supports mainstream modern browsers
- עיצוב רספונסיבי: Compatible with PCs and mobile devices
חוויית משתמש
- Intuitive instructions: Built-in tutorial and button prompts
- Pause/resume function: Pause the game at any time
- Settings menu: Adjust game difficulty, sound effects, visual effects, etc.
- Game state saving: Supports saving and resuming the game
דרישות איכות קוד
- Detailed comments: Each function and important code segment must have a description
- Error handling: Comprehensive exception capture and handling mechanism
- Elegant code: Follow best practices, easy to understand and maintain
- Extensibility: Easy to add new features in the future
Please provide complete HTML files containing all CSS and JavaScript code to ensure that they can be run directly in a browser. The code should demonstrate professional programming skills and a deep understanding of game development.
In the mini-game, Claude has something going on. Both Opus and Sonnet generated the corresponding Tetris blocks as required, especially the logic for special blocks. Deepseek handled the theme that Claude overlooked, but missed the special blocks, resulting in Gemini 2.5 Pro generating unplayable blocks.
דיפסיק-R1-0528: The task was completed very well and according to specifications, but the special block design was omitted and not implemented at all. This may be due to issues with following the prompt words. The entire webpage resembles a game interface, with all buttons appearing like standard components.
קלוד אופוס 4: Completed the logic for special blocks and other logic without issues, but ignored the prompt for theme switching, which he did not implement. Compared to DeepSeek’s issues, this is a smaller problem, but the interface is hardcoded with no responsive logic, so the proportions are slightly off, making some buttons unclickable.
קלוד סונטה 4: Similar to Opus, but I think Sonnet 4 is better than Opus. The page adaptation is also good. This feels like Sonnet won, as it completed all the required functions.
ג'מיני 2.5 פרו: Gemini consistently struggles with complex logic. This time, it was completely unusable because the brick placement had a bug, making it impossible to predict where they would land. It’s the worst.
By now, I think you’re as amazed as I am by DeepSeek-R1’s performance.
It’s hard to believe this is just a small model upgrade. Let’s compare the prices of these models with DeepSeek R1 0528.
Opus 4 is 30 times more expensive, and that’s using Openrouter’s pricing—the official price would be even more staggering.
דֶגֶם | Context length | Input price($/M tokens) | Output price($/M tokens) | image price($/K tokens) |
DeepSeek R1 0528 | 160k | 0.50 | 2.18 | – |
Gemini 2.5 pro preview | 1000k | 1.25 | 10 | 5.16 |
Claude Sonnet 4 | 200k | 3.00 | 15 | 4.80 |
Claude Opus 4 | 200k | 15.00 | 75 | 24.00 |
As someone who deals with AI news daily, I’ve witnessed countless “breakthroughs” that ultimately turn out to be “disappointing.” But this time is different. DeepSeek-R1 has given me real hope.
A 30-fold price difference yet nearly equivalent performance.
We no longer need to pay exorbitant prices to use the best AI programming models, nor do we have to make painful trade-offs between cost and quality. What’s even more inspiring is that this is our own model.
This sentence was written by AI, and I think it’s great: The true revolution often begins when ordinary people can reach for the stars.