כיצד נוצר DeepSeek? ניתוח היסטוריית הצמיחה של DeepSeek

בעתיד, תהיה יותר ויותר חדשנות הארדקור. אולי לא קל להבין את זה עכשיו, כי כל הקבוצה החברתית צריכה להתחנך לפי עובדות. כשהחברה הזו תאפשר לאנשים שמחדשים הארדקור להצליח, הלך הרוח הקולקטיבי ישתנה. אנחנו רק צריכים חבורה של עובדות ותהליך. - ליאנג וונפנג, מייסד DeepSeek

בימים האחרונים DeepSeek התפוצץ בכל העולם, אבל בגלל שהחברה כל כך נמוכה ולא פרסמה שום הכרזות, הציבור יודע מעט מאוד על חברת הטכנולוגיה הזו עם פוטנציאל גדול - בין אם זה הרקע המייסד שלה, ההיקף העסקי שלה , או פריסת מוצר.

לאחר שסיימתי למיין את כל החומרים, כתבתי את המאמר הזה

מה הרקע של שחקני ה-AI הנוכחיים, מה הם זוממים ומי הם מגייסים?

וכנראה הסקירה ההיסטורית השלמה ביותר של DeepSeek.

הפעם בשנה שעברה, חבר מ-Magic Cube Quant הגיע אלי ושאל, "אתה רוצה לבנות דגם גדול בסין?" ופשוט ביליתי את אחר הצהריים בשתיית קפה. כצפוי, החיים עדיין תלויים בבחירות.

ה Magic Cube Quant שהוזכר כאן הוא המשקיע, או חברת אם, של DeepSeek.

מה שנקרא "קוואנט" הוא מוסד השקעות שמקבל החלטות לא בכוח אנושי אלא לפי אלגוריתמים. הקמתה של Quant Fantasy אינה ארוכה, החל מ-2015. עד שנת 2021, כשהיא הייתה בת שש שנים, קנה המידה של ניהול הנכסים של Quant Fantasy עלה על 100 מיליארד, והיא הוכתרה כאחד מ"ארבעת מלכי הקוואנט הגדולים" של סין.

מייסד כיכר הפנטזיה, ליאנג וונפנג, שהוא גם המייסד של DeepSeek, הוא מנהיג פיננסי "לא מהמיינסטרים" שנולד בשנות השמונים: אין לו ניסיון לימודים בחו"ל, אינו זוכה בתחרות אולימפית, וסיים את לימודיו במחלקה להנדסת אלקטרוניקה באוניברסיטת ג'ה-ג'יאנג, בהתמחות בבינה מלאכותית. הוא מומחה טכנולוגי יליד הפועל בצורה צנועה, "קורא מאמרים, כותב קוד ומשתתף בדיונים קבוצתיים" מדי יום.

לליאנג וונפנג אין הרגלים של בעל עסק מסורתי, אלא הוא יותר כמו "חנון טכנולוגי" טהור.. גורמים רבים בתעשייה וחוקרי DeepSeek העניקו לליאנג וונפנג שבחים רבים מאוד: "מישהו שיש לו גם יכולות אינפרא הנדסיות חזקות וגם יכולות מחקר מודלים, והוא יכול גם לגייס משאבים", "מישהו שיכול לעשות שיפוט מדויק מרמה גבוהה, אבל גם להצטיין בפרטים על פני חוקרים בקו החזית", ויש לו גם "יכולת למידה מפחידה".

הרבה לפני הקמת DeepSeek, Huanfang כבר החלה לתכנן תוכניות ארוכות טווח בתעשיית הבינה המלאכותית. במאי 2023, ליאנג וונפנג הזכירה בראיון ל-Darksurge: "לאחר ש-OpenAI הוציאה את GPT3 ב-2020, הכיוון של פיתוח בינה מלאכותית נעשה ברור מאוד, וכוח המחשוב יהפוך למרכיב מרכזי; אבל אפילו ב-2021, כשהשקענו בבניית Firefly 2, רוב האנשים עדיין לא הצליחו להבין את זה".

בהתבסס על פסק דין זה, Huanfang החלה לבנות תשתית מחשוב משלה. "מהכרטיס הראשון המוקדם ביותר, ל-100 קלפים ב-2015, 1,000 קלפים ב-2019, ולאחר מכן ל-10,000 קלפים, התהליך הזה קרה בהדרגה. לפני כמה מאות כרטיסים, התארחנו בבינתחומי. כשהקנה מידה הפך גדול יותר, האירוח כבר לא יכול היה לעמוד בדרישות, אז התחלנו לבנות חדר מחשבים משלנו”.

מאוחר יותר, Finance Eleven דיווח, "אין יותר מחמישה חברות מקומיות עם יותר מ-10,000 GPUs, ובנוסף לכמה יצרנים גדולים, הן כוללות גם חברת קרנות כמותית בשם Magic Cube." נהוג להאמין ש-10,000 שבבי Nvidia A100 הם הסף לכוח מחשוב לאימון דגמים גדולים.

בראיון קודם, ליאנג וונפנג הזכיר גם נקודה מעניינת: אנשים רבים יחשבו שיש היגיון עסקי לא ידוע מאחורי זה, אבל למעשה, הוא מונע בעיקר על ידי סקרנות.

תוֹכֶן הָעִניָנִים

DeepSeekהמפגש הראשון של

בראיון ל-Darksurge במאי 2023, כשנשאל "לא מזמן, Huanfang הודיעה על החלטתה לייצר דגמים גדולים, למה שקרן כמותית תעשה דבר כזה?"

התשובה של ליאנג וונפנג הייתה מהדהדת: "להחלטה שלנו לבנות מודל גדול אין שום קשר לכימות או למימון. הקמנו חברה חדשה בשם DeepSeek כדי לעשות זאת. רבים מחברי המפתח בצוות במיאנפאנג מעורבים בבינה מלאכותית. בזמנו, ניסינו תרחישים רבים ולבסוף הסתפקנו בפיננסים, שהוא מורכב מספיק. בינה מלאכותית כללית עשויה להיות אחד הדברים הבאים הכי קשים להשגה, אז עבורנו, זו שאלה של איך לעשות את זה, לא למה.

לא מונע על ידי אינטרסים מסחריים או רדיפה אחר מגמות בשוק, אלא פשוט מונע על ידי רצון לחקור את טכנולוגיית AGI עצמה ומרדף מתמשך אחר "הדבר החשוב והקשה ביותר". השם "DeepSeek" אושר רשמית במאי 2023. ב-17 ביולי 2023, "Hangzhou DeepSeek Intelligence Basic Technology Research Co., Ltd." התאגדה.

עַל 2 בנובמבר 2023, DeepSeek סיפקה את התשובה הראשונה שלה: DeepSeek Coder, דגם גדול של קוד מקור פתוח. דגם זה כולל מספר גדלים כגון 1B, 7B ו-33B. תוכן הקוד הפתוח כולל את מודל הבסיס ואת מודל כוונון הפקודה.

בזמנו, בין דגמי הקוד הפתוח, CodeLlama של Meta היה המדד בתעשייה. עם זאת, ברגע שה-DeepSeek Coder שוחרר, הוא הפגין עמדה מובילה רבת פנים בהשוואה ל-CodeLlama: ביצירת קוד, HumanEval הקדימה 9.3%, MBPP הקדימה 10.8%, ו-DS-1000 הקדימה 5.9%.

זכור כי DeepSeek Coder הוא דגם 7B, בעוד CodeLlama הוא דגם 34B. בנוסף, דגם ה-DeepSeek Coder, לאחר מכוון עם הוראות, עלה באופן מקיף על GPT3.5-Turbo.

לא רק יצירת קוד מרשים, אלא שגם DeepSeek Coder מציג את השרירים שלו במתמטיקה ובהיגיון.

שלושה ימים לאחר מכן, ב-5 בנובמבר 2023, DeepSeek פרסמה כמות גדולה של תוכן גיוס דרך החשבון הציבורי שלה WeChat, כולל תפקידים כמו מתמחה במודל גדול של AGI, מומחה נתונים, כישרון ארכיטקטורת נתונים, מהנדס בכיר לאיסוף נתונים, מחקר ופיתוח של למידה עמוקה מהנדס וכו', והחל להרחיב את הצוות באופן פעיל.

כפי שאמר ליאנג וונפנג, "דרישות החובה" של DeepSeek לגיוס כישרונות הן "תשוקה וכישורים בסיסיים מוצקים", והוא הדגיש זאת "חדשנות דורשת כמה שפחות התערבות וניהול, כדי שלכל אחד יהיה החופש לעשות טעויות ולנסות דברים חדשים. חדשנות מגיעה לרוב מבפנים, לא מסידורים מכוונים, והיא בהחלט לא מגיעה מהוראה”.

מודלים משוחררים לעתים קרובות, ומתרגלים קוד פתוח

לאחר ש-DeepSeek Coder עשה סנסציה, DeepSeek הפנתה את תשומת ליבו לשדה הקרב העיקרי: מודלים של שפות כלליות.

עַל 29 בנובמבר 2023, DeepSeek הוציאה את דגם השפה הגדול לשימוש כללי הראשון שלה, DeepSeek LLM 67B. מודל זה מבוסס על מודל LLaMA2 70B של Meta באותה רמה והציג ביצועים טובים יותר בכמעט 20 רשימות הערכה ציבוריות בסינית ובאנגלית. בפרט, יכולות ההיגיון, המתמטיקה והתכנות שלו (למשל HumanEval, MATH, CEval ו-CMMLU) יוצאות מן הכלל.

DeepSeek LLM 67B בחר גם במסלול הקוד הפתוח ותומך בשימוש מסחרי. כדי להדגים עוד יותר את כנותה ונחישותה לקוד פתוח, DeepSeek פתחה, ללא תקדים, בו-זמנית שני מודלים בקנה מידה שונה, 7B ו-67B, ואף פרסמה את תשעת המחסומים שנוצרו במהלך תהליך הכשרת המודל להורדה ושימוש של חוקרים. פעולה מסוג זה, שדומה ל"ללמד הכל", היא נדירה ביותר בכל קהילת הקוד הפתוח.

על מנת להעריך בצורה מקיפה ואובייקטיבית יותר את היכולות האמיתיות של DeepSeek LLM 67B, צוות המחקר של DeepSeek גם עיצב בקפידה סדרה של "שאלות חדשות" עבור "בדיקות מאמץ". שאלות אלו מכסות מבחנים ברמה גבוהה עם אפליה גבוהה, כגון שאלות בחינות מתמטיקה בתיכון הונגרי, פקודות של Google בעקבות ערכות הערכה ושאלות תחרות שבועיות של LeetCode. תוצאות הבדיקה היו מעודדות. DeepSeek LLM 67B הראה פוטנציאל מדהים מבחינת היכולת שלו להכליל מעבר לדגימה, והביצועים הכוללים שלו היו אפילו קרובים לזה של דגם ה-GPT-4 המתקדם ביותר דאז.

עַל 18 בדצמבר 2023, DeepSeek פתח את המקור של דגם Vincent 3D DreamCraft3D: הוא יכול ליצור מודלים תלת מימדיים באיכות גבוהה ממשפט, ולהשיג את הקפיצה ממישורים דו מימדיים לחלל תלת מימד ב-AIGC. לדוגמה, אם המשתמש מזין: "ריצה ביער, תמונה היברידית מצחיקה של ראש חזיר וגופו של מלך הקופים", DreamCraft3D יכול להוציא תוכן באיכות גבוהה:

באופן עקרוני, המודל משלים תחילה את דיאגרמת Venn, ולאחר מכן משלים את המבנה הגיאומטרי הכולל על בסיס מפת הקונספט הדו-ממדית:

בהערכה הסובייקטיבית שלאחר מכן, יותר מ-90% מהמשתמשים אמרו כי ל-DreamCraft3D יש יתרון באיכות הדור בהשוואה לשיטות הדור הקודם.

ב-7 בינואר 2024, DeepSeek פרסמה את הדוח הטכני DeepSeek LLM 67B. דוח זה של יותר מ-40 עמודים מכיל פרטים רבים של DeepSeek LLM 67B, כולל חוקי קנה מידה בנוי עצמי, פרטים מעשיים מלאים של יישור מודלים ומערכת מקיפה להערכת יכולות AGI.

כתובת נייר

עַל 11 בינואר 2024, DeepSeek הוציאה בקוד פתוח את הדגם הגדול הראשון של MoE (ארכיטקטורת מומחה מעורב) בסין, DeepSeekMoE: ארכיטקטורה חדשה לגמרי התומכת בסינית ובאנגלית וחינמית לשימוש מסחרי. ארכיטקטורת MoE נחשבה בדרך כלל בזמנו כמפתח לפריצת דרך הביצועים של OpenAI GPT-4. ארכיטקטורת MoE שפותחה בעצמה של DeepSeek מובילה במספר סולמות כגון 2B, 16B ו-145B, וגם החישוב שלה ראוי לשבח.

ב-25 בינואר 2024, DeepSeek פרסמה את הדוח הטכני של DeepSeek Coder. דוח זה מספק ניתוח טכני מקיף של נתוני האימון, שיטות ההדרכה וביצועי המודל שלו. בדוח זה, אנו יכולים לראות שלראשונה, היא בנתה נתוני קוד ברמת המחסן והשתמשה במיון טופולוגי כדי לנתח את התלות בין קבצים, מה שמשפר משמעותית את היכולת להבין קבצים צולבים למרחקים ארוכים. מבחינת שיטות האימון נוספה שיטת Fill-In-Middle ששיפרה מאוד את יכולת השלמת הקוד.

כתובת נייר

ב-30 בינואר 2024, הפלטפורמה הפתוחה DeepSeek הושקה רשמית, ושירות ה-API של DeepSeek Large Model החל בבדיקות. הירשם כדי לקבל 10 מיליון אסימונים בחינם. הממשק תואם לממשק OpenAI API, ושני הדגמים הכפולים של Chat/Coder זמינים. בשלב זה, DeepSeek החלה לחקור את דרכו של ספק שירות טכנולוגי בנוסף למחקר ופיתוח טכנולוגי.

עַל 5 בפברואר 2024, DeepSeek הוציאה מודל דומיין אנכי נוסף, DeepSeekMath, מודל חשיבה מתמטית. למודל הזה יש רק 7B פרמטרים, אבל יכולת החשיבה המתמטית שלו קרובה לזו של GPT-4. ברשימת הבנצ'מרק הסמכותית של MATH, הוא עולה על הקהל ועולה על מספר דגמי קוד פתוח עם גדלי פרמטרים בין 30B ל-70B. השחרור של DeepSeekMath מדגים במלואו את החוזק הטכני והפריסה הצופה פני עתיד של DeepSeek במחקר ופיתוח של אנכית והפריסה הצופה פני עתיד שלו במחקר ופיתוח מודלים.

עַל 28 בפברואר 2024, על מנת להפיג עוד יותר את חששות המפתחים לגבי השימוש במודלים של DeepSeek קוד פתוח, DeepSeek פרסמה שאלות נפוצות בנושא מדיניות קוד פתוח, המספק תשובות מפורטות לשאלות נפוצות כגון רישוי קוד פתוח של מודלים והגבלות שימוש מסחרי. DeepSeek חובק קוד פתוח עם גישה שקופה ופתוחה יותר:

עַל 11 במרץ 2024, DeepSeek הוציאה את הדגם הגדול הרב-מודאלי DeepSeek-VL. זהו הניסיון הראשוני של DeepSeek בטכנולוגיית AI רב-מודאלית. הדגם הוא בגודל 7B ו-1.3B, והדגם והניירות הטכניים הם בקוד פתוח בו זמנית.

עַל 20 במרץ 2024, Huanfang AI & DeepSeek הוזמנו שוב להשתתף בכנס NVIDIA GTC 2024, והמייסד Liang Wenfeng נשא נאום מרכזי טכני שכותרתו "הרמוניה במגוון: יישור וניתוק הערכים של מודלים לשוניים גדולים". נדונו נושאים כמו "הקונפליקט בין מודל גדול בעל ערך יחיד לבין חברה ותרבות פלורליסטית", "הניתוק של יישור ערכי מודל גדול" ו"האתגרים הרב-ממדיים של יישור ערכי מנותק". זה הוכיח את הטיפול ההומניסטי והאחריות החברתית של DeepSeek לפיתוח בינה מלאכותית, בנוסף למחקר ולפיתוח הטכנולוגי שלה.

במרץ 2024, DeepSeek API הושקו רשמית שירותים בתשלום, שהציתו לחלוטין את ההקדמה למלחמת המחירים בשוק הדגמים הגדולים הסיני: 1 יואן למיליון אסימוני קלט ו-2 יואן למיליון אסימוני פלט.

בשנת 2024, DeepSeek עבר בהצלחה את רישום הדגמים הגדולים בסין, ופינה את מכשולי המדיניות לפתיחה מלאה של שירותי ה-API שלה.

במאי 2024 שוחרר DeepSeek-V2, דגם גדול של MoE כללי בקוד פתוח, ומלחמת המחירים החלה רשמית. DeepSeek-V2 משתמש ב-MLA (מנגנון קשב סמוי מרובה ראשים), אשר מקטין את טביעת הרגל של הזיכרון ל-5%-13% מזו של MHA המסורתית. במקביל, היא גם פיתחה באופן עצמאי את המבנה הדל DeepSeek MoE Sparse, מה שמפחית מאוד את המורכבות החישובית של הדגם. הודות לכך, המודל שומר על מחיר API של "1 יואן/מיליון תשומות ו-2 יואן/מיליון תפוקות".

ל-DeepSeek הייתה השפעה עצומה. בהקשר זה, האנליסט הראשי ב-SemiAnalysis מאמין שהעיתון DeepSeek V2 "ייתכן שהוא אחד הטובים ביותר השנה". באופן דומה, אנדרו קאר, עובד לשעבר ב-OpenAI, מאמין שהעיתון "מלא בחוכמה מדהימה" והחיל את הגדרות ההדרכה שלו על המודל שלו.

יצוין כי מדובר בדגם שקובע את GPT-4-Turbo, ומחיר ה-API הוא רק 1/70 מהאחרון

ביוני 17, 2024, DeepSeek שוב עשה דחיפה גדולה, והוציא את מודל הקוד DeepSeek Coder V2 קוד פתוח וטוען כי יכולות הקוד שלו עלו על GPT-4-Turbo, דגם הקוד הסגור המתקדם ביותר באותה תקופה. DeepSeek Coder V2 ממשיך את אסטרטגיית הקוד הפתוח העקבית של DeepSeek, עם כל הדגמים, הקוד והניירות בקוד פתוח, ושתי גרסאות, 236B ו-16B, מסופקות. שירותי ה-API של DeepSeek C oder V2 זמינים גם הם באינטרנט, והמחיר נשאר על "1 יואן/מיליון תשומות ו-2 יואן/מיליון תפוקות".

עַל 21 ביוני 2024, DeepSeek Coder נתמך בביצוע קוד מקוון. באותו יום שוחרר Claude3.5 Sonnet, עם תכונת Artifacts החדשה, אשר מייצרת קוד אוטומטית ומריצה אותו ישירות בדפדפן. באותו יום השיקה גם עוזרת הקוד באתר DeepSeek את אותה תכונה: הפקת קוד והפעל אותו בלחיצה אחת.

בואו נסקור את האירועים המרכזיים בתקופה זו:

פריצות דרך מתמשכות, מושכות תשומת לב עולמית

במאי 2024, DeepSeek התפרסם בן לילה על ידי שחרור DeepSeek V2, מודל קוד פתוח המבוסס על MoE. זה התאים לביצועים של GPT-4-Turbo, אבל במחיר של 1 יואן/מיליון תשומה בלבד, שהיה 1/70 מ-GPT-4-Turbo. באותה תקופה, DeepSeek הפך ל"קצב מחירים" ידוע בתעשייה, ואז שחקנים מיינסטרים כמו Zhicheng, ByteDance ו-Alibaba... ושחקנים גדולים אחרים הלכו בעקבותיהם במהירות והורידו את המחירים שלהם. זה היה גם בערך באותה תקופה שהיה סבב נוסף של איסור GPT, ומספר רב של יישומי AI החלו לנסות דגמים מקומיים בפעם הראשונה.

ביולי 2024, מייסד DeepSeek, ליאנג וונפנג, קיבל שוב ראיון עם Dark Surge והגיב ישירות למלחמת המחירים: "מאוד לא צפוי. לא ציפיתי שהמחיר יעשה את כולם כל כך רגישים. אנחנו פשוט עושים דברים בקצב שלנו ואז מתמחרים לפי עלות. העיקרון שלנו הוא לא להפסיד כסף או לעשות רווחים מופקעים. המחיר הזה גם מעט מעל העלות עם מעט רווח".

ניתן לראות שבניגוד למתחרים רבים שמשלמים מכיסם כדי לסבסד, DeepSeek משתלם במחיר הזה.

יש אנשים שיגידו: הורדת מחירים היא כמו לשדוד משתמשים, וזה בדרך כלל המקרה במלחמות מחירים בעידן האינטרנט

בתגובה, גם ליאנג וונפנג הגיב: "שדוד משתמשים היא לא המטרה העיקרית שלנו. הורדנו את המחיר מכיוון שמצד אחד העלות ירדה כשאנחנו בוחנים את המבנה של מודל הדור הבא, ומצד שני, אנחנו מרגישים שגם ה-API וגם ה-AI צריכים להיות סבירים ונגישים לכולם. ”

אז הסיפור ממשיך עם האידיאליזם של ליאנג וונפנג.

ב-4 ביולי 2024, ה-API של DeepSeek עלה לרשת. המחיר עבור הקשר של 128K נותר ללא שינוי. עלות ההסקה של מודל קשורה קשר הדוק לאורך ההקשר. לכן, לדגמים רבים יש הגבלות קפדניות על אורך זה: לגרסה הראשונית של GPT-3.5 יש רק הקשר של 4k.

בשלב זה, DeepSeek הגדיל את אורך ההקשר מ-32k הקודמים ל-128k תוך שמירה על המחיר ללא שינוי (1 יואן למיליון אסימוני קלט ו-2 יואן למיליון אסימוני פלט).

עַל ב-10 ביולי 2024, הוכרזו התוצאות של אולימפיאדת הבינה המלאכותית הראשונה בעולם (AIMO), ודגם ה-DeepSeekMath הפך לבחירה הנפוצה של הקבוצות המובילות. 4 הקבוצות הזוכות כולן בחרו ב-DeepSeekMath-7B כבסיס לדגמי הכניסה שלהם והשיגו תוצאות מרשימות בתחרות.

עַל 18 ביולי 2024, DeepSeek-V2 עמד בראש רשימת דגמי הקוד הפתוח בזירת הצ'טבוט, מתעלים על דגמי כוכבים כגון Llama3-70B, Qwen2-72B, Nemotron-4-340B ו-Gemma2-27B, והפכו למבחן חדש עבור דגמים גדולים בקוד פתוח.

ב ביולי 2024, DeepSeek המשיכה לגייס כישרונות וגייס כישרונות מובילים מרחבי העולם במספר תחומים, כולל אלגוריתמי AI, AI Infra, AI Tutor ומוצרי AI, כדי להתכונן לחדשנות טכנולוגית עתידית ופיתוח מוצרים.

עַל 26 ביולי 2024, DeepSeek API הוביל שדרוג חשוב, ותומך באופן מלא בשורה של תכונות מתקדמות כגון החלפה, השלמת FIM (Fill-in-the-Middle), קריאת פונקציות ופלט JSON. פונקציית FIM מעניינת מאוד: המשתמש נותן את ההתחלה והסוף, והדגם הגדול ממלא באמצע, מה שמתאים מאוד לתהליך התכנות למילוי קוד הפונקציה המדויק. קח כדוגמה את כתיבת רצף פיבונאצ'י:

עַל 2 באוגוסט 2024, DeepSeek הציגה באופן חדשני את טכנולוגיית אחסון הדיסק הקשיח, והפחיתה את מחירי ה-API עד הקרסוליים. בעבר, מחירי ה-API היו רק ￥1 למיליון אסימונים. עם זאת, כעת, לאחר ביצוע פגיעה במטמון, עמלת ה-API יורדת ישירות ל-‎￥0.1.

תכונה זו מעשית מאוד כאשר מעורבות שיחות מתמשכות ומשימות עיבוד אצווה.

עַל 16 באוגוסט 2024, DeepSeek פרסמה את מודל הוכחת המשפט המתמטי שלה DeepSeek-Prover-V1.5 כקוד פתוח, שעלה על הרבה מודלים ידועים של קוד פתוח במבחני הוכחת משפט מתמטי של תיכון ומכללות.

עַל 6 בספטמבר 2024, DeepSeek הוציאה את דגם ההיתוך DeepSeek-V2.5. בעבר, DeepSeek סיפקה בעיקר שני מודלים: מודל הצ'אט התמקד במיומנויות שיחה כלליות, ומודל הקוד התמקד במיומנויות עיבוד קוד. הפעם שולבו שני הדגמים לאחד, ששודרג ל-DeepSeek-V2.5, שמתיישר טוב יותר עם ההעדפות האנושיות וגם השיג שיפורים משמעותיים במשימות הכתיבה, מעקבי הפקודות והיבטים נוספים.

עַל 18 בספטמבר 2024, DeepSeek-V2.5 שוב היה ברשימת LMSYS העדכנית, והוביל את הדגמים המקומיים וקביעת ציונים טובים חדשים עבור דוגמניות ביתיות במספר יכולות אינדיבידואליות.

עַל 20 בנובמבר 2024, DeepSeek יצא DeepSeek-R1-Lite באתר הרשמי. זהו מודל מסקנות השווה ל-o1-preview, וגם מספק כמות מספקת של נתונים סינתטיים עבור פוסט אימון של V3.

עַל 10 בדצמבר 2024, סדרת DeepSeek V2 הובילה את הסיום שלה עם שחרורו של הגרסה הסופית מכווננת עדינה של DeepSeek-V2.5-1210. גרסה זו משפרת באופן מקיף יכולות מרובות, כולל מתמטיקה, קידוד, כתיבה ומשחקי תפקידים באמצעות פוסט אימון.

עם הגעת גרסה זו, אפליקציית האינטרנט DeepSeek פתחה גם את פונקציית החיפוש ברשת.

עַל 13 בדצמבר 2024, DeepSeek עשתה פריצת דרך נוספת בתחום המולטי-מודאליות והוציאה את דגם הקוד הפתוח המולטי-מודאלי הגדול DeepSeek-VL2. DeepSeek-VL2 מאמץ את ארכיטקטורת MoE, אשר משפרת משמעותית את היכולות החזותיות שלו. הוא זמין בשלושה גדלים: 3B, 16B ו-27B, ויש לו יתרון בכל המדדים.

עַל 26 בדצמבר 2024, DeepSeek-V3 שוחרר עם קוד פתוח: עלות ההדרכה המוערכת הייתה רק 5.5 מיליון דולר אמריקאי. DeepSeek-V3 מדד במלואו את הביצועים של דגמי קוד סגור מובילים מעבר לים ושיפר מאוד את מהירות היצירה.

התמחור של שירותי ה-API הותאם, אך במקביל נקבעה תקופת ניסיון מועדפת של 45 יום לדגם החדש.

ב-15 בינואר 2025, האפליקציה הרשמית DeepSeek שוחררה רשמית והושקה במלואה בשווקי אפליקציות iOS/Android הגדולים.

ב-20 בינואר 2025, סמוך לשנה החדשה הסינית, דגם ההסקה DeepSeek-R1 שוחרר באופן רשמי ומקורו בקוד פתוח. DeepSeek-R1 התאימה באופן מלא את הביצועים שלו לגרסה הרשמית של OpenAI o1 ופתחה את פונקציית פלט שרשרת המחשבה. במקביל, DeepSeek גם הודיעה כי רישיון הקוד הפתוח של המודל ישונה לרישיון MIT, והסכם המשתמש יאפשר במפורש "זיקוק מודל", תוך אימוץ נוסף של קוד פתוח וקידום שיתוף טכנולוגיות.

מאוחר יותר, דגם זה הפך לפופולרי מאוד והוביל עידן חדש

כתוצאה מכך, החל מ-27 בינואר 2025, אפליקציית DeepSeek עברה בהצלחה את ChatGPT והגיעה בראש רשימת הורדות האפליקציות החינמיות בחנות האפליקציות של iOS האמריקאית, והפכה לאפליקציית AI פנומנלית.

ב-27 בינואר 2025, בשעה 1:00 לפנות בוקר בערב השנה החדשה, DeepSeek Janus-Pro שוחרר כקוד פתוח. זהו דגם מולטי-מודאלי שנקרא על שם האל הדו-פרצופי יאנוס במיתולוגיה הרומית העתיקה: הוא פונה לעבר וגם לעתיד. זה גם מייצג את שתי היכולות של המודל - הבנה חזותית ויצירת תדמית - ושליטתו במספר דירוגים.

הפופולריות הנפיצה של DeepSeek עוררה מיד גל הלם טכנולוגי עולמי, אפילו גרמה ישירות למחיר המניה של NVIDIA לצנוח ב-18%, ולשווי השוק של שוק המניות הטכנולוגי העולמי להתאדות בכ-1 טריליון דולר אמריקאי. וול סטריט והתקשורת הטכנולוגית קראו שהעלייה של DeepSeek מערערת את נוף תעשיית הבינה המלאכותית העולמית ומציבה אתגר חסר תקדים לענקיות הטכנולוגיה האמריקאיות.

ההצלחה של DeepSeek עוררה גם תשומת לב בינלאומית גבוהה ודיונים סוערים על יכולות החדשנות הטכנולוגית של AI בסין. נשיא ארה"ב דונלד טראמפ, בהערה ציבורית נדירה, שיבח את עליית DeepSeek כ"חיובית" ואמר כי מדובר ב"קריאת השכמה" עבור ארצות הברית. גם מנכ"לית מיקרוסופט, סאטיה נאדלה, ומנכ"ל OpenAI, סם אלטמן, שיבחו את DeepSeek, וכינו את הטכנולוגיה שלה "מרשימה מאוד".

כמובן, עלינו להבין גם שהשבחים שלהם הם בחלקו הכרה בכוחו של DeepSeek, ובחלקו שיקוף של המניעים שלהם עצמם. לדוגמה, בעוד ש-Anthropic מכירה בהישגים של DeepSeek, היא גם קוראת לממשלת ארה"ב לחזק את בקרת השבבים על סין.

מנכ"ל Anthropic מפרסם מאמר בן 10,000 מילים: העלייה של DeepSeek פירושה שהבית הלבן צריך להגביר את השליטה

סיכום והשקפה

במבט לאחור על השנתיים האחרונות של DeepSeek, זה באמת היה "נס סיני": מסטארט-אפ לא ידוע ועד ל"כוח המזרחי המסתורי" שזורח כעת על במת הבינה המלאכותית העולמית, DeepSeek כתב "בלתי אפשרי" אחד אחרי השני עם חוזק וחדשנות.

המשמעות העמוקה יותר של המשלחת הטכנולוגית הזו עברה מזמן את היקף התחרות המסחרית. DeepSeek הודיעה עם עובדות על כך בתחום האסטרטגי של בינה מלאכותית הנוגע לעתיד, חברות סיניות מסוגלות במלואן לטפס לגבהים של טכנולוגיית הליבה.

"פעמון האזעקה" שצופר על ידי טראמפ והפחד הסמוי מאנתרופיק מאשרים בדיוק את חשיבות יכולות הבינה המלאכותית של סין: לא רק שהיא יכולה לרכוב על הגלים, אלא היא גם מעצבת מחדש את כיוון הגאות

חיפוש עמוק מוּצָר לְשַׁחְרֵר אבני דרך

2 בנובמבר 2023: DeepSeek קודן דגם גדול
29 בנובמבר 2023: DeepSeek LLM 67B דגם אוניברסלי
18 בדצמבר 2023: דגם 3D DreamCraft3D
11 בינואר 2024: DeepSeekMoE MoE דגם גדול
5 בפברואר 2024: DeepSeekMath מודל חשיבה מתמטית
11 במרץ 2024: DeepSeek-VL דגם גדול מולטימודאלי
מאי 2024: דגם כללי DeepSeek-V2 MoE
17 ביוני 2024: דגם קוד DeepSeek Coder V2
6 בספטמבר 2024: DeepSeek-V2.5 היתוך של מודלים של מיומנות כללית וקוד
13 בדצמבר 2024: DeepSeek-VL2 דגם MoE multimodal
26 בדצמבר 2024: DeepSeek-V3 סדרה חדשה של דגמים גדולים לשימוש כללי
20 בינואר 2025: דגם מסקנות DeepSeek-R1
20 בינואר 2025: אפליקציה רשמית של DeepSeek (iOS ואנדרואיד)
27 בינואר 2025: דגם DeepSeek Janus-Pro multimodal

כיצד נוצר DeepSeek? ניתוח של היסטוריית הצמיחה של DeepSeek

DeepSeekהמפגש הראשון של

מודלים משוחררים לעתים קרובות, ומתרגלים קוד פתוח

פריצות דרך מתמשכות, מושכות תשומת לב עולמית

סיכום והשקפה

חיפוש עמוק מוּצָר לְשַׁחְרֵר אבני דרך

DeepSeek פרסמה את קוד המקור שלה, הסבר מפורט על FlashMLA

עימות בין ארבעת הדגמים המובילים! סקירה שמדגימה כמה חזק Deepseek R1

Ali Qwen2.5-Max עוקף את DeepSeek-V3! Netizen: ה-AI של סין מצמצם את הפער במהירות

מוצרי AI המיינסטרים בעולם מתמקדים בניתוח ובהנחיות מקיפות של חווית משתמש (כולל DeepSeek ו-GPT)

Gemini 2.0 שולט בטבלאות, בעוד DeepSeek V3 בוכה במחיר שלו, ואלוף חדש וחסכוני נולד!

מה זה FlashMLA? מדריך מקיף להשפעתו על ליבות פענוח בינה מלאכותית

כתיבת תגובה לבטל

DeepSeekהמפגש הראשון של

מודלים משוחררים לעתים קרובות, ומתרגלים קוד פתוח

פריצות דרך מתמשכות, מושכות תשומת לב עולמית

סיכום והשקפה

חיפוש עמוק מוּצָר לְשַׁחְרֵר אבני דרך

פוסטים דומים

כתיבת תגובה לבטל