בשבוע שעבר, DeepSeek הודיעה כי תפתח חמישה פרויקטים בקוד פתוח בשבוע הבא: גולשים אמרו, "הפעם, OpenAI באמת כאן." זה עתה, הגיע פרויקט הקוד הפתוח הראשון, הקשור להאצת מסקנות, FlashMLA: כתובת פרויקט קוד פתוח: DeepSeek FlashMLA זה היה קוד פתוח כבר שעתיים, ול-Github כבר יש 2.7k+ כוכבים: ה...
FlashMLA זכה במהירות לתשומת לב בעולם הבינה המלאכותית, במיוחד בתחום מודלים של שפה גדולה (LLMs). הכלי החדשני הזה, שפותח על ידי DeepSeek, משמש כגרעין פענוח אופטימלי המיועד ל-Hopper GPUs - שבבים בעלי ביצועים גבוהים הנפוצים בחישובי AI. FlashMLA מתמקדת בעיבוד יעיל של רצפים באורך משתנה, מה שהופך אותו למתאים במיוחד...
מבוא כיום, מודלים של שפה גדולים (LLMs) ממלאים תפקיד מכריע. בתחילת 2025, עם התגברות התחרות על בינה מלאכותית, השיקה עליבאבא את דגם ה-AI החדש Qwen2.5-max, ו-DeepSeek, חברה מהאנגג'ואו, סין, השיקה את דגם ה-R1, המייצג את פסגת טכנולוגיית ה-LLM. Deepseek R1 הוא מודל AI בקוד פתוח שמשך אליו...
מודל ההסקה 32B משתמש רק ב-1/8 מהנתונים והוא קשור ל-DeepSeek-R1 באותו גודל! זה עתה, מוסדות כמו סטנפורד, UC Berkeley ואוניברסיטת וושינגטון שחררו יחד מודל הסקה ברמת SOTA, OpenThinker-32B, וגם קוד פתוח של עד 114 אלף נתוני אימון. דף הבית של פרויקט OpenThinker: OpenThinker Hugging Face:...