Την περασμένη εβδομάδα, το DeepSeek ανακοίνωσε ότι θα επρόκειτο για πέντε έργα ανοιχτού κώδικα την επόμενη εβδομάδα: Οι χρήστες του Διαδικτύου είπαν, «Αυτή τη φορά, το OpenAI είναι πραγματικά εδώ». Μόλις τώρα, ήρθε το πρώτο έργο ανοιχτού κώδικα, που σχετίζεται με την επιτάχυνση συμπερασμάτων, FlashMLA: Διεύθυνση έργου ανοιχτού κώδικα: DeepSeek FlashMLA Είναι ανοιχτού κώδικα για δύο ώρες και το Github έχει ήδη 2,7k+ αστέρια: Το…
Το FlashMLA έχει κερδίσει γρήγορα την προσοχή στον κόσμο της τεχνητής νοημοσύνης, ιδιαίτερα στον τομέα των μεγάλων γλωσσικών μοντέλων (LLMs). Αυτό το καινοτόμο εργαλείο, που αναπτύχθηκε από την DeepSeek, χρησιμεύει ως ένας βελτιστοποιημένος πυρήνας αποκωδικοποίησης που έχει σχεδιαστεί για GPUs Hopper—τσιπ υψηλής απόδοσης που χρησιμοποιούνται συνήθως σε υπολογισμούς τεχνητής νοημοσύνης. Το FlashMLA εστιάζει στην αποτελεσματική επεξεργασία ακολουθιών μεταβλητού μήκους, καθιστώντας το ιδιαίτερα κατάλληλο…
Εισαγωγή Σήμερα, τα μεγάλα γλωσσικά μοντέλα (LLM) διαδραματίζουν κρίσιμο ρόλο. Στις αρχές του 2025, καθώς ο ανταγωνισμός για την τεχνητή νοημοσύνη εντάθηκε, η Alibaba παρουσίασε το νέο μοντέλο AI Qwen2.5-max και η DeepSeek, μια εταιρεία από το Hangzhou της Κίνας, κυκλοφόρησε το μοντέλο R1, το οποίο αντιπροσωπεύει την κορυφή της τεχνολογίας LLM. Το Deepseek R1 είναι ένα μοντέλο ανοιχτού κώδικα AI που έχει προσελκύσει…
Το μοντέλο συμπερασμάτων 32B χρησιμοποιεί μόνο το 1/8 των δεδομένων και συνδέεται με DeepSeek-R1 ίδιου μεγέθους! Μόλις τώρα, ιδρύματα όπως το Stanford, το UC Berkeley και το Πανεπιστήμιο της Ουάσιγκτον κυκλοφόρησαν από κοινού ένα μοντέλο συμπερασμάτων σε επίπεδο SOTA, το OpenThinker-32B, και έχουν επίσης δεδομένα εκπαίδευσης ανοιχτού κώδικα έως και 114k. Αρχική σελίδα OpenThinker Project: OpenThinker Hugging Face:…