Το DeepSeek κυκλοφόρησε τον πηγαίο κώδικα του, λεπτομερή εξήγηση του FlashMLA

Την περασμένη εβδομάδα, το DeepSeek ανακοίνωσε ότι θα επρόκειτο για πέντε έργα ανοιχτού κώδικα την επόμενη εβδομάδα:

Οι χρήστες του Διαδικτύου είπαν: «Αυτή τη φορά, το OpenAI είναι πραγματικά εδώ».

Μόλις τώρα, ήρθε το πρώτο έργο ανοιχτού κώδικα, που σχετίζεται με την επιτάχυνση συμπερασμάτων, το FlashMLA:

Διεύθυνση έργου ανοιχτού κώδικα:

DeepSeek FlashMLA

Είναι ανοιχτού κώδικα εδώ και δύο ώρες και το Github έχει ήδη 2,7k+ αστέρια:

Η βασική λειτουργία του έργου είναι:

"Το FlashMLA είναι ένας αποτελεσματικός πυρήνας αποκωδικοποίησης MLA για Hopper GPU, βελτιστοποιημένος για την προβολή ακολουθιών μεταβλητού μήκους."

Μεταφρασμένο, είναι:

"Το FlashMLA είναι ένας αποτελεσματικός πυρήνας αποκωδικοποίησης MLA βελτιστοποιημένος για GPU αρχιτεκτονικής NVIDIA Hopper, ειδικά βελτιστοποιημένος για σενάρια υπηρεσιών που επεξεργάζονται ακολουθίες μεταβλητού μήκους."

Με λίγα λόγια:

Το FlashMLA είναι ένας αποτελεσματικός πυρήνας αποκωδικοποίησης που σχεδιάστηκε από την DeepInference για GPU με αρχιτεκτονική Hopper (όπως το H800). Βελτιστοποιώντας τον υπολογισμό δυναμικής προσοχής πολλαπλών κεφαλών των ακολουθιών μεταβλητού μήκους, επιτυγχάνει την απόλυτη απόδοση εύρους ζώνης μνήμης 3000 GB/s και υπολογιστική ισχύ 580 TFLOPS στο στάδιο της αποκωδικοποίησης, βελτιώνοντας σημαντικά την αποτελεσματικότητα της συλλογιστικής με μεγάλα πλαίσια για μεγάλα μοντέλα.

Κάποιοι χρήστες του Διαδικτύου είπαν:

Μερικοί άνθρωποι το χρησιμοποιούν ήδη και λένε Pure engineering:

Αυτό το έργο ανήκει στη μηχανική βελτιστοποίηση και συμπιέζει την απόδοση του υλικού στο όριο.

Το έργο είναι έτοιμο για χρήση εκτός συσκευασίας.

Περιβαλλοντικές απαιτήσεις:

GPU Hopper
CUDA 12.3 και άνω
PyTorch 2.0 και νεότερη έκδοση

Στο τέλος του έργου, ο αξιωματούχος δήλωσε επίσης ότι εμπνεύστηκε από τα έργα FlashAttention 2&3 και NVIDIA CUTLASS.

Το FlashAttention είναι ικανό να επιτύχει γρήγορη και αποδοτική από πλευράς μνήμης ακριβή προσοχή και χρησιμοποιείται σε μεγάλα μεγάλα μοντέλα. Η τελευταία έκδοση τρίτης γενιάς μπορεί να αυξήσει το ποσοστό χρήσης του H100 σε 75%.

Η ταχύτητα εκπαίδευσης αυξάνεται κατά 1,5-2 φορές και η υπολογιστική απόδοση στο FP16 φτάνει τα 740 TFLOPs/s, φτάνοντας τα 75% της θεωρητικής μέγιστης απόδοσης και κάνοντας πληρέστερη χρήση των υπολογιστικών πόρων, που προηγουμένως ήταν μόνο 35%.

FlashMLA όχι μόνο επιτυγχάνει ένα άλμα στην απόδοση μέσω της βελτιστοποίησης σε επίπεδο υλικού, αλλά παρέχει επίσης μια ολοκληρωμένη λύση για μηχανικές πρακτικές στην εξαγωγή συμπερασμάτων τεχνητής νοημοσύνης, καθιστώντας μια βασική τεχνολογική ανακάλυψη στην επιτάχυνση της εξαγωγής συμπερασμάτων μεγάλων μοντέλων.

Υπήρχε μια τόσο μεγάλη αποκάλυψη την πρώτη μέρα.

Ανυπομονώ για το υλικό ανοιχτού κώδικα τις επόμενες τέσσερις ημέρες!

Όπως είπε ο διαδικτυακός χρήστης:

Η φάλαινα κάνει κύματα!

Το DeepSeek είναι φοβερό!

Uncategorized

Η αναμέτρηση των τεσσάρων κορυφαίων μοντέλων! Μια κριτική που δείχνει πόσο ισχυρό είναι το Deepseek R1

Μεzddeepseeker 1 Ιουνίου 20251 Ιουνίου 2025

Τις τελευταίες ημέρες, το Deepseek-R1 0528 διατίθεται επίσημα ως ανοιχτού κώδικα. Στο LiveCodeBench, η απόδοσή του είναι σχεδόν εφάμιλλη με το o3 (υψηλή) του OpenAI. Στο πολυγλωσσικό benchmark test του Aider, συγκρίνεται με το Claude Opus. Όταν κυκλοφόρησε στον επίσημο ιστότοπο, δοκιμάσαμε γρήγορα τις δυνατότητές του στο front-end και τις διαπιστώσαμε εξαιρετικά...

Uncategorized

Το χαμηλού κόστους μοντέλο της Google, η σειρά Gemini 2.0, επιτίθεται: η μάχη για τη σχέση κόστους-αποτελεσματικότητας στα μεγάλα μοντέλα εντείνεται

Μεzddeepseeker Φεβρουάριος 8, 2025Φεβρουάριος 8, 2025

Το υψηλό κόστος χρήσης μεγάλων μοντέλων τεχνητής νοημοσύνης είναι ένας σημαντικός λόγος για τον οποίο πολλές εφαρμογές τεχνητής νοημοσύνης δεν έχουν ακόμη εφαρμοστεί και προωθηθεί. Η επιλογή ακραίων επιδόσεων σημαίνει τεράστιο κόστος υπολογιστικής ισχύος, το οποίο οδηγεί σε υψηλό κόστος χρήσης που οι απλοί χρήστες δεν μπορούν να αποδεχθούν. Ο ανταγωνισμός για μεγάλα μοντέλα AI μοιάζει με πόλεμο χωρίς καπνό. Μετά…

Uncategorized

DeepSeek TOP17 Best Alternatives: Comprehensive Analysis (2025)

Μεdeepseeker Φεβρουάριος 6, 2025Φεβρουάριος 6, 2025

Εισαγωγή Στο ταχέως εξελισσόμενο τοπίο της τεχνητής νοημοσύνης, το DeepSeek έχει αναδειχθεί ως ένα ισχυρό γλωσσικό μοντέλο. Αυτή η ολοκληρωμένη ανάλυση διερευνά τις κορυφαίες 17 εναλλακτικές λύσεις του DeepSeek, εξετάζοντας τα μοναδικά χαρακτηριστικά, τις δυνατότητες και τις περιπτώσεις χρήσης τους. Η έρευνά μας επικεντρώνεται τόσο σε διεθνείς όσο και σε κινεζικές πλατφόρμες που προσφέρουν ενσωμάτωση DeepSeek ή παρόμοιες δυνατότητες. Ανάλυση κορυφαίων εναλλακτικών λύσεων 1….

Uncategorized

Το Le Chat βρίσκεται στην κορυφή των charts, με επένδυση εκατό δισεκατομμυρίων δολαρίων. Μετά τις ΗΠΑ και την Κίνα, είναι η τρίτη δύναμη AI;

Μεzddeepseeker Φεβρουάριος 11, 2025Φεβρουάριος 11, 2025

Στις 9 Φεβρουαρίου, ο Γάλλος πρόεδρος Εμανουέλ Μακρόν ανακοίνωσε ότι η Γαλλία θα επενδύσει 109 δισεκατομμύρια ευρώ (113 δισεκατομμύρια δολάρια ΗΠΑ) στον τομέα της τεχνητής νοημοσύνης τα επόμενα χρόνια. Αυτή η επένδυση θα χρησιμοποιηθεί για την κατασκευή ενός πάρκου τεχνητής νοημοσύνης στη Γαλλία, τη βελτίωση της υποδομής και την επένδυση σε τοπικές νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης. Εν τω μεταξύ, η Mistral, μια γαλλική startup,…

Uncategorized

Qwen2.5-max vs DeepSeek R1: Μια βαθιά σύγκριση μοντέλων: πλήρης ανάλυση σεναρίων εφαρμογών

Μεzddeepseeker Φεβρουάριος 14, 2025Φεβρουάριος 14, 2025

Εισαγωγή Σήμερα, τα μεγάλα γλωσσικά μοντέλα (LLM) διαδραματίζουν κρίσιμο ρόλο. Στις αρχές του 2025, καθώς ο ανταγωνισμός για την τεχνητή νοημοσύνη εντάθηκε, η Alibaba παρουσίασε το νέο μοντέλο AI Qwen2.5-max και η DeepSeek, μια εταιρεία από το Hangzhou της Κίνας, κυκλοφόρησε το μοντέλο R1, το οποίο αντιπροσωπεύει την κορυφή της τεχνολογίας LLM. Το Deepseek R1 είναι ένα μοντέλο ανοιχτού κώδικα AI που έχει προσελκύσει…

Uncategorized

Τα κύρια προϊόντα τεχνητής νοημοσύνης στον κόσμο επικεντρώνονται στην ανάλυση και τις ολοκληρωμένες οδηγίες εμπειρίας χρήστη (συμπεριλαμβανομένων των DeepSeek και GPT)

Μεzddeepseeker Φεβρουάριος 10, 2025Φεβρουάριος 10, 2025

Τοποθέτηση λειτουργιών και ανάλυση βασικών πλεονεκτημάτων ChatGPT (OpenAI) – το παγκόσμιο σημείο αναφοράς για τεχνικά γονίδια ChatGPT: γενετική τεχνητή νοημοσύνη που βασίζεται στη σειρά μεγάλων μοντέλων GPT, με βασικά πλεονεκτήματα τις γενικές δεξιότητες συνομιλίας και τη λογική συλλογιστική. Πολυγλωσσική επεξεργασία: αποδίδει καλύτερα στα Αγγλικά, με συνεχή βελτίωση στα Κινεζικά, αλλά συνιστούμε να χρησιμοποιείτε τα Αγγλικά για να…

Παρόμοιες θέσεις

Αφήστε μια απάντηση Ακύρωση απάντησης