Πώς δημιουργήθηκε το DeepSeek; Μια ανάλυση του ιστορικού ανάπτυξης του DeepSeek

Στο μέλλον, η καινοτομία θα γίνεται όλο και πιο σκληροπυρηνική. Μπορεί να μην είναι εύκολο να το καταλάβουμε τώρα, επειδή ολόκληρη η κοινωνική ομάδα πρέπει να εκπαιδευτεί από τα γεγονότα. Όταν αυτή η κοινωνία επιτρέψει στους ανθρώπους που καινοτομούν σκληροπυρηνικά να επιτύχουν, η συλλογική νοοτροπία θα αλλάξει. Χρειαζόμαστε απλώς ένα μάτσο γεγονότα και μια διαδικασία. - Liang Wenfeng, ιδρυτής της DeepSeek

Τις τελευταίες ημέρες, η DeepSeek έχει εκραγεί σε όλο τον κόσμο, αλλά επειδή η εταιρεία είναι τόσο χαμηλών τόνων και δεν έχει προβεί σε ανακοινώσεις, το κοινό γνωρίζει πολύ λίγα για αυτή την τεχνολογική εταιρεία με μεγάλες δυνατότητες - είτε πρόκειται για το ιδρυτικό της υπόβαθρο, είτε για το επιχειρηματικό της πεδίο, είτε για τη διάταξη των προϊόντων της.

Αφού τελείωσα με την ταξινόμηση όλων των υλικών, έγραψα αυτό το άρθρο

Ποιο είναι το ιστορικό των σημερινών παικτών της ΤΝ, τι κάνουν και ποιους στρατολογούν;

και ίσως την πιο πλήρη ιστορική επισκόπηση του DeepSeek.

Πέρυσι τέτοια εποχή, ένας φίλος από το Magic Cube Quant ήρθε σε μένα και με ρώτησε: "Θέλεις να φτιάξεις ένα μεγάλο μοντέλο στην Κίνα;". Και εγώ απλά πέρασα το απόγευμα πίνοντας καφέ. Όπως ήταν αναμενόμενο, η ζωή εξακολουθεί να εξαρτάται από τις επιλογές.

Το Magic Cube Quant αναφέρεται εδώ είναι ο επενδυτήςή μητρική εταιρεία της DeepSeek.

Το λεγόμενο "quant" είναι ένας επενδυτικός θεσμός που λαμβάνει αποφάσεις όχι με ανθρώπινη δύναμη αλλά με αλγόριθμους. Η ίδρυση του Quant Fantasy δεν είναι μακρά, ξεκινώντας το 2015. Μέχρι το 2021, όταν ήταν έξι ετών, η κλίμακα διαχείρισης περιουσιακών στοιχείων του Quant Fantasy είχε ξεπεράσει τα 100 δισεκατομμύρια και χαιρετίστηκε ως ένας από τους "τέσσερις μεγάλους κβαντικούς βασιλιάδες" της Κίνας.

Ο ιδρυτής της Fantasy Square, Liang Wenfeng, ο οποίος είναι επίσης ο ιδρυτής της DeepSeek, είναι ένας "μη mainstream" οικονομικός ηγέτης που γεννήθηκε τη δεκαετία του 1980: δεν έχει εμπειρία σπουδών στο εξωτερικό, δεν είναι νικητής Ολυμπιακών αγώνων και αποφοίτησε από το Τμήμα Ηλεκτρονικών Μηχανικών του Πανεπιστημίου Zhejiang, με ειδίκευση στην τεχνητή νοημοσύνη. Είναι ένας ντόπιος εμπειρογνώμονας της τεχνολογίας που ενεργεί με χαμηλούς τόνους, "διαβάζοντας έγγραφα, γράφοντας κώδικα και συμμετέχοντας σε ομαδικές συζητήσεις" καθημερινά.

Ο Liang Wenfeng δεν έχει τις συνήθειες ενός παραδοσιακού επιχειρηματία, αλλά μοιάζει περισσότερο με έναν καθαρό "tech geek".. Πολλοί γνώστες της βιομηχανίας και ερευνητές του DeepSeek έχουν δώσει στον Liang Wenfeng εξαιρετικά υψηλούς επαίνους: "Κάποιος που μπορεί να κάνει ακριβείς κρίσεις από ένα υψηλό επίπεδο, αλλά και να υπερέχει στις λεπτομέρειες σε σχέση με τους ερευνητές πρώτης γραμμής", και έχει επίσης "μια τρομακτική ικανότητα μάθησης".

Πολύ πριν από την ίδρυση του DeepSeek, η Huanfang είχε ήδη αρχίσει να καταστρώνει μακροπρόθεσμα σχέδια στον κλάδο της τεχνητής νοημοσύνης.. Τον Μάιο του 2023, ο Liang Wenfeng ανέφερε σε συνέντευξή του στο Darksurge: "Αφού το OpenAI κυκλοφόρησε το GPT3 το 2020, η κατεύθυνση της ανάπτυξης της τεχνητής νοημοσύνης έχει γίνει πολύ σαφής και η υπολογιστική ισχύς θα γίνει βασικό στοιχείο, αλλά ακόμα και το 2021, όταν επενδύσαμε στην κατασκευή του Firefly 2, οι περισσότεροι άνθρωποι δεν μπορούσαν ακόμα να το καταλάβουν".

Με βάση αυτή την κρίση, η Huanfang άρχισε να δημιουργεί τη δική της υπολογιστική υποδομή. "Από την πρώτη 1 κάρτα, στις 100 κάρτες το 2015, στις 1.000 κάρτες το 2019 και στη συνέχεια στις 10.000 κάρτες, αυτή η διαδικασία συνέβη σταδιακά. Πριν από μερικές εκατοντάδες κάρτες, φιλοξενούμασταν σε ένα IDC. Όταν η κλίμακα έγινε μεγαλύτερη, η φιλοξενία δεν μπορούσε πλέον να ανταποκριθεί στις απαιτήσεις, οπότε αρχίσαμε να κατασκευάζουμε τη δική μας αίθουσα υπολογιστών".

Αργότερα, το Finance Eleven ανέφερε: "Δεν υπάρχουν περισσότεροι από πέντε εγχώριες εταιρείες με περισσότερες από 10.000 GPU, και εκτός από μερικούς μεγάλους κατασκευαστές, περιλαμβάνουν επίσης μια εταιρεία ποσοτικών κεφαλαίων με την ονομασία Magic Cube." Πιστεύεται γενικά ότι 10.000 τσιπ Nvidia A100 είναι το όριο υπολογιστικής ισχύος για την εκπαίδευση μεγάλων μοντέλων.

Σε μια προηγούμενη συνέντευξη, ο Liang Wenfeng ανέφερε επίσης ένα ενδιαφέρον σημείο: πολλοί άνθρωποι θα πίστευαν ότι υπάρχει μια άγνωστη επιχειρηματική λογική πίσω από αυτό, αλλά στην πραγματικότητα, οδηγείται κυρίως από περιέργεια.

Πίνακας περιεχομένων

DeepSeek's πρώτη συνάντηση

Σε μια συνέντευξη με τον Darksurge τον Μάιο του 2023, όταν ρωτήθηκε "Πριν από λίγο καιρό, η Huanfang ανακοίνωσε την απόφασή της να κάνει μεγάλα μοντέλα, γιατί ένα ποσοτικό ταμείο να κάνει κάτι τέτοιο;"

Η απάντηση του Liang Wenfeng ήταν ηχηρή: "Η απόφασή μας να κατασκευάσουμε ένα μεγάλο μοντέλο δεν έχει καμία σχέση με την ποσοτικοποίηση ή τη χρηματοδότηση. Έχουμε συστήσει μια νέα εταιρεία με την ονομασία DeepSeek για να το κάνουμε αυτό. Πολλά από τα βασικά μέλη της ομάδας της Mianfang ασχολούνται με την τεχνητή νοημοσύνη. Εκείνη την εποχή, δοκιμάσαμε πολλά σενάρια και τελικά καταλήξαμε στα οικονομικά, τα οποία είναι αρκετά περίπλοκα. Η γενική τεχνητή νοημοσύνη μπορεί να είναι ένα από τα επόμενα πιο δύσκολα πράγματα που μπορούν να επιτευχθούν, οπότε για εμάς, το θέμα είναι πώς να το κάνουμε, όχι γιατί.

Δεν καθοδηγείται από εμπορικά συμφέροντα ή από το κυνήγι των τάσεων της αγοράς, αλλά απλώς από την επιθυμία να εξερευνήσει την ίδια την τεχνολογία AGI και την επίμονη επιδίωξη "του πιο σημαντικού και δύσκολου πράγματος". το όνομα "DeepSeek" επιβεβαιώθηκε επίσημα τον Μάιο του 2023. Στις 17 Ιουλίου 2023 ενσωματώθηκε η εταιρεία "Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.".

Στο Στις 2 Νοεμβρίου 2023, ο DeepSeek παρέδωσε την πρώτη του απάντηση: DeepSeek Coder, ένα μεγάλο μοντέλο κώδικα ανοιχτού κώδικα. Αυτό το μοντέλο περιλαμβάνει πολλαπλά μεγέθη όπως 1B, 7B και 33B. Το περιεχόμενο ανοικτού κώδικα περιλαμβάνει το μοντέλο Base και το μοντέλο συντονισμού εντολών.

Εκείνη την εποχή, μεταξύ των μοντέλων ανοιχτού κώδικα, το CodeLlama της Meta ήταν το σημείο αναφοράς του κλάδου. Ωστόσο, μόλις κυκλοφόρησε το DeepSeek Coder, επέδειξε μια πολύπλευρη ηγετική θέση σε σύγκριση με το CodeLlama: στην παραγωγή κώδικα, το HumanEval προηγούνταν κατά 9,3%, το MBPP κατά 10,8% και το DS-1000 κατά 5,9%.

Λάβετε υπόψη ότι ο DeepSeek Coder είναι μοντέλο 7B, ενώ το CodeLlama είναι μοντέλο 34B. Επιπλέον, το μοντέλο DeepSeek Coder, αφού συντονίστηκε με οδηγίες, έχει ξεπεράσει πλήρως το GPT3.5-Turbo.

Δεν είναι μόνο η παραγωγή κώδικα εντυπωσιακή, αλλά το DeepSeek Coder επιδεικνύει επίσης τους μυς του στα μαθηματικά και τη συλλογιστική.

Τρεις ημέρες αργότερα, στις 5 Νοεμβρίου 2023, το DeepSeek κυκλοφόρησε ένα μεγάλο ποσό περιεχομένου πρόσληψης μέσω του δημόσιου λογαριασμού του WeChat, συμπεριλαμβανομένων θέσεων όπως AGI large model intern, data expert, data architecture talent, senior data collection engineer, deep learning research and development engineer, κλπ., και άρχισε να επεκτείνει ενεργά την ομάδα.

Όπως είπε ο Liang Wenfeng, Οι "απαραίτητες προϋποθέσεις" του DeepSeek για την πρόσληψη ταλέντων είναι "πάθος και σταθερές βασικές δεξιότητες"., και τόνισε ότι "η καινοτομία απαιτεί όσο το δυνατόν λιγότερη παρέμβαση και διαχείριση, ώστε όλοι να έχουν την ελευθερία να κάνουν λάθη και να δοκιμάζουν νέα πράγματα. Η καινοτομία συχνά προέρχεται από μέσα, όχι από σκόπιμες ρυθμίσεις, και σίγουρα δεν προέρχεται από τη διδασκαλία".

Τα μοντέλα κυκλοφορούν συχνά, και ο ανοιχτός κώδικας εφαρμόζεται

Αφού το DeepSeek Coder έκανε θραύση, το DeepSeek έστρεψε την προσοχή του στο κύριο πεδίο μάχης: τα γενικά γλωσσικά μοντέλα.

Στο Στις 29 Νοεμβρίου 2023, η DeepSeek κυκλοφόρησε το πρώτο μεγάλο γλωσσικό μοντέλο γενικής χρήσης, το DeepSeek LLM 67B. Αυτό το μοντέλο συγκρίνεται με το μοντέλο LLaMA2 70B της Meta του ίδιου επιπέδου και έχει καλύτερες επιδόσεις σε σχεδόν 20 δημόσιους καταλόγους αξιολόγησης στην κινεζική και την αγγλική γλώσσα. Ειδικότερα, οι ικανότητές του στη συλλογιστική, τα μαθηματικά και τον προγραμματισμό (π.χ. HumanEval, MATH, CEval και CMMLU) είναι εξαιρετικές.

Το DeepSeek LLM 67B έχει επίσης επιλέξει την οδό του ανοιχτού κώδικα και υποστηρίζει την εμπορική χρήση. Για να καταδείξει περαιτέρω την ειλικρίνεια και την αποφασιστικότητά του για ανοικτό κώδικα, το DeepSeek έχει, χωρίς προηγούμενο, ανοίξει ταυτόχρονα τον κώδικα δύο μοντέλων διαφορετικών κλιμάκων, 7B και 67B, και μάλιστα δημοσιοποίησε τα εννέα σημεία ελέγχου που δημιουργήθηκαν κατά τη διαδικασία εκπαίδευσης του μοντέλου για να τα κατεβάσουν και να τα χρησιμοποιήσουν οι ερευνητές. Αυτού του είδους η λειτουργία, η οποία μοιάζει με το "διδάσκω τα πάντα", είναι εξαιρετικά σπάνια σε ολόκληρη την κοινότητα ανοικτού κώδικα.

Προκειμένου να αξιολογηθούν πιο ολοκληρωμένα και αντικειμενικά οι πραγματικές δυνατότητες του DeepSeek LLM 67B, η ερευνητική ομάδα του DeepSeek σχεδίασε επίσης προσεκτικά μια σειρά από "νέες ερωτήσεις" για "δοκιμές πίεσης". Οι ερωτήσεις αυτές καλύπτουν εξετάσεις υψηλού επιπέδου, με υψηλή διακριτική ικανότητα, όπως οι ερωτήσεις για τις εξετάσεις μαθηματικών του ουγγρικού λυκείου, τα σύνολα αξιολόγησης εντολών της Google που ακολουθούν και οι ερωτήσεις του εβδομαδιαίου διαγωνισμού LeetCode. Τα αποτελέσματα των δοκιμών ήταν ενθαρρυντικά. Το DeepSeek LLM 67B έδειξε εκπληκτικές δυνατότητες όσον αφορά την ικανότητά του να γενικεύει πέρα από το δείγμα, και η συνολική του απόδοση ήταν ακόμη και κοντά σε εκείνη του πιο προηγμένου τότε μοντέλου GPT-4.

Στο 18 Δεκεμβρίου 2023, το DeepSeek άνοιξε την πηγή του μοντέλου Vincent 3D DreamCraft3D: μπορεί να παράγει υψηλής ποιότητας τρισδιάστατα μοντέλα από μια πρόταση, επιτυγχάνοντας το άλμα από τα δισδιάστατα επίπεδα στον τρισδιάστατο χώρο στο AIGC. Για παράδειγμα, εάν ο χρήστης εισάγει: "Ο χρήστης εισάγει:": "Τρέχοντας μέσα στο δάσος, μια αστεία υβριδική εικόνα από το κεφάλι ενός γουρουνιού και το σώμα του βασιλιά των πιθήκων", το DreamCraft3D μπορεί να παράγει περιεχόμενο υψηλής ποιότητας:

Κατ' αρχήν, το μοντέλο συμπληρώνει πρώτα το διάγραμμα Venn και στη συνέχεια συμπληρώνει τη συνολική γεωμετρική δομή με βάση τον δισδιάστατο εννοιολογικό χάρτη:

Στην υποκειμενική αξιολόγηση που ακολούθησε, περισσότεροι από 90% των χρηστών δήλωσαν ότι το DreamCraft3D είχε πλεονέκτημα στην ποιότητα παραγωγής σε σύγκριση με τις προηγούμενες μεθόδους παραγωγής.

Στις 7 Ιανουαρίου 2024, το DeepSeek δημοσίευσε την τεχνική έκθεση DeepSeek LLM 67B. Αυτή η έκθεση 40+ σελίδων περιέχει πολλές λεπτομέρειες για το DeepSeek LLM 67B, συμπεριλαμβανομένων των αυτοδημιούργητων νόμων κλιμάκωσης, πλήρεις πρακτικές λεπτομέρειες για την ευθυγράμμιση του μοντέλου και ένα ολοκληρωμένο σύστημα αξιολόγησης της ικανότητας AGI.

Διεύθυνση χαρτιού

Στο Στις 11 Ιανουαρίου 2024, το DeepSeek έδωσε στην ανοικτή διάθεση το πρώτο μεγάλο μοντέλο MoE (μικτή αρχιτεκτονική εμπειρογνωμόνων) στην Κίνα, το DeepSeekMoE: μια ολοκαίνουργια αρχιτεκτονική που υποστηρίζει κινέζικα και αγγλικά και είναι ελεύθερη για εμπορική χρήση. Η αρχιτεκτονική MoE θεωρήθηκε γενικά εκείνη την εποχή ότι ήταν το κλειδί για την επανάσταση στις επιδόσεις του OpenAI GPT-4. Η αυτο-αναπτυγμένη αρχιτεκτονική MoE του DeepSeek είναι κορυφαία σε πολλαπλές κλίμακες, όπως 2B, 16B και 145B, και η υπολογιστική της είναι επίσης πολύ αξιέπαινη.

Στις 25 Ιανουαρίου 2024, το DeepSeek κυκλοφόρησε την τεχνική έκθεση DeepSeek Coder. Η παρούσα έκθεση παρέχει μια ολοκληρωμένη τεχνική ανάλυση των δεδομένων εκπαίδευσης, των μεθόδων εκπαίδευσης και των επιδόσεων του μοντέλου. Στην έκθεση αυτή, μπορούμε να δούμε ότι για πρώτη φορά έχει κατασκευάσει δεδομένα κώδικα σε επίπεδο αποθήκης και έχει χρησιμοποιήσει τοπολογική ταξινόμηση για την ανάλυση των εξαρτήσεων μεταξύ αρχείων, βελτιώνοντας σημαντικά την ικανότητα κατανόησης των διασταυρούμενων αρχείων μεγάλων αποστάσεων. Όσον αφορά τις μεθόδους εκπαίδευσης, προστέθηκε η μέθοδος Fill-In-Middle, η οποία βελτίωσε σημαντικά την ικανότητα συμπλήρωσης κώδικα.

Διεύθυνση χαρτιού

Στις 30 Ιανουαρίου 2024, η ανοικτή πλατφόρμα DeepSeek ξεκίνησε επίσημα και η υπηρεσία API μεγάλου μοντέλου DeepSeek ξεκίνησε τις δοκιμές. Εγγραφείτε για να λάβετε 10 εκατομμύρια μάρκες δωρεάν. Η διεπαφή είναι συμβατή με τη διεπαφή API του OpenAI και είναι διαθέσιμα και τα δύο διπλά μοντέλα Chat/Coder. Αυτή τη στιγμή, η DeepSeek άρχισε να εξερευνά την πορεία ενός παρόχου τεχνολογικών υπηρεσιών εκτός από την έρευνα και ανάπτυξη τεχνολογίας.

Στο 5 Φεβρουαρίου 2024, το DeepSeek κυκλοφόρησε ένα άλλο κάθετο μοντέλο τομέα, το DeepSeekMath, ένα μαθηματικό μοντέλο συλλογισμού. Αυτό το μοντέλο έχει μόνο 7B παραμέτρους, αλλά η ικανότητα μαθηματικής συλλογιστικής του είναι κοντά σε εκείνη του GPT-4. Στην έγκυρη λίστα αναφοράς MATH, ξεπερνά το πλήθος και ξεπερνά έναν αριθμό μοντέλων ανοικτού κώδικα με μεγέθη παραμέτρων μεταξύ 30B και 70B. Η απελευθέρωση του DeepSeekMath αποδεικνύει πλήρως την τεχνική ισχύ και την εμπροσθοβαρή διάταξη του DeepSeek στην έρευνα και την ανάπτυξη της κάθετης και την εμπροσθοβαρή διάταξή του στην έρευνα και την ανάπτυξη μοντέλων.

Στο Στις 28 Φεβρουαρίου 2024, προκειμένου να αμβλυνθούν περαιτέρω οι ανησυχίες των προγραμματιστών σχετικά με τη χρήση των μοντέλων ανοιχτού κώδικα του DeepSeek, το DeepSeek κυκλοφόρησε μια πολιτική ανοιχτού κώδικα FAQ, το οποίο παρέχει λεπτομερείς απαντήσεις σε συχνές ερωτήσεις, όπως η πρότυπη αδειοδότηση ανοικτού κώδικα και οι περιορισμοί εμπορικής χρήσης. Το DeepSeek αγκαλιάζει τον ανοιχτό κώδικα με μια πιο διαφανή και ανοιχτή στάση:

Στο 11 Μαρτίου 2024, η DeepSeek κυκλοφόρησε το πολυτροπικό μεγάλο μοντέλο DeepSeek-VL. Αυτή είναι η αρχική προσπάθεια της DeepSeek για πολυτροπική τεχνολογία AI. Το μοντέλο έχει μέγεθος 7B και 1,3B, και το μοντέλο και τα τεχνικά έγγραφα είναι ταυτόχρονα ανοιχτά.

Στο 20 Μαρτίου 2024, η Huanfang AI & DeepSeek κλήθηκε για άλλη μια φορά να συμμετάσχει στο συνέδριο NVIDIA GTC 2024 και ο ιδρυτής Liang Wenfeng παρέδωσε μια τεχνική ομιλία. με τίτλο "Αρμονία στη διαφορετικότητα: Γλωσσικά Μοντέλα: Ευθυγράμμιση και αποσύνδεση των αξιών των μεγάλων γλωσσικών μοντέλων". Συζητήθηκαν θέματα όπως "η σύγκρουση μεταξύ ενός μεγάλου μοντέλου με μία αξία και μιας πλουραλιστικής κοινωνίας και κουλτούρας", "η αποσύνδεση της ευθυγράμμισης αξιών μεγάλων μοντέλων" και "οι πολυδιάστατες προκλήσεις της αποσυνδεδεμένης ευθυγράμμισης αξιών". Αυτό κατέδειξε την ανθρωπιστική φροντίδα και την κοινωνική ευθύνη του DeepSeek για την ανάπτυξη της ΤΝ, εκτός από την τεχνολογική έρευνα και ανάπτυξη.

Τον Μάρτιο του 2024, DeepSeek API ξεκίνησε επίσημα τις υπηρεσίες επί πληρωμή, γεγονός που πυροδότησε πλήρως το προοίμιο του πολέμου τιμών στην κινεζική αγορά μεγάλων μοντέλων: 1 γιουάν ανά εκατομμύριο μάρκες εισόδου και 2 γιουάν ανά εκατομμύριο μάρκες εξόδου.

Το 2024, το DeepSeek πέρασε με επιτυχία το ρεκόρ των μεγάλων μοντέλων στην Κίνα, απομακρύνοντας τα εμπόδια πολιτικής για το πλήρες άνοιγμα των υπηρεσιών API.

Τον Μάιο του 2024, κυκλοφόρησε το DeepSeek-V2, ένα μεγάλο μοντέλο γενικής MoE ανοιχτού κώδικα, και ο πόλεμος τιμών ξεκίνησε επίσημα. Το DeepSeek-V2 χρησιμοποιεί MLA (μηχανισμός λανθάνουσας προσοχής πολλαπλών κεφαλών), ο οποίος μειώνει το αποτύπωμα μνήμης του μοντέλου σε 5%-13% αυτού του παραδοσιακού MHA. Ταυτόχρονα, έχει επίσης αναπτύξει ανεξάρτητα την αραιή δομή DeepSeek MoE Sparse, η οποία μειώνει σημαντικά την υπολογιστική πολυπλοκότητα του μοντέλου. Χάρη σε αυτό, το μοντέλο διατηρεί τιμή API "1 γιουάν/εκατομμύριο εισροές και 2 γιουάν/εκατομμύριο εκροές".

Το DeepSeek είχε τεράστιο αντίκτυπο. Από αυτή την άποψη, ο επικεφαλής αναλυτής της SemiAnalysis πιστεύει ότι το έγγραφο DeepSeek V2 "μπορεί να είναι ένα από τα καλύτερα φέτος". Παρομοίως, ο Andrew Carr, πρώην υπάλληλος της OpenAI, πιστεύει ότι το έγγραφο είναι "γεμάτο εκπληκτική σοφία" και έχει εφαρμόσει τις ρυθμίσεις εκπαίδευσης του στο δικό του μοντέλο.

Θα πρέπει να σημειωθεί ότι πρόκειται για ένα μοντέλο που συγκρίνει το GPT-4-Turbo και η τιμή του API είναι μόλις το 1/70 του τελευταίου.

Τον Ιούνιο 17, 2024, η DeepSeek έκανε και πάλι μια μεγάλη ώθηση, κυκλοφορώντας το μοντέλο κώδικα DeepSeek Coder V2. ανοιχτού κώδικα και ισχυριζόμενος ότι οι δυνατότητες του κώδικά του ξεπερνούσαν τις δυνατότητες του GPT-4-Turbo, του πιο προηγμένου μοντέλου κλειστού κώδικα εκείνη την εποχή. Το DeepSeek Coder V2 συνεχίζει τη συνεπή στρατηγική ανοικτού κώδικα του DeepSeek, με όλα τα μοντέλα, τον κώδικα και τα έγγραφα να είναι ανοικτού κώδικα, και παρέχονται δύο εκδόσεις, 236B και 16B. Οι υπηρεσίες API του DeepSeek Coder V2 είναι επίσης διαθέσιμες στο διαδίκτυο και η τιμή παραμένει στο "1 γιουάν/εκατομμύριο εισροές και 2 γιουάν/εκατομμύριο εκροές".

Στο 21 Ιουνίου 2024, DeepSeek Ο κωδικοποιητής υποστήριζε την online εκτέλεση κώδικα. Την ίδια ημέρα κυκλοφόρησε η έκδοση Claude3.5 Sonnet, με τη νέα λειτουργία Artifacts, η οποία παράγει αυτόματα κώδικα και τον εκτελεί απευθείας στο πρόγραμμα περιήγησης. Την ίδια ημέρα, ο βοηθός κώδικα στον ιστότοπο του DeepSeek εγκαινίασε επίσης την ίδια λειτουργία: παράγει κώδικα και τον εκτελεί με ένα κλικ.

Ας δούμε τα σημαντικότερα γεγονότα αυτής της περιόδου:

Συνεχείς ανακαλύψεις, που προσελκύουν την παγκόσμια προσοχή

Τον Μάιο του 2024, το DeepSeek έγινε διάσημο εν μία νυκτί με την κυκλοφορία του DeepSeek V2, ενός μοντέλου ανοιχτού κώδικα βασισμένου στο MoE. Ήταν εφάμιλλο των επιδόσεων του GPT-4-Turbo, αλλά σε τιμή μόνο 1 γιουάν/εκατομμύριο εισροών, που ήταν το 1/70 του GPT-4-Turbo. Εκείνη την εποχή, το DeepSeek έγινε ένας γνωστός "χασάπης τιμών" στον κλάδο, και στη συνέχεια οι mainstream παίκτες όπως η Zhicheng, η ByteDance και η Alibaba... και άλλοι μεγάλοι παίκτες ακολούθησαν γρήγορα το παράδειγμά τους και μείωσαν τις τιμές τους. Ήταν επίσης περίπου εκείνη την εποχή που υπήρξε άλλος ένας γύρος απαγόρευσης της GPT και ένας μεγάλος αριθμός εφαρμογών AI άρχισε να δοκιμάζει για πρώτη φορά εγχώρια μοντέλα.

Τον Ιούλιο του 2024, ο ιδρυτής της DeepSeek, Liang Wenfeng, δέχτηκε και πάλι μια συνέντευξη στο Dark Surge και απάντησε άμεσα στον πόλεμο τιμών: "Πολύ απροσδόκητο. Δεν περίμενα ότι η τιμή θα έκανε τους πάντες τόσο ευαίσθητους. Απλώς κάνουμε τα πράγματα με τον δικό μας ρυθμό και στη συνέχεια τιμολογούμε με βάση το κόστος. Η αρχή μας είναι να μην χάνουμε χρήματα ούτε να βγάζουμε υπέρογκα κέρδη. Αυτή η τιμή είναι επίσης ελαφρώς πάνω από το κόστος με ένα μικρό κέρδος".

Μπορεί να φανεί ότι, σε αντίθεση με πολλούς ανταγωνιστές που πληρώνουν από την τσέπη τους για να επιδοτήσουν, το DeepSeek είναι κερδοφόρο σε αυτή την τιμή.

Κάποιοι μπορεί να πουν: οι μειώσεις τιμών είναι σαν να ληστεύεις τους χρήστες, και αυτό συμβαίνει συνήθως στους πολέμους τιμών στην εποχή του Διαδικτύου.

Σε απάντηση, ο Liang Wenfeng απάντησε επίσης: "Η ληστεία των χρηστών δεν είναι ο κύριος στόχος μας. Μειώσαμε την τιμή επειδή, αφενός, το κόστος έχει μειωθεί καθώς διερευνούμε τη δομή του μοντέλου επόμενης γενιάς και, αφετέρου, θεωρούμε ότι τόσο το API όσο και η τεχνητή νοημοσύνη πρέπει να είναι προσιτά και προσβάσιμα σε όλους".

Έτσι η ιστορία συνεχίζεται με τον ιδεαλισμό του Liang Wenfeng.

Στις 4 Ιουλίου 2024, το API DeepSeek τέθηκε σε λειτουργία. Η τιμή για το πλαίσιο 128K παρέμεινε αμετάβλητη. Το κόστος εξαγωγής συμπερασμάτων ενός μοντέλου συνδέεται στενά με το μήκος του πλαισίου. Ως εκ τούτου, πολλά μοντέλα έχουν αυστηρούς περιορισμούς στο μήκος αυτό: η αρχική έκδοση του GPT-3.5 έχει μόνο 4k context.

Αυτή τη στιγμή, το DeepSeek αύξησε το μήκος του πλαισίου από τα προηγούμενα 32k σε 128k, διατηρώντας την τιμή αμετάβλητη (1 γιουάν ανά εκατομμύριο μάρκες εισόδου και 2 γιουάν ανά εκατομμύριο μάρκες εξόδου).

Στο 10 Ιουλίου 2024, ανακοινώθηκαν τα αποτελέσματα της πρώτης Ολυμπιάδας Τεχνητής Νοημοσύνης (AIMO) στον κόσμο και το μοντέλο DeepSeekMath έγινε η κοινή επιλογή των κορυφαίων ομάδων.. Οι νικήτριες ομάδες του Top 4 επέλεξαν όλες το DeepSeekMath-7B ως βάση για τα μοντέλα συμμετοχής τους και πέτυχαν εντυπωσιακά αποτελέσματα στο διαγωνισμό.

Στο Στις 18 Ιουλίου 2024, το DeepSeek-V2 βρέθηκε στην κορυφή της λίστας των μοντέλων ανοιχτού κώδικα στην Chatbot Arena, ξεπερνώντας μοντέλα αστέρων όπως τα Llama3-70B, Qwen2-72B, Nemotron-4-340B και Gemma2-27B, και αποτελώντας ένα νέο σημείο αναφοράς για τα μεγάλα μοντέλα ανοιχτού κώδικα.

Στο Ιούλιος 2024, το DeepSeek συνέχισε να προσλαμβάνει ταλέντα και προσέλαβε κορυφαία ταλέντα από όλο τον κόσμο σε πολλούς τομείς, συμπεριλαμβανομένων των αλγορίθμων τεχνητής νοημοσύνης, της AI Infra, του AI Tutor και των προϊόντων τεχνητής νοημοσύνης, για να προετοιμαστεί για τη μελλοντική τεχνολογική καινοτομία και την ανάπτυξη προϊόντων.

Στο Στις 26 Ιουλίου 2024, το DeepSeek API εγκαινίασε μια σημαντική αναβάθμιση, υποστηρίζοντας πλήρως μια σειρά από προηγμένα χαρακτηριστικά, όπως η αντικατάσταση, η συμπλήρωση FIM (Fill-in-the-Middle), η κλήση συναρτήσεων και η έξοδος JSON. Η λειτουργία FIM είναι πολύ ενδιαφέρουσα: ο χρήστης δίνει την αρχή και το τέλος, και το μεγάλο μοντέλο συμπληρώνει τη μέση, κάτι που είναι πολύ κατάλληλο για τη διαδικασία προγραμματισμού ώστε να συμπληρωθεί ο ακριβής κώδικας λειτουργίας. Πάρτε ως παράδειγμα τη συγγραφή της ακολουθίας Fibonacci:

Στο Στις 2 Αυγούστου 2024, η DeepSeek εισήγαγε καινοτόμα την τεχνολογία προσωρινής αποθήκευσης σκληρών δίσκων, μειώνοντας τις τιμές API μέχρι τον αστράγαλο. Προηγουμένως, οι τιμές API ήταν μόνο ￥1 ανά εκατομμύριο μάρκες. Τώρα, ωστόσο, μόλις γίνει ένα χτύπημα στην κρυφή μνήμη, η χρέωση API πέφτει απευθείας σε ￥0,1.

Αυτή η λειτουργία είναι πολύ πρακτική όταν πρόκειται για συνεχείς συνομιλίες και εργασίες επεξεργασίας παρτίδας.

Στο 16 Αυγούστου 2024, το DeepSeek κυκλοφόρησε το μαθηματικό μοντέλο απόδειξης θεωρημάτων DeepSeek-Prover-V1.5 ως ανοικτού κώδικα, το οποίο ξεπέρασε πολλά γνωστά μοντέλα ανοικτού κώδικα σε μαθηματικές δοκιμασίες απόδειξης θεωρημάτων σε γυμνάσια και κολέγια.

Στο Στις 6 Σεπτεμβρίου 2024, το DeepSeek κυκλοφόρησε το μοντέλο σύντηξης DeepSeek-V2.5. Προηγουμένως, το DeepSeek παρείχε κυρίως δύο μοντέλα: το μοντέλο Συνομιλίας επικεντρώθηκε στις γενικές δεξιότητες συνομιλίας και το μοντέλο Κώδικα επικεντρώθηκε στις δεξιότητες επεξεργασίας κώδικα. Αυτή τη φορά, τα δύο μοντέλα έχουν συνδυαστεί σε ένα, αναβαθμισμένο σε DeepSeek-V2.5, το οποίο ευθυγραμμίζεται καλύτερα με τις ανθρώπινες προτιμήσεις και έχει επίσης επιτύχει σημαντικές βελτιώσεις στις εργασίες γραφής, στην ακολουθία εντολών και σε άλλες πτυχές.

Στο 18 Σεπτεμβρίου 2024, DeepSeek-V2.5 ήταν και πάλι στην τελευταία λίστα LMSYS, οδηγώντας τα εγχώρια μοντέλα και θέτοντας νέες καλύτερες βαθμολογίες για τα εγχώρια μοντέλα σε πολλές επιμέρους ικανότητες.

Στο 20 Νοεμβρίου 2024, η DeepSeek κυκλοφόρησε το DeepSeek-R1-Lite στην επίσημη ιστοσελίδα. Πρόκειται για ένα μοντέλο εξαγωγής συμπερασμάτων συγκρίσιμο με το o1-preview και παρέχει επίσης επαρκή ποσότητα συνθετικών δεδομένων για τη μετεκπαίδευση του V3.

Στο Στις 10 Δεκεμβρίου 2024, η σειρά DeepSeek V2 εγκαινίασε το φινάλε της με την κυκλοφορία της τελικής βελτιωμένης έκδοσης DeepSeek-V2.5-1210. Αυτή η έκδοση βελτιώνει ολοκληρωμένα πολλαπλές ικανότητες, συμπεριλαμβανομένων των μαθηματικών, της κωδικοποίησης, της γραφής και του παιχνιδιού ρόλων μέσω της μετεκπαίδευσης.

Με την άφιξη αυτής της έκδοσης, η διαδικτυακή εφαρμογή DeepSeek άνοιξε επίσης τη λειτουργία αναζήτησης δικτύου.

Στο Στις 13 Δεκεμβρίου 2024, το DeepSeek έκανε άλλη μια σημαντική ανακάλυψη στον τομέα της πολυτροπικότητας και κυκλοφόρησε το πολυτροπικό μεγάλο μοντέλο DeepSeek-VL2 ανοιχτού κώδικα. Το DeepSeek-VL2 υιοθετεί την αρχιτεκτονική MoE, η οποία βελτιώνει σημαντικά τις οπτικές του δυνατότητες. Διατίθεται σε τρία μεγέθη: 3B, 16B και 27B, και πλεονεκτεί σε όλες τις μετρήσεις.

Στο Στις 26 Δεκεμβρίου 2024, το DeepSeek-V3 κυκλοφόρησε με ανοιχτό κώδικα: το εκτιμώμενο κόστος εκπαίδευσης ήταν μόνο 5,5 εκατομμύρια δολάρια ΗΠΑ. Το DeepSeek-V3 αξιολόγησε πλήρως την απόδοση των κορυφαίων μοντέλων κλειστού κώδικα στο εξωτερικό και βελτίωσε σημαντικά την ταχύτητα παραγωγής.

Η τιμολόγηση των υπηρεσιών API αναπροσαρμόστηκε, αλλά ταυτόχρονα ορίστηκε προνομιακή δοκιμαστική περίοδος 45 ημερών για το νέο μοντέλο.

Στις 15 Ιανουαρίου 2025, η επίσημη εφαρμογή DeepSeek κυκλοφόρησε επίσημα και κυκλοφόρησε πλήρως στις μεγαλύτερες αγορές εφαρμογών iOS/Android.

Στις 20 Ιανουαρίου 2025, κοντά στην κινεζική Πρωτοχρονιά, το μοντέλο εξαγωγής συμπερασμάτων DeepSeek-R1 κυκλοφόρησε επίσημα και δόθηκε σε ανοιχτή πηγή. Το DeepSeek-R1 ευθυγράμμισε πλήρως την απόδοσή του με την επίσημη έκδοση OpenAI o1 και άνοιξε τη λειτουργία εξόδου της αλυσίδας σκέψης. Ταυτόχρονα, το DeepSeek ανακοίνωσε επίσης ότι η άδεια ανοιχτού κώδικα του μοντέλου θα αλλάξει σε άδεια MIT και η συμφωνία χρήστη θα επιτρέπει ρητά την "απόσταξη μοντέλου", αγκαλιάζοντας περαιτέρω τον ανοιχτό κώδικα και προωθώντας την κοινή χρήση της τεχνολογίας.

Αργότερα, αυτό το μοντέλο έγινε πολύ δημοφιλές και εγκαινίασε μια νέα εποχή

Ως αποτέλεσμα, από τις 27 Ιανουαρίου 2025, η εφαρμογή DeepSeek ξεπέρασε με επιτυχία το ChatGPT και βρέθηκε στην κορυφή της λίστας δωρεάν λήψεων εφαρμογών στο App Store του iOS των ΗΠΑ, αποτελώντας μια εκπληκτική εφαρμογή AI.

Στις 27 Ιανουαρίου 2025, στις 1:00 π.μ. την παραμονή της Πρωτοχρονιάς, το DeepSeek Janus-Pro κυκλοφόρησε ως ανοιχτός κώδικας. Πρόκειται για ένα πολυτροπικό μοντέλο, το οποίο πήρε το όνομά του από το όνομα του δίμετρου θεού Ιανού της αρχαίας ρωμαϊκής μυθολογίας: αντιμετωπίζει τόσο το παρελθόν όσο και το μέλλον. Αυτό αντιπροσωπεύει επίσης τις δύο ικανότητες του μοντέλου -την οπτική κατανόηση και την παραγωγή εικόνων- και την κυριαρχία του σε πολλαπλές κατατάξεις.

Η εκρηκτική δημοτικότητα του DeepSeek προκάλεσε αμέσως ένα παγκόσμιο τεχνολογικό κύμα, προκαλώντας μάλιστα άμεσα την πτώση της τιμής της μετοχής της NVIDIA κατά 18% και την εξάτμιση της αγοραίας αξίας του παγκόσμιου τεχνολογικού χρηματιστηρίου κατά περίπου 1 τρισεκατομμύριο δολάρια ΗΠΑ. Η Wall Street και τα τεχνολογικά μέσα ενημέρωσης αναφώνησαν ότι η άνοδος της DeepSeek ανατρέπει το παγκόσμιο τοπίο της βιομηχανίας τεχνητής νοημοσύνης και θέτει μια άνευ προηγουμένου πρόκληση στους αμερικανικούς τεχνολογικούς γίγαντες.

Η επιτυχία του DeepSeek προκάλεσε επίσης μεγάλη διεθνή προσοχή και έντονες συζητήσεις σχετικά με τις δυνατότητες τεχνολογικής καινοτομίας της Κίνας στον τομέα της τεχνητής νοημοσύνης. Ο πρόεδρος των ΗΠΑ Ντόναλντ Τραμπ, σε ένα σπάνιο δημόσιο σχόλιο, επαίνεσε την άνοδο του DeepSeek ως "θετική" και δήλωσε ότι ήταν ένα "κάλεσμα αφύπνισης" για τις Ηνωμένες Πολιτείες. Ο διευθύνων σύμβουλος της Microsoft Satya Nadella και ο διευθύνων σύμβουλος της OpenAI Sam Altman επαίνεσαν επίσης το DeepSeek, χαρακτηρίζοντας την τεχνολογία του "πολύ εντυπωσιακή".

Φυσικά, πρέπει επίσης να κατανοήσουμε ότι ο έπαινος τους είναι εν μέρει αναγνώριση της δύναμης του DeepSeek και εν μέρει αντανάκλαση των δικών τους κινήτρων. Για παράδειγμα, ενώ η Anthropic αναγνωρίζει τα επιτεύγματα του DeepSeek, καλεί επίσης την κυβέρνηση των ΗΠΑ να ενισχύσει τους ελέγχους των τσιπ στην Κίνα.

Ο Anthropic CEO δημοσιεύει ένα άρθρο 10.000 λέξεων: Η άνοδος του DeepSeek σημαίνει ότι ο Λευκός Οίκος πρέπει να εντείνει τους ελέγχους

Σύνοψη και προοπτικές

Κοιτάζοντας πίσω στα τελευταία δύο χρόνια της DeepSeek, ήταν πραγματικά ένα "κινεζικό θαύμα": από μια άγνωστη νεοσύστατη επιχείρηση στη "μυστηριώδη ανατολική δύναμη" που τώρα λάμπει στην παγκόσμια σκηνή της τεχνητής νοημοσύνης, η DeepSeek έχει γράψει το ένα "αδύνατο" μετά το άλλο με τη δύναμη και την καινοτομία της.

Το βαθύτερο νόημα αυτής της τεχνολογικής αποστολής έχει προ πολλού ξεπεράσει το πεδίο του εμπορικού ανταγωνισμού. Το DeepSeek ανακοίνωσε με στοιχεία ότι στον στρατηγικό τομέα της τεχνητής νοημοσύνης που αφορά το μέλλον, οι κινεζικές εταιρείες είναι απολύτως ικανές να αναρριχηθούν στα ύψη της βασικής τεχνολογίας.

Το "καμπανάκι κινδύνου" που σαλπίζει ο Τραμπ και ο κρυφός φόβος του Ανθρωπισμού επιβεβαιώνουν ακριβώς τη σημασία των δυνατοτήτων Τεχνητής Νοημοσύνης της Κίνας: όχι μόνο μπορεί να καβαλήσει τα κύματα, αλλά και να αναδιαμορφώσει την κατεύθυνση της παλίρροιας.

Deepseek προϊόν απελευθέρωση ορόσημα

2 Νοεμβρίου 2023: Κωδικοποιητής DeepSeek Μεγάλο μοντέλο
29 Νοεμβρίου 2023: Μοντέλο γενικής χρήσης DeepSeek LLM 67B
18 Δεκεμβρίου 2023: DreamCraft3D 3D μοντέλο
11 Ιανουαρίου 2024: DeepSeekMoE Μεγάλο μοντέλο MoE
5 Φεβρουαρίου 2024: DeepSeekMath Μαθηματικό μοντέλο συλλογισμού
11 Μαρτίου 2024: DeepSeek-VL Πολυτροπικό μεγάλο μοντέλο
Μάιος 2024: DeepSeek-V2 Γενικό μοντέλο MoE
17 Ιουνίου 2024: DeepSeek Κωδικοποιητής V2 μοντέλο κώδικα
6 Σεπτεμβρίου 2024: DeepSeek-V2.5 Συγχώνευση των γενικών μοντέλων ικανοτήτων και των μοντέλων κωδικών ικανοτήτων
13 Δεκεμβρίου 2024: DeepSeek-VL2 πολυτροπικό μοντέλο MoE
26 Δεκεμβρίου 2024: DeepSeek-V3 νέα σειρά μεγάλων μοντέλων γενικής χρήσης
20 Ιανουαρίου 2025: Μοντέλο συμπερασμού DeepSeek-R1
20 Ιανουαρίου 2025: Επίσημη εφαρμογή DeepSeek (iOS & Android)
27 Ιανουαρίου 2025: Πολυτροπικό μοντέλο DeepSeek Janus-Pro

Πώς δημιουργήθηκε το DeepSeek; Ανάλυση του ιστορικού ανάπτυξης του DeepSeek

DeepSeek's πρώτη συνάντηση

Τα μοντέλα κυκλοφορούν συχνά, και ο ανοιχτός κώδικας εφαρμόζεται

Συνεχείς ανακαλύψεις, που προσελκύουν την παγκόσμια προσοχή

Σύνοψη και προοπτικές

Deepseek προϊόν απελευθέρωση ορόσημα

Qwen2.5-max vs DeepSeek R1: Μια βαθιά σύγκριση μοντέλων: πλήρης ανάλυση σεναρίων εφαρμογών

Η αναμέτρηση των τεσσάρων κορυφαίων μοντέλων! Μια κριτική που δείχνει πόσο ισχυρό είναι το Deepseek R1

OpenAI o3-mini vs. DeepSeek-R1: Ποιος είναι ο βασιλιάς της νέας γενιάς μοντέλων τεχνητής νοημοσύνης;

Ο Ali Qwen2.5-Max προσπερνά το DeepSeek-V3! Netizen: Η τεχνητή νοημοσύνη της Κίνας κλείνει γρήγορα το χάσμα

Αποκαλύφθηκε η τεχνολογία DeepSeek-R1: οι βασικές αρχές του χαρτιού αναλύονται και το κλειδί για την πρωτοποριακή απόδοση του μοντέλου αποκαλύπτεται

Αφήστε μια απάντηση Ακύρωση απάντησης

DeepSeek's πρώτη συνάντηση

Τα μοντέλα κυκλοφορούν συχνά, και ο ανοιχτός κώδικας εφαρμόζεται

Συνεχείς ανακαλύψεις, που προσελκύουν την παγκόσμια προσοχή

Σύνοψη και προοπτικές

Deepseek προϊόν απελευθέρωση ορόσημα

Παρόμοιες θέσεις

Αφήστε μια απάντηση Ακύρωση απάντησης