zddeepseeker - Deepseek R1

Το DeepSeek κυκλοφόρησε τον πηγαίο κώδικα του, λεπτομερή εξήγηση του FlashMLA

Μεzddeepseeker Φεβρουάριος 24, 2025Φεβρουάριος 24, 2025

Την περασμένη εβδομάδα, το DeepSeek ανακοίνωσε ότι θα επρόκειτο για πέντε έργα ανοιχτού κώδικα την επόμενη εβδομάδα: Οι χρήστες του Διαδικτύου είπαν, «Αυτή τη φορά, το OpenAI είναι πραγματικά εδώ». Μόλις τώρα, ήρθε το πρώτο έργο ανοιχτού κώδικα, που σχετίζεται με την επιτάχυνση συμπερασμάτων, FlashMLA: Διεύθυνση έργου ανοιχτού κώδικα: DeepSeek FlashMLA Είναι ανοιχτού κώδικα για δύο ώρες και το Github έχει ήδη 2,7k+ αστέρια: Το…

Uncategorized

Qwen2.5-max vs DeepSeek R1: Μια βαθιά σύγκριση μοντέλων: πλήρης ανάλυση σεναρίων εφαρμογών

Μεzddeepseeker Φεβρουάριος 14, 2025Φεβρουάριος 14, 2025

Εισαγωγή Σήμερα, τα μεγάλα γλωσσικά μοντέλα (LLM) διαδραματίζουν κρίσιμο ρόλο. Στις αρχές του 2025, καθώς ο ανταγωνισμός για την τεχνητή νοημοσύνη εντάθηκε, η Alibaba παρουσίασε το νέο μοντέλο AI Qwen2.5-max και η DeepSeek, μια εταιρεία από το Hangzhou της Κίνας, κυκλοφόρησε το μοντέλο R1, το οποίο αντιπροσωπεύει την κορυφή της τεχνολογίας LLM. Το Deepseek R1 είναι ένα μοντέλο ανοιχτού κώδικα AI που έχει προσελκύσει…

Uncategorized

Είναι κοντά στο DeepSeek-R1-32B και συνθλίβει το s1 του Fei-Fei Li! UC Berkeley και άλλα ανοιχτού κώδικα νέα μοντέλα συμπερασμάτων SOTA

Μεzddeepseeker Φεβρουάριος 14, 2025Φεβρουάριος 14, 2025

Το μοντέλο συμπερασμάτων 32B χρησιμοποιεί μόνο το 1/8 των δεδομένων και συνδέεται με DeepSeek-R1 ίδιου μεγέθους! Μόλις τώρα, ιδρύματα όπως το Stanford, το UC Berkeley και το Πανεπιστήμιο της Ουάσιγκτον κυκλοφόρησαν από κοινού ένα μοντέλο συμπερασμάτων σε επίπεδο SOTA, το OpenThinker-32B, και έχουν επίσης δεδομένα εκπαίδευσης ανοιχτού κώδικα έως και 114k. Αρχική σελίδα OpenThinker Project: OpenThinker Hugging Face:…

Uncategorized

Αντικείμενα διαχείρισης μοντέλων μεγάλων γλωσσών όπως DeepSeek: Cherry Studio, Chatbox, AnythingLLM, ποιος είναι ο επιταχυντής απόδοσης;

Μεzddeepseeker Φεβρουάριος 11, 2025Φεβρουάριος 11, 2025

Πολλοί άνθρωποι έχουν ήδη αρχίσει να αναπτύσσουν και να χρησιμοποιούν τοπικά μοντέλα Deepseek Large Language, χρησιμοποιώντας το Chatbox ως εργαλείο οπτικοποίησης Αυτό το άρθρο θα συνεχίσει να παρουσιάζει δύο άλλα τεχνουργήματα διαχείρισης και οπτικοποίησης μοντέλων τεχνητής νοημοσύνης Large Language και θα συγκρίνει τα τρία λεπτομερώς για να σας βοηθήσει να χρησιμοποιήσετε πιο αποτελεσματικά τα μοντέλα AI Large Language. Το 2025,…

Uncategorized

Το Le Chat βρίσκεται στην κορυφή των charts, με επένδυση εκατό δισεκατομμυρίων δολαρίων. Μετά τις ΗΠΑ και την Κίνα, είναι η τρίτη δύναμη AI;

Μεzddeepseeker Φεβρουάριος 11, 2025Φεβρουάριος 11, 2025

Στις 9 Φεβρουαρίου, ο Γάλλος πρόεδρος Εμανουέλ Μακρόν ανακοίνωσε ότι η Γαλλία θα επενδύσει 109 δισεκατομμύρια ευρώ (113 δισεκατομμύρια δολάρια ΗΠΑ) στον τομέα της τεχνητής νοημοσύνης τα επόμενα χρόνια. Αυτή η επένδυση θα χρησιμοποιηθεί για την κατασκευή ενός πάρκου τεχνητής νοημοσύνης στη Γαλλία, τη βελτίωση της υποδομής και την επένδυση σε τοπικές νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης. Εν τω μεταξύ, η Mistral, μια γαλλική startup,…

Uncategorized

Τι μπορεί να πετύχει το Deepseek; Ακόμα και το OpenAI δεν μπορεί να το κάνει;

Μεzddeepseeker Φεβρουάριος 10, 2025Φεβρουάριος 10, 2025

Η πραγματική τιμή του DeepSeek υποτιμάται! Το DeepSeek-R1 έφερε αναμφίβολα ένα νέο κύμα ενθουσιασμού στην αγορά. Όχι μόνο οι σχετικοί αποκαλούμενοι στόχοι δικαιούχων αυξάνονται απότομα, αλλά μερικοί άνθρωποι έχουν αναπτύξει ακόμη και μαθήματα και λογισμικό που σχετίζονται με το DeepSeek σε μια προσπάθεια να κερδίσουν χρήματα από αυτό. Πιστεύουμε ότι αν και αυτά τα φαινόμενα έχουν μια…

Uncategorized

Τα κύρια προϊόντα τεχνητής νοημοσύνης στον κόσμο επικεντρώνονται στην ανάλυση και τις ολοκληρωμένες οδηγίες εμπειρίας χρήστη (συμπεριλαμβανομένων των DeepSeek και GPT)

Μεzddeepseeker Φεβρουάριος 10, 2025Φεβρουάριος 10, 2025

Τοποθέτηση λειτουργιών και ανάλυση βασικών πλεονεκτημάτων ChatGPT (OpenAI) – το παγκόσμιο σημείο αναφοράς για τεχνικά γονίδια ChatGPT: γενετική τεχνητή νοημοσύνη που βασίζεται στη σειρά μεγάλων μοντέλων GPT, με βασικά πλεονεκτήματα τις γενικές δεξιότητες συνομιλίας και τη λογική συλλογιστική. Πολυγλωσσική επεξεργασία: αποδίδει καλύτερα στα Αγγλικά, με συνεχή βελτίωση στα Κινεζικά, αλλά συνιστούμε να χρησιμοποιείτε τα Αγγλικά για να…

Uncategorized

Το μυστικό πίσω από το DeepSeek 1 | Λεπτομέρειες DeepSeekMath και GRPO

Μεzddeepseeker Φεβρουάριος 9, 2025Φεβρουάριος 9, 2025

Σήμερα θα ήθελα να μοιραστώ ένα άρθρο από το DeepSeek, με τίτλο DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. Αυτό το άρθρο εισάγει το DeepSeekMath 7B, το οποίο είναι προεκπαιδευμένο στο DeepSeek-Coder-Base-v1.5 7B με βάση μια συλλογή 120B διακριτικών, φυσικής γλώσσας και δεδομένων κώδικα που σχετίζονται με μαθηματικά. Το μοντέλο πέτυχε μια εκπληκτική βαθμολογία 51,7% σε ανταγωνιστικό επίπεδο…

Uncategorized

Αποκαλύφθηκε η τεχνολογία DeepSeek-R1: οι βασικές αρχές του χαρτιού αναλύονται και το κλειδί για την πρωτοποριακή απόδοση του μοντέλου αποκαλύπτεται

Μεzddeepseeker Φεβρουάριος 9, 2025Φεβρουάριος 9, 2025

Σήμερα θα μοιραστούμε το DeepSeek R1, Τίτλος: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning: Ενθάρρυνση της συλλογιστικής ικανότητας του LLM μέσω ενισχυτικής μάθησης. Αυτό το άρθρο παρουσιάζει την πρώτη γενιά μοντέλων συλλογισμού του DeepSeek, DeepSeek-R1-Zero και DeepSeek-R1. Το μοντέλο DeepSeek-R1-Zero εκπαιδεύτηκε μέσω μεγάλης κλίμακας ενισχυτικής εκμάθησης (RL) χωρίς εποπτευόμενη λεπτομέρεια (SFT) ως αρχικό βήμα,…

Uncategorized

Ερμηνεία χαρτιού DeepSeek R1 & βασικά τεχνικά σημεία

Μεzddeepseeker Φεβρουάριος 9, 2025Φεβρουάριος 9, 2025

1 Ιστορικό Κατά τη διάρκεια του Εαρινό Φεστιβάλ, το DeepSeek R1 τράβηξε για άλλη μια φορά την ευρεία προσοχή, και ακόμη και το άρθρο ερμηνείας του DeepSeek V3 που γράψαμε προηγουμένως μεταδόθηκε επίσης και συζητήθηκε πολύ. Αν και έχουν γίνει πολλές αναλύσεις και αναπαραγωγές του DeepSeek R1, εδώ αποφασίσαμε να συγκεντρώσουμε κάποιες αντίστοιχες αναγνωστικές σημειώσεις. Θα χρησιμοποιήσουμε τρία…