Το ομώνυμο μεγάλο γλωσσικό μοντέλο (LLM) του κινεζικού εργαστηρίου τεχνητής νοημοσύνης (AI) DeepSeek εξέπληξε τη Silicon Valley, καθώς έγινε ένας από τους μεγαλύτερους ανταγωνιστές του ChatGPT της αμερικανικής εταιρείας OpenAI.
Τα τελευταία μοντέλα της DeepSeek, που κυκλοφόρησαν αυτόν τον μήνα, λέγεται ότι είναι τόσο εξαιρετικά γρήγορα όσο και χαμηλού κόστους.
Το DeepSeek-R1, το τελευταίο από τα μοντέλα που αναπτύχθηκαν με λιγότερα τσιπ, αμφισβητεί ήδη την κυριαρχία γιγάντιων παικτών, όπως η OpenAI, η Google και η Meta, στέλνοντας τις μετοχές της εταιρείας κατασκευής τσιπ Nvidia σε πτώση τη Δευτέρα.
Ακολουθούν όσα γνωρίζουμε για τον... ταραξία του κλάδου από την Κίνα.
Από πού προήλθε η DeepSeek;
Η εταιρεία με έδρα το Χανγκζού της Κίνας ιδρύθηκε τον Ιούλιο του 2023 από τον Λιάνγκ Ουενφένγκ, έναν μηχανικό πληροφορικής και ηλεκτρονικών, απόφοιτο του Πανεπιστημίου Ζεγιάνγκ.
Αποτελούσε μέρος του προγράμματος επώασης της High-Flyer, ενός ταμείου που ίδρυσε ο Λιάνγκ το 2015. Ο Λιανγκ, όπως και άλλα κορυφαία ονόματα του κλάδου, στοχεύει να φτάσει στο επίπεδο της «γενικής τεχνητής νοημοσύνης» που μπορεί να φτάσει ή να ξεπεράσει τον άνθρωπο σε διάφορες εργασίες.
Λειτουργώντας ανεξάρτητα, το μοντέλο χρηματοδότησης της DeepSeek της επιτρέπει να επιδιώκει φιλόδοξα έργα τεχνητής νοημοσύνης χωρίς πίεση από εξωτερικούς επενδυτές και να δίνει προτεραιότητα στη μακροπρόθεσμη έρευνα και ανάπτυξη.
Η ομάδα της DeepSeek αποτελείται από νέους πτυχιούχους των κορυφαίων πανεπιστημίων της Κίνας, με μια διαδικασία πρόσληψης της εταιρείας που δίνει προτεραιότητα στις τεχνικές δεξιότητες έναντι της εργασιακής εμπειρίας.
Εν ολίγοις, θεωρείται ότι διαθέτει μια νέα προοπτική στη διαδικασία ανάπτυξης μοντέλων τεχνητής νοημοσύνης.
Το ταξίδι της DeepSeek ξεκίνησε τον Νοέμβριο του 2023 με την κυκλοφορία του DeepSeek Coder, ενός μοντέλου ανοικτού κώδικα που έχει σχεδιαστεί για εργασίες κωδικοποίησης.
Ακολούθησε το DeepSeek LLM, το οποίο είχε ως στόχο να ανταγωνιστεί άλλα μεγάλα γλωσσικά μοντέλα. Το DeepSeek-V2, που κυκλοφόρησε τον Μάιο του 2024, κέρδισε έδαφος λόγω των ισχυρών επιδόσεων και του χαμηλού κόστους του.
Εξανάγκασε επίσης άλλους μεγάλους κινεζικούς τεχνολογικούς γίγαντες, όπως οι ByteDance, Tencent (HK:0700), Baidu και Alibaba, να μειώσουν τις τιμές των μοντέλων τεχνητής νοημοσύνης τους.
Ποια είναι η χωρητικότητα των μοντέλων DeepSeek;
Το DeepSeek-V2 αντικαταστάθηκε αργότερα από το DeepSeek-Coder-V2, ένα πιο προηγμένο μοντέλο με 236 δισεκατομμύρια παραμέτρους.
Σχεδιασμένο για σύνθετες προτροπές κωδικοποίησης, το μοντέλο διαθέτει παράθυρο υψηλού πλαισίου έως και 128.000 tokens.
Ένα token είναι μια μονάδα σε ένα κείμενο. Αυτή η μονάδα μπορεί συχνά να είναι μια λέξη, ένα σωματίδιο (όπως «τεχνητή» και «νοημοσύνη») ή ακόμη και ένας χαρακτήρας. Για παράδειγμα: «Η τεχνητή νοημοσύνη είναι σπουδαία!» μπορεί να αποτελείται από τέσσερα tokens: «Τεχνητή», «νοημοσύνη», «σπουδαία», «!».
Ένα παράθυρο πλαισίου 128.000 tokens είναι το μέγιστο μήκος κειμένου εισόδου που μπορεί να επεξεργαστεί ταυτόχρονα το μοντέλο.
Ένα μεγαλύτερο παράθυρο πλαισίου επιτρέπει στο μοντέλο να κατανοεί, να συνοψίζει ή να αναλύει μεγαλύτερα κείμενα. Αυτό είναι ένα μεγάλο πλεονέκτημα, για παράδειγμα, όταν εργάζεστε σε μεγάλα έγγραφα, βιβλία ή πολύπλοκους διαλόγους.
Τα τελευταία μοντέλα της εταιρείας DeepSeek-V3 και DeepSeek-R1 έχουν εδραιώσει περαιτέρω τη θέση της.
Ένα μοντέλο 671.000 παραμέτρων, το DeepSeek-V3 απαιτεί σημαντικά λιγότερους πόρους από τους ομολόγους του, ενώ έχει εντυπωσιακές επιδόσεις σε διάφορα συγκριτικά τεστ με άλλες μάρκες.
Το DeepSeek-R1, το οποίο κυκλοφόρησε αυτόν τον μήνα, εστιάζει σε σύνθετες εργασίες όπως η συλλογιστική, η κωδικοποίηση και τα μαθηματικά. Με τις δυνατότητές του σε αυτόν τον τομέα, προκαλεί το o1, ένα από τα πιο πρόσφατα μοντέλα της ChatGPT.
Αν και η DeepSeek έχει σημειώσει σημαντική επιτυχία σε σύντομο χρονικό διάστημα, η εταιρεία επικεντρώνεται κυρίως στην έρευνα και δεν έχει λεπτομερή σχέδια για εμπορική εκμετάλλευση στο εγγύς μέλλον, σύμφωνα με το Forbes.
Είναι δωρεάν για τον τελικό χρήστη;
Ένας από τους κύριους λόγους για τους οποίους η DeepSeek κατάφερε να προσελκύσει την προσοχή είναι ότι είναι δωρεάν για τους τελικούς χρήστες.
Πρόκειται για το πρώτο τόσο προηγμένο σύστημα τεχνητής νοημοσύνης που διατίθεται δωρεάν στους χρήστες, ενώ άλλα ισχυρά συστήματα, όπως το OpenAI o1 και το Claude Sonnet, απαιτούν συνδρομή.
Το Google Gemini είναι επίσης διαθέσιμο δωρεάν, αλλά οι δωρεάν εκδόσεις περιορίζονται σε παλαιότερα μοντέλα. Το DeepSeek δεν έχει περιορισμούς προς το παρόν.
Πώς να το χρησιμοποιήσετε;
Οι χρήστες μπορούν να έχουν πρόσβαση στη διεπαφή συνομιλίας DeepSeek που έχει αναπτυχθεί για τον τελικό χρήστη στη διεύθυνση "chat.deepseek". Αρκεί να εισαγάγετε εντολές στην οθόνη συνομιλίας και να πατήσετε το κουμπί «αναζήτηση» για να κάνετε αναζήτηση στο διαδίκτυο.
Υπάρχει η επιλογή "deep think" (βαθιά σκέψη) για την απόκτηση λεπτομερέστερων πληροφοριών για οποιοδήποτε θέμα. Ενώ αυτή η επιλογή παρέχει πιο λεπτομερείς απαντήσεις στα αιτήματα των χρηστών, μπορεί επίσης να αναζητήσει περισσότερους ιστότοπους στη μηχανή αναζήτησης. Ωστόσο, σε αντίθεση με το ChatGPT, το οποίο αναζητά μόνο βασιζόμενο σε συγκεκριμένες πηγές, αυτή η λειτουργία μπορεί επίσης να αποκαλύψει ψευδείς πληροφορίες σε ορισμένες μικρές τοποθεσίες. Ως εκ τούτου, οι χρήστες πρέπει να επιβεβαιώνουν τις πληροφορίες που λαμβάνουν σε αυτό το chatbot.
Είναι ασφαλές;
Ένα άλλο σημαντικό ερώτημα σχετικά με τη χρήση του DeepSeek είναι αν είναι ασφαλές. Το DeepSeek, όπως και άλλες υπηρεσίες, απαιτεί δεδομένα χρήστη, τα οποία πιθανότατα αποθηκεύονται σε διακομιστές στην Κίνα.
Όπως και με κάθε LLM, είναι σημαντικό οι χρήστες να μην δίνουν ευαίσθητα δεδομένα στο chatbot.
Δεδομένου ότι το DeepSeek είναι επίσης ανοικτού κώδικα, ανεξάρτητοι ερευνητές μπορούν να εξετάσουν τον κώδικα του μοντέλου και να προσπαθήσουν να προσδιορίσουν αν είναι ασφαλές. Περισσότερες λεπτομερείς πληροφορίες σχετικά με τις ανησυχίες για την ασφάλεια αναμένεται να δημοσιευθούν τις επόμενες ημέρες.
Τι σημαίνει ανοιχτός κώδικας;
Τα μοντέλα, συμπεριλαμβανομένου του DeepSeek-R1, έχουν κυκλοφορήσει σε μεγάλο βαθμό ως ανοικτού κώδικα. Αυτό σημαίνει ότι οποιοσδήποτε μπορεί να έχει πρόσβαση στον κώδικα του εργαλείου και να τον χρησιμοποιήσει για να προσαρμόσει το LLM. Τα δεδομένα εκπαίδευσης είναι ιδιόκτητα.
Η OpenAI, από την άλλη πλευρά, είχε κυκλοφορήσει το μοντέλο o1 κλειστό και το πουλάει σε πακέτα από 20 δολάρια (19 ευρώ) έως 200 δολάρια (192 ευρώ) το μήνα.
Πώς κατάφερε να παράγει ένα τέτοιο μοντέλο παρά τους αμερικανικούς περιορισμούς;
Η εταιρεία δημιούργησε επίσης στρατηγικές συνεργασίες για να ενισχύσει τις τεχνολογικές της δυνατότητες και την εμβέλειά της στην αγορά.
Μία από τις αξιοσημείωτες συνεργασίες ήταν με την αμερικανική εταιρεία τσιπ AMD. Σύμφωνα με το Forbes, η DeepSeek χρησιμοποίησε GPUs (μονάδες επεξεργασίας γραφικών) AMD Instinct και λογισμικό ROCM σε βασικά στάδια της ανάπτυξης του μοντέλου, ιδίως για το DeepSeek-V3.
Το MIT Technology Review ανέφερε ότι ο Λιανγκ είχε αγοράσει σημαντικά αποθέματα τσιπ A100 της Nvidia, ενός τύπου που σήμερα απαγορεύεται να εξάγεται στην Κίνα, πολύ πριν από τις κυρώσεις των ΗΠΑ για τα τσιπ κατά της Κίνας.
Το κινεζικό μέσο ενημέρωσης 36Kr εκτιμά ότι η εταιρεία έχει πάνω από 10.000 μονάδες σε απόθεμα. Ορισμένοι λένε ότι ο αριθμός αυτός ανέρχεται σε 50.000.
Αντιλαμβανόμενος τη σημασία αυτού του αποθέματος για την εκπαίδευση της τεχνητής νοημοσύνης, ο Λιανγκ ίδρυσε την DeepSeek και άρχισε να τα χρησιμοποιεί σε συνδυασμό με τσιπ χαμηλής κατανάλωσης ενέργειας για να βελτιώσει τα μοντέλα του.
Αλλά το σημαντικό σημείο εδώ είναι ότι ο Λιανγκ βρήκε έναν τρόπο να κατασκευάζει ικανά μοντέλα με λίγους πόρους.
Οι περιορισμοί στις εξαγωγές τσιπ των ΗΠΑ ανάγκασαν τους προγραμματιστές της DeepSeek να δημιουργήσουν πιο έξυπνους και ενεργειακά αποδοτικούς αλγορίθμους για να αντισταθμίσουν την έλλειψη υπολογιστικής ισχύος.
Το ChatGPT πιστεύεται ότι χρειάζεται 10.000 GPUs της Nvidia για να επεξεργαστεί τα δεδομένα εκπαίδευσης. Οι μηχανικοί της DeepSeek λένε ότι πέτυχαν παρόμοια αποτελέσματα με μόνο 2.000 GPUs.
Ποια ήταν η αντίδραση στο DeepSeek;
Ο Αλεξάντερ Ουάνγκ, διευθύνων σύμβουλος της ScaleAI, η οποία παρέχει δεδομένα εκπαίδευσης σε μοντέλα τεχνητής νοημοσύνης μεγάλων παικτών όπως η OpenAI και η Google, περιέγραψε το προϊόν της DeepSeek ως «ένα σεισμικό μοντέλο» σε ομιλία του στο Παγκόσμιο Οικονομικό Φόρουμ (WEF) στο Νταβός την περασμένη εβδομάδα.
Ενώ το DeepSeek έχει καταπλήξει τους Αμερικανούς αντιπάλους, οι αναλυτές προειδοποιούν ήδη για το τι θα σημάνει η κυκλοφορία του στη Δύση.
«Θα πρέπει να ανησυχούμε. Η περαιτέρω ενσωμάτωση της κινεζικής τεχνολογίας τεχνητής νοημοσύνης στο Ηνωμένο Βασίλειο και τη δυτική κοινωνία δεν είναι απλώς μια κακή ιδέα - είναι μια απερίσκεπτη ιδέα», δήλωσε ο Ρος Μπέρλι, συνιδρυτής του Centre for Information Resilience.
«Έχουμε δει ξανά και ξανά πώς το Πεκίνο οπλίζει την τεχνολογική του κυριαρχία για επιτήρηση, έλεγχο και εξαναγκασμό, τόσο στο εσωτερικό όσο και στο εξωτερικό. Είτε πρόκειται για συσκευές γεμάτες spyware, είτε για κρατικά χρηματοδοτούμενες εκστρατείες στον κυβερνοχώρο, είτε για την κατάχρηση της τεχνητής νοημοσύνης για την καταστολή της διαφωνίας, το ιστορικό της Κίνας καταδεικνύει ότι η τεχνολογία της αποτελεί προέκταση της γεωπολιτικής της στρατηγικής», πρόσθεσε.
«Αυτό μπορεί να φαίνεται να είναι ένα καλοήθες Μεγάλο Γλωσσικό Μοντέλο, αλλά έχουμε ήδη δει ότι η τεχνητή νοημοσύνη καταστέλλει πληροφορίες που ασκούν κριτική στην κινεζική κυβέρνηση».
Άλλοι συμφωνούν ότι η κίνηση να δημοσιεύσει το τελευταίο LLM της είναι μια πολιτική κίνηση, η οποία είναι πιθανό να φουντώσει τις ήδη έντονες σινοαμερικανικές σχέσεις.
«Η τεχνολογική καινοτομία είναι πραγματική, αλλά η χρονική στιγμή της απελευθέρωσης έχει πολιτικό χαρακτήρα», δήλωσε στο Associated Press ο Γκρέγκορι Άλεν, διευθυντής του Κέντρου Τεχνητής Νοημοσύνης Wadhwani στο Κέντρο Στρατηγικών και Διεθνών Σπουδών.
Ο Άλεν συνέκρινε την ανακοίνωση της DeepSeek την περασμένη εβδομάδα με την κυκλοφορία ενός νέου τηλεφώνου της κινεζικής εταιρείας Huawei, για την οποία έχουν επιβληθεί κυρώσεις από τις ΗΠΑ, κατά τη διάρκεια διπλωματικών συζητήσεων σχετικά με τους ελέγχους εξαγωγών της κυβέρνησης Μπάιντεν το 2023.
«Η προσπάθεια να δείξουμε ότι οι έλεγχοι των εξαγωγών είναι μάταιοι ή αντιπαραγωγικοί είναι ένας πραγματικά σημαντικός στόχος της κινεζικής εξωτερικής πολιτικής αυτή τη στιγμή», δήλωσε ο Άλεν.