Google Gemini AI:Ανακοινώθηκε το πιο ικανό μοντέλο τεχνητής νοημοσύνης-Όλα όσα πρέπει να γνωρίζουμε

Ανανεώθηκε: 07 Δεκεμβρίου 2023

Gemini logo on website displayed on a laptop screen and Google logo displayed on a phone screen are seen in this illustration photo taken in Krakow, Poland on December 6, 2023. (Photo by Jakub Porzycki/NurPhoto via Getty Images)

Ως το «πιο ικανό μοντέλο τεχνητής νοημοσύνης» που έχει κατασκευάσει μέχρι σήμερα χαρακτήρισε η Google το Gemini. Πρόκειται επί της ουσίας για το σημαντικότερο επιστημονικό και τεχνικό έργο της εταιρείας και προέκυψε ως αποτέλεσμα πολλών συλλογικών προσπαθειών από ομάδες σε όλη την Google.

Όπως έχει γίνει γνωστό, το Gemini θα έχει εξελιγμένες πολυτροπικές δυνατότητες, θα πραγματοποιεί συνομιλίες ανθρώπινου τύπου, θα έχει γλώσσα και περιεχόμενο, θα κατανοεί και θα ερμηνεύει εικόνες, θα κωδικοποιεί άφθονα και αποτελεσματικά, θα επεξεργάζεται δεδομένα και αναλύσεις και θα χρησιμοποιείται από προγραμματιστές για τη δημιουργία νέων εφαρμογών και API τεχνητής νοημοσύνης. Στο εγγύς μέλλον, το Gemini αναμένεται να υπάρχει -ή και να τροφοδοτεί- τα περισσότερα προϊόντα και υπηρεσίες της Google.

Τον τελευταίο χρόνο, ένας πόλεμος τεχνητής νοημοσύνης (AI) μεταξύ των OpenAI, Microsoft, Google και άλλων έχει υπερφορτώσει τον ανατρεπτικό τομέα, καθώς η καθεμία κυκλοφορεί νέα και πιο ισχυρά μοντέλα.

Αν και η Google δεν εμφανίστηκε πρώτη στη σκηνή της τεχνητής νοημοσύνης, τώρα σκοπεύει να ανέβει στην κορυφή με το Gemini -που εικάζεται ως το πιο ισχυρό μοντέλο τεχνητής νοημοσύνης που υπήρξε ποτέ.

Η Google αναφέρει ότι βελτιστοποίησε το Gemini 1.0, την πρώτη έκδοση του μοντέλου δημιουργώντας τρεις εκδόσεις

• Gemini Ultra: ένα ευρείας κλίμακας μοντέλο για εξαιρετικά πολύπλοκες εργασίες.
• Gemini Pro: ένα μοντέλο κλιμάκωσης σε ένα ευρύ φάσμα εργασιών.
• Gemini Nano: ένα μοντέλο για εργασίες σε φορητές συσκευές.

Επισήμως, ελάχιστα είναι γνωστά για το Gemini, καθώς το έργο διατηρείται υπό αυστηρή εμπιστευτικότητα. Ωστόσο, μέσω έρευνας και ανάλυσης, και συγκεντρώνοντας τα κομμάτια των πληροφοριών που υπάρχουν ήδη εκεί έξω, η Techopedia κατάφερε να δημιουργήσει μια ολοκληρωμένη και πλήρη εικόνα του Gemini.

Google Gemini: Πολυτροπικό από την αρχή

Από την αρχή, όταν το Gemini ανακοινώθηκε για πρώτη φορά στις 10 Μαΐου κατά τη διάρκεια του συνεδρίου προγραμματιστών Google I/O από τον ίδιο τον διευθύνοντα σύμβουλο Sundar Pichai, ένα πράγμα έγινε σαφές: η Google κατασκεύαζε μια τεχνητή νοημοσύνη επόμενης γενιάς. Το έργο, με επικεφαλής τις ομάδες Brain Team και DeepMind της Google, βασίζεται στο PaLM 2.

Το PaLM 2, ή Pathways Language Model 2, είναι η βασική τεχνολογία που χρησιμοποιεί η Google για να προωθήσει τις δυνατότητες AI σε όλη τη γκάμα προϊόντων της. Αυτό περιλαμβάνει τα προϊόντα και τις υπηρεσίες Google Cloud, το Gmail, το Google Workspace, συσκευές υλικού, όπως το smartphone Pixel ή ο θερμοστάτης Nest, και, φυσικά, το περίφημο chatbot AI Bard.

Τότε, το Gemini βρισκόταν ακόμα σε πλήρη ανάπτυξη και εκπαίδευση, αλλά ο Pichai αποκάλυψε τι θα έκανε τη νέα AI διαφορετική.

«Το Gemini δημιουργήθηκε από την αρχή για να είναι πολυτροπικό». Αυτή ήταν η φράση-κλειδί από τον Pichai, και αν υπάρχει μια λέξη που περιγράφει το Gemini, αυτή είναι αναμφίβολα το «πολυτροπικό». Ενώ πολλοί συγχέουν την πολυτροπική τεχνητή νοημοσύνη με οποιαδήποτε τεχνητή νοημοσύνη που μπορεί να εργαστεί με διαφορετικό περιεχόμενο, όπως εικόνες ή κείμενο, για τη Google, ο όρος σημαίνει πολύ περισσότερα.

Πρόσφατα, στις 24 Οκτωβρίου, κατά τη διάρκεια των κερδών της Alphabet για το τρίτο τρίμηνο του 2023, ο Pichai έδωσε εμφανή σημάδια για το είδος της πολυτροπικής AI που κατασκευάζουν.

«Απλώς θέτουμε πραγματικά τα θεμέλια αυτού που θεωρώ ως τη σειρά μοντέλων επόμενης γενιάς που θα λανσάρουμε καθ' όλη τη διάρκεια του 2024», δήλωσε ο Pichai.

Το Gemini είναι μια πιο «ανθρώπινη» τεχνητή νοημοσύνη

Με τον ένα ή τον άλλο τρόπο, έχουμε ήδη γίνει μάρτυρες της πολυτροπικής τεχνητής νοημοσύνης. Εταιρείες όπως η OpenAI - υπεύθυνη για το ChatGPT - ή η Microsoft προσφέρουν διαφορετικές τεχνολογίες δημιουργικής τεχνητής νοημοσύνης που μπορούν να δουλέψουν με εικόνες, κείμενο, δεδομένα, ακόμη και κώδικα. Ωστόσο, όλα αυτά τα πρώιμα συστήματα τεχνητής νοημοσύνης μόνο «ακουμπούν» την επιφάνεια της πολυτροπικής τεχνολογίας, καθώς η ενσωμάτωση διαφορετικών μορφών περιεχομένου και δεδομένων δεν είναι αποτελεσματική.

Ο λόγος για τον οποίο η γενεσιουργός τεχνητή νοημοσύνη καθίσταται τόσο μεγάλη επιτυχία είναι ότι, για πρώτη φορά, μια μηχανή μπορεί να μιμηθεί αυτό που κάνουν οι άνθρωποι. Αλλά τι ακριβώς μπορούν να κάνουν οι άνθρωποι; Δεν μπορούμε μόνο να συνομιλούμε, να κωδικοποιούμε, να γράφουμε εκθέσεις και να δημιουργούμε εικόνες, μπορούμε να κάνουμε όλα αυτά και ακόμη περισσότερα.

Ο ανθρώπινος εγκέφαλος είναι εξαιρετικά πολύπλοκος. Μπορεί ταυτόχρονα να ερμηνεύει και να κατανοεί διάφορες μορφές δεδομένων, όπως κείμενο, λέξεις, ήχους και εικόνες. Αυτό μας επιτρέπει να κατανοούμε τον κόσμο γύρω μας, να ανταποκρινόμαστε σε ερεθίσματα και να επιλύουμε προβλήματα με δημιουργικούς και καινοτόμους τρόπους. Και αυτό είναι το ζητούμενο για το Gemini της Google. Μια νέα τεχνητή νοημοσύνη που έρχεται πιο κοντά σε αυτό που κάνουν πραγματικά οι άνθρωποι: μια πολυ-λειτουργική πολυτροπική τεχνητή νοημοσύνη.

Το Gemini δεν είναι ένα μοντέλο, αλλά πολλά σε συνδυασμό

Υπάρχει μόνο ένας τρόπος για τη δημιουργία κομψής και αποτελεσματικής πολυτροπικής ΤΝ. Αυτός είναι ο συνδυασμός διαφορετικών μοντέλων ΤΝ σε ένα. Τα μοντέλα μηχανικής μάθησης και ΤΝ, όπως η επεξεργασία γράφων, η όραση υπολογιστών, η επεξεργασία ήχου, τα γλωσσικά μοντέλα, η κωδικοποίηση και ο προγραμματισμός και τα τρισδιάστατα μοντέλα, πρέπει να ενσωματωθούν και να ενορχηστρωθούν για να επιτευχθεί συνέργεια κατά την ανάπτυξη πολυτροπικής ΤΝ.

Το Gemini δεν είναι ένα μοντέλο, είναι πολλές ΤΝ συνδυασμένες

Υπάρχει μόνο ένας τρόπος για τη δημιουργία κομψής και αποτελεσματικής πολυτροπικής τεχνητής νοημοσύνης. Αυτός είναι ο συνδυασμός διαφορετικών μοντέλων ΤΝ σε ένα. Τα μοντέλα μηχανικής μάθησης και ΤΝ, όπως η επεξεργασία γράφων, η όραση υπολογιστών, η επεξεργασία ήχου, τα γλωσσικά μοντέλα, η κωδικοποίηση και ο προγραμματισμός και τα τρισδιάστατα μοντέλα, πρέπει να ενσωματωθούν και να ενορχηστρωθούν για να επιτευχθεί συνέργεια κατά την ανάπτυξη πολυτροπικής ΤΝ.

Αυτό είναι ένα μνημειώδες, δύσκολο έργο και η Google θέλει να πάει αυτή την έννοια σε ένα νέο, πρωτοφανές επίπεδο.

Μια άλλη μεγάλη διαφορά μεταξύ του Gemini και άλλων μοντέλων όπως το ChatGPT ή το Bing Chat είναι το προς το παρόν περιορισμένο επίπεδο πρόσβασης των προγραμματιστών στην τεχνολογία.

Όμως, αμέσως μετά το ξεκίνημα, το Gemini θα σπάσει αυτή την τάση. Η Google έχει ήδη διαβεβαιώσει ότι το Gemini θα είναι διαθέσιμο και για τους προγραμματιστές και τους χρήστες του cloud.

Ο Pichai δήλωσε κατά τη διάρκεια της κλήσης του τρίτου τριμήνου με τους επενδυτές: «Αναπτύσσουμε το Gemini με τέτοιο τρόπο ώστε να είναι διαθέσιμο σε διάφορα μεγέθη και δυνατότητες, και θα το χρησιμοποιήσουμε αμέσως σε όλα τα προϊόντα μας εσωτερικά, καθώς και θα το διαθέσουμε τόσο στους προγραμματιστές όσο και στους πελάτες του Cloud».

Ο Pichai πρόσθεσε ότι το Gemini θα είναι «εξαιρετικά αποδοτικό με εργαλεία και ενσωματώσεις API». Αυτό σημαίνει ότι η Google δεν εργάζεται απλώς πάνω σε μια νέα AI, αλλά κατασκευάζει ελαφριές και ισχυρές εκδόσεις του Gemini για τους προγραμματιστές που μπορούν να το χρησιμοποιήσουν και να το προσαρμόσουν για να δημιουργήσουν τις δικές τους εφαρμογές AI και API.

Μια AI για να κατασκευάσει AI

Δεν είναι πολύ νωρίς για να καταλάβουμε πώς οι προγραμματιστές θα χρησιμοποιήσουν το Gemini για να δημιουργήσουν νέες εφαρμογές και API τεχνητής νοημοσύνης. Στα μέσα Σεπτεμβρίου, κυκλοφόρησε η είδηση ότι η Google άρχισε να δίνει στους χρήστες πρόσβαση σε μια πρώιμη έκδοση του Gemini. Φυσικά, όπως ήταν αναμενόμενο, ήρθαν και οι πρώτες διαρροές του Gemini.

Στις 15 Οκτωβρίου, ο μηχανικός Javascript Bedros Pamboukian σόκαρε τον κόσμο με τα πρώτα screenshots αυτού που φαινόταν να είναι το Gemini ενσωματωμένο στο Makersuite. Το MakerSuite της Google, που κυκλοφόρησε στις αρχές του 2023 και τροφοδοτείται από το PaLM 2, χρησιμοποιείται από προγραμματιστές για τη δημιουργία εφαρμογών τεχνητής νοημοσύνης.

Το MakerSuite είναι ουσιαστικά ένα AI για τη δημιουργία AI. Διαθέτει μια απλή διεπαφή χρήστη όπου οι προγραμματιστές μπορούν να δημιουργήσουν εργαλεία δημιουργίας κώδικα, εφαρμογές επεξεργασίας φυσικής γλώσσας (NLP) και άλλα.

Ο Pamboukian - ο πρώτος που διέρρευσε την ενσωμάτωση του Gemini στο MarketSuite - αποκάλυψε την κορυφή του παγόβουνου των πολυτροπικών δυνατοτήτων του Gemini. Η διαρροή δείχνει ότι το Gemini διαθέτει ήδη δυνατότητες αναγνώρισης κειμένου και αντικειμένων και μπορεί να υπογράφει και να κατανοεί προτροπές που συνδυάζουν ελεύθερο κείμενο με εικόνες.

Είναι το Gemini πιο ισχυρό από το ChatGPT;

Κατά τη σύγκριση του Gemini με το ChatGPT, πολλοί ειδικοί μιλούν για παραμέτρους. Οι παράμετροι σε ένα σύστημα τεχνητής νοημοσύνης είναι οι μεταβλητές των οποίων οι τιμές προσαρμόζονται ή συντονίζονται κατά το στάδιο της εκπαίδευσης και τις οποίες χρησιμοποιεί η τεχνητή νοημοσύνη για να μετατρέψει τα δεδομένα εισόδου σε έξοδο. Σε γενικές γραμμές, όσο περισσότερες παραμέτρους έχει μια ΤΝ, τόσο πιο εξελιγμένη είναι.

Το ChatGPT 4.0, η πιο προηγμένη τεχνητή νοημοσύνη σε λειτουργία, διαθέτει 1,75 τρισεκατομμύρια παραμέτρους. Αντίθετα, το Gemini φέρεται να ξεπερνά αυτόν τον αριθμό - με αναφορές που υποστηρίζουν ότι θα έχει 30 τρισεκατομμύρια ή ακόμη και 65 τρισεκατομμύρια παραμέτρους.

Όμως, η ισχύς ενός συστήματος ΤΝ δεν αφορά μόνο τους μεγάλους αριθμούς παραμέτρων.

Μια μελέτη της SemiAnalysis μας διαβεβαιώνει ότι το Gemini θα «συντρίψει» το ChatGPT 4.0. Η SemiAnalysis προβλέπει ότι μέχρι το τέλος του 2023, το Gemini θα μπορούσε να ξεπεράσει το ChatGPT 4.0 κατά πέντε φορές, δυνητικά 20 φορές πιο ισχυρό.

Gemini, τσιπ και δεδομένα εκπαίδευσης

Η έννοια που κρύβεται πίσω από ένα μοντέλο τεχνητής νοημοσύνης είναι επίσης σχετική.

Ενώ, όπως αναφέρθηκε, η πολυτροπική ικανότητα του ChatGPT εξακολουθεί να είναι ελάχιστη - μπορεί να εργαστεί με γλώσσα και κώδικα αλλά όχι με εικόνες - το Gemini θα τα συνδυάζει όλα.

«Το Google Gemini είναι πολυτροπικό, δηλαδή μπορεί να επεξεργάζεται και να παράγει κείμενο, εικόνες και άλλους τύπους δεδομένων. Αυτό το καθιστά πιο ευέλικτο από το ChatGPT, το οποίο είναι ικανό να επεξεργάζεται μόνο κείμενο», αναφέρεται στην έκθεση της SemiAnalysis.

Η SemiAnalysis προσέθεσε ότι η Google «επένδυσε πρωτοφανή υπολογιστική ισχύ» για να εκπαιδεύσει το Gemini, ξεπερνώντας το GPT-4. Για την εκπαίδευση του Gemini, η Google χρησιμοποιεί πρωτοποριακά εκπαιδευτικά τσιπ, γνωστά ως TPUv5. Αυτά τα τσιπ φέρονται να είναι η μόνη τεχνολογία στον κόσμο που μπορεί να ενορχηστρώσει 16.384 τσιπ που συνεργάζονται. Αυτά τα σούπερ τσιπ είναι το μυστικό που επιτρέπει στην Google να εκπαιδεύσει ένα τόσο τεράστιο μοντέλο.

Η SemiAnalysis λέει:

«Προς το παρόν, καμία άλλη οντότητα στον τομέα δεν διαθέτει την ικανότητα να αναλάβει τέτοιες προσπάθειες εκπαίδευσης". Αλλά η εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης δεν αφορά μόνο τα τσιπ αλλά και τα δεδομένα. Και όταν πρόκειται για δεδομένα, η Google είναι ένας από τους κυρίαρχους του παιχνιδιού. «Η Google διαθέτει μια εκτεταμένη συλλογή δεδομένων που αφορούν μόνο τον κώδικα, η οποία υπολογίζεται σε περίπου 40 τρισεκατομμύρια μάρκες, γεγονός που έχει επαληθευτεί», προσέθεσε η SemiAnalysis.

Σαράντα τρισεκατομμύρια tokens ισοδυναμούν με εκατοντάδες petabytes ή με το περιεχόμενο εκατομμυρίων βιβλίων. Σύμφωνα με την SemiAnalysis, μόνο το σύνολο δεδομένων της Google είναι τέσσερις φορές μεγαλύτερο από το σύνολο των δεδομένων που χρησιμοποιήθηκαν για την εκπαίδευση του ChatGPT 4.0, το οποίο περιλαμβάνει δεδομένα κώδικα και μη.

Οι δεσμεύσεις της Google

Ακριβώς όπως το PaLM 2 τροφοδοτεί όλα τα εμπορικά σήματα της Google, το Gemini αναμένεται να κάνει το ίδιο και για την τεχνητή νοημοσύνη. Η Google καλλιεργεί το Gemini και αναμένει να αναπτυχθεί και να γίνει η ραχοκοκαλιά όλης της νοημοσύνης AI που ενσωματώνεται και ενσωματώνεται σε κάθε προϊόν και υπηρεσία της Google.

Ποια τελικά προϊόντα και υπηρεσίες θα δούμε να τροφοδοτούνται από το Gemini; Εάν αντικαταστήσει το PaLM 2, το Gemini θα τροφοδοτεί τα πάντα, από τους Χάρτες μέχρι τα Έγγραφα και το Translate, όλα τα περιβάλλοντα και τις υπηρεσίες Google Workplace και Cloud, καθώς και το λογισμικό και το υλικό και τα νέα προϊόντα.

Αν και δεν υπάρχει οριστικό χρονοδιάγραμμα για το πότε μπορεί να κυκλοφορήσει το Gemini, αναμένεται να κυκλοφορήσει μέχρι το τέλος του 2023 ή στις αρχές του 2024.

Η Google έχει δεσμευτεί πλήρως για την ανάπτυξη μιας πιο ισχυρής, ευέλικτης και συνειδητοποιημένης στο πλαίσιο AI, ικανής να κατανοεί και να αλληλεπιδρά με τον κόσμο με νέους και πρωτοφανείς τρόπους.

Οι προγραμματιστές θα χρησιμοποιήσουν το Gemini για να κωδικοποιήσουν, να αυτοματοποιήσουν και να βελτιώσουν τις λειτουργίες cloud και edge, να προωθήσουν τις πωλήσεις και να ενσωματωθούν σε chatbots και εικονικούς βοηθούς μέσα σε φορητά smartphones τεχνολογίας Google, εφαρμογές, API και πολλά άλλα.

Αν το 2023 καταλήξει να θεωρείται ως η χρονιά που η τεχνητή νοημοσύνη θα γίνει ευρέως γνωστή και θα χρησιμοποιηθεί, το 2024 θα μπορούσε πραγματικά να είναι η χρονιά του Gemini.