Η Metα, η μητρική εταιρεία των Facebook, Instagram και WhatsApp, ανακοίνωσε ότι δημιούργησε ένα ανοιχτού κώδικα εργαλείο τεχνητής νοημοσύνης που ονομάζεται ImageBind. Το εργαλείο αυτό μπορεί να προβλέπει συνδέσεις μεταξύ δεδομένων ακολουθώντας μια τακτική επεξεργασίας παρόμοια με το πώς οι άνθρωποι αντιλαμβάνονται ή φαντάζονται ένα περιβάλλον. Ενώ οι τα προγράμματα δημιουργίας εικόνων όπως το Midjourney, το Stable Diffusion και το DALL-E 2 συνδυάζουν λέξεις με εικόνες, επιτρέποντάς στον χρήστη να δημιουργεί οπτικές σκηνές με βάση μόνο μια περιγραφή κειμένου, το ImageBind έχει ευρύτερες δυνατότητες.
Μπορεί να συνδέσει κείμενο, εικόνες/βίντεο, ήχο, τρισδιάστατες μετρήσεις (βάθος), δεδομένα θερμοκρασίας και δεδομένα κίνησης και μάλιστα αυτό το κάνει χωρίς να χρειάζεται να εκπαιδευθεί προηγουμένως σε κάθε δυνατότητα όπως συμβαίνει με τα ανάλογα προγράμματα τεχνητής νοημοσύνης. Είναι ένα πρώιμο στάδιο ενός πλαισίου που θα μπορούσε τελικά να δημιουργήσει πολύπλοκα περιβάλλοντα από μια είσοδο τόσο απλή όπως ένα κείμενο, μια εικόνα ή εγγραφή ενός ήχου ή κάποιος συνδυασμός των τριών.
Όπως λένε οι ειδικοί το ImageBind μπορεί να χαρακτηριστεί ως ένα είδος «κινούμενης μηχανικής μάθησης» που πλησιάζει τον μηχανισμό της ανθρώπινης μάθησης. Για παράδειγμα, εάν κάποιος βρίσκεται σε ένα δυναμικό και συνεχώς εναλασσόμενο περιβάλλον όπως ένας πολυσύχναστος δρόμος της πόλης, ο εγκέφαλός του (σε μεγάλο βαθμό ασυνείδητα) απορροφά τις εικόνες, τους ήχους και άλλες αισθητηριακές εμπειρίες για να συμπεράνει πληροφορίες σχετικά με τα διερχόμενα αυτοκίνητα, τους πεζούς, τα κτίρια, τον καιρό και πολλά άλλα.
Οι άνθρωποι και άλλα ζώα εξελίχθηκαν για να επεξεργάζονται αυτά τα δεδομένα για το αποκαλούμενο γενετικό μας πλεονέκτημα: την επιβίωση και τη μετάδοση του DNA μας. Όσο περισσότερο συνειδητοποιούμε το περιβάλλον μας τόσο περισσότερο μπορούμε να αποφύγουμε τον κίνδυνο και να προσαρμοστούμε στο περιβάλλον για καλύτερη επιβίωση και ευημερία. Καθώς οι υπολογιστές πλησιάζουν περισσότερο στο να μιμούνται τις πολυαισθητηριακές συνδέσεις των ζώων, μπορούν να χρησιμοποιήσουν αυτούς τους συνδέσμους για να δημιουργήσουν πλήρως σκηνές που βασίζονται μόνο σε περιορισμένα κομμάτια δεδομένων.
Έτσι ενώ μπορεί κάποιος να χρησιμοποιήσει προγράμματα όπως το Midjourney για να δημιουργήσει μια ρεαλιστική εικόνα μιας παράξενης σκήνης όπως ένα κυνηγόσκυλο που φοράει στολή Gandalf ενώ ισορροπεί σε μια μπάλα παραλίας μέσα σε σπίτι ένα πολυτροπικό εργαλείο AI όπως το ImageBind μπορεί να δημιουργήσει ένα βίντεο του σκύλου με λεπτομερή αποτύπωση του χώρου του σπιτιού στο οποίο βρίσκεται, αντίστοιχους ήχους, των συνθηκών θερμοκρασίας του δωματίου και των ακριβών θέσεων του σκύλου ή οποιουδήποτε άλλου συμμετέχει στη σκηνή. «Αυτό δημιουργεί ξεχωριστές ευκαιρίες για τη δημιουργία κινούμενων εικόνων από στατικές εικόνες, συνδυάζοντάς τες με ηχητικές προτροπές» λένε οι ερευνητές της Meta.
Αυτό το νέο «παιχνίδι» που δημιούργησε η Metα δείχνει ξεκάθαρα μια από τις βασικές φιλοδοξίες της εταιρείας που είναι η δημιουργία περιβάλλοντος στα οποία εμπεριέχονται ψηφιακές τεχνολογίες, εικονική πραγματικότητα, επαυξημένη πραγματικότητα. Τέτοια εργαλεία θα μπορούσαν να βρουν πολλών ειδών εφαρμογές που ξεκινούν από τη χρήση τους στη δημιουργία καθηλωτικών βίντεο με ρεαλιστικά τοπία και κίνηση, στη δημιουργία νέων εντυπωσιακών κόσμων στα βίντεοπαιχνίδια μέχρι και παροχή βοήθειας σε άτομα με προβλήματα όρασης ή ακοής να αντιληφθούν καλύτερα το άμεσο περιβάλλον τους.