Η NVIDIA κατηγορείται ότι χρησιμοποιούσε καθημερινά βίντεο ηλικίας 80 ετών για να εκπαιδεύσει μοντέλα τεχνητής νοημοσύνης — τι πρέπει να γνωρίζετε
Όσο περισσότερα μαθαίνουμε για το πώς δημιουργείται η τεχνητή νοημοσύνη, τόσο περισσότερες αναφορές εμφανίζονται για εταιρείες που χρησιμοποιούν περιεχόμενο που προστατεύεται από πνευματικά δικαιώματα για να εκπαιδεύσουν την τεχνητή νοημοσύνη χωρίς άδεια.
Η NVIDIA έχει κατηγορηθεί ότι κατέβασε βίντεο από το YouTube , το Netflix και άλλα σύνολα δεδομένων για την εκπαίδευση εμπορικών έργων τεχνητής νοημοσύνης. Το 404 Media αναφέρει ότι η εταιρεία χρησιμοποιούσε τα ληφθέντα βίντεο για να εκπαιδεύσει μοντέλα τεχνητής νοημοσύνης για προϊόντα όπως το Omniverse 3D world generator της εταιρείας και προσπάθειες "ψηφιακού ανθρώπου" όπως το ενσωματωμένο έργο AI Gr00t .
Όταν επικοινωνήθηκε μέσω email, η NVIDIA είπε στον Tom's Guide ότι «σεβάζονται τα δικαιώματα όλων των δημιουργών περιεχομένου», ενώ είπε ότι οι ερευνητικές τους προσπάθειες είναι «σε πλήρη συμμόρφωση με το γράμμα και το πνεύμα του νόμου περί πνευματικών δικαιωμάτων».
«Ο νόμος περί πνευματικών δικαιωμάτων προστατεύει συγκεκριμένες εκφράσεις αλλά όχι γεγονότα, ιδέες, δεδομένα ή πληροφορίες», ανέφερε η δήλωσή τους. «Ο καθένας είναι ελεύθερος να μάθει γεγονότα, ιδέες, δεδομένα ή πληροφορίες από άλλη πηγή και να τα χρησιμοποιήσει για να κάνει τις δικές του εκφράσεις».
Υποστήριξαν επίσης ότι η εκπαίδευση μοντέλων τεχνητής νοημοσύνης είναι ένα παράδειγμα δωρεάν χρήσης με τη χρήση περιεχομένου σε μετασχηματιστικό σκοπό.
Η νομοθεσία περί πνευματικών δικαιωμάτων προστατεύει συγκεκριμένες εκφράσεις αλλά όχι γεγονότα, ιδέες, δεδομένα ή πληροφορίες. Ο καθένας είναι ελεύθερος να μάθει γεγονότα, ιδέες, δεδομένα ή πληροφορίες από άλλη πηγή και να τα χρησιμοποιήσει για να κάνει τις δικές του εκφράσεις.
Δήλωση Nvidia
Το Netflix αρνήθηκε να σχολιάσει, αλλά το YouTube δεν συμφωνεί με την εκτίμηση της NVIDIA. Ο Jack Malon, Διευθυντής Επικοινωνίας Πολιτικής του YouTube, μας υπέδειξε τα σχόλια που έκανε ο Διευθύνων Σύμβουλος Neal Mohan τον Απρίλιο στο Bloomberg , λέγοντας ότι "τα προηγούμενα σχόλιά μας εξακολουθούν να ισχύουν".
Εκείνη την εποχή, ο Mohan απαντούσε σε αναφορές ότι το OpenAI εκπαίδευε τη γεννήτρια βίντεο Sora AI σε βίντεο YouTube χωρίς άδεια. Είπε, "Δεν επιτρέπει τη λήψη αντιγράφων ή κομματιών βίντεο και αυτό αποτελεί ξεκάθαρη παραβίαση των όρων παροχής υπηρεσιών μας. Αυτοί είναι οι κανόνες του δρόμου όσον αφορά το περιεχόμενο στην πλατφόρμα μας."
Δεν είναι καν η πρώτη φορά φέτος το καλοκαίρι που η NVIDIA κατηγορείται για απόξεση του YouTube. Αρκετές μεγάλες εταιρείες, συμπεριλαμβανομένων των Apple και Anthropic, φέρεται να αντλούσαν πληροφορίες από ένα τεράστιο σύνολο δεδομένων που ονομάζεται «the Pile» που περιλαμβάνει χιλιάδες βίντεο στο YouTube, συμπεριλαμβανομένων δημοφιλών δημιουργών όπως ο Marques Brownlee και ο PewDiePie.
Ηθικές ανησυχίες εγείρονται...και απορρίφθηκαν
Το 404Media αναφέρει ότι οι υπάλληλοι που εξέφρασαν ηθικές ή νομικές ανησυχίες ενημερώθηκαν από τους διευθυντές ότι η πρακτική είχε το πράσινο φως από τα «υψηλά επίπεδα της εταιρείας».
«Αυτή είναι μια εκτελεστική απόφαση», απάντησε ο Ming-Yu Liu, αντιπρόεδρος έρευνας της NVIDIA. "Έχουμε μια έγκριση ομπρέλα για όλα τα δεδομένα."
Προφανώς, κάποιοι διευθυντές κλώτσησαν το κουτάκι στο δρόμο, λέγοντας ότι η απόξεση ήταν ένα ανοιχτό νομικό ζήτημα που η εταιρεία θα αντιμετωπίσει αργότερα.
Τα βίντεο YouTube και Netflix δεν ήταν τα μόνα σύνολα δεδομένων που φέρεται να καταργήθηκαν από την NVIDIA. Η εταιρεία λέγεται επίσης ότι έχει αντλήσει από τη βάση δεδομένων τρέιλερ ταινιών MovieNet, βιβλιοθήκες βίντεο παιχνιδιών και το σύνολο δεδομένων βίντεο Github WebVid.
Μπορεί η απόξεση να δημιουργεί ευκαιρίες για ανεπαρκή δεδομένα να μπουν στην εκπαίδευση μοντέλων, καθώς οι εταιρείες φαίνεται να αρπάζουν ό,τι μπορούν.
Ο Bruno Kurtic, Διευθύνων Σύμβουλος της Bedrock Security, προτείνει ότι μπορεί να δημιουργήσει φτωχά μοντέλα, "Δεδομένης της πολύ μεγάλης κλίμακας δεδομένων που χρησιμοποιούνται, οι μη αυτόματες προσπάθειες να γίνει αυτό θα έχουν πάντα ως αποτέλεσμα ελλιπείς απαντήσεις και ως εκ τούτου, τα μοντέλα ενδέχεται να μην ανταποκρίνονται στις ρυθμιστικές αρχές λεπτομερής έλεγχος."
Στη συνέχεια πρότεινε ότι οι κατασκευαστικές εταιρείες τεχνητής νοημοσύνης θα πρέπει να παράσχουν έναν ελεγχόμενο «τιμολόγιο υλικών δεδομένων για να επισημάνουν από πού προήλθαν τα δεδομένα στα οποία εκπαιδεύτηκαν και τι προέρχονται από ηθικές αρχές».
Είναι ένας τρόπος με τον οποίο οι εταιρείες θα μπορούσαν να λύσουν τα προβλήματά τους με την τεχνητή νοημοσύνη, αλλά όταν όλοι σκαρώνουν όλους τους άλλους, ποια δεδομένα είναι καθαρά;
Τι δεν είναι δίκαιο παιχνίδι;
Σύμφωνα με τους ισχυρισμούς, ορισμένα από τα βίντεο που χρησιμοποίησε η NVIDIA προέρχονταν από μια τεράστια βιβλιοθήκη βίντεο του YouTube που επισημάνθηκαν ως μόνο για ακαδημαϊκούς σκοπούς. Αυτή η άδεια χρήσης προσδιορίζει ότι τα βίντεο προορίζονται μόνο για ακαδημαϊκή έρευνα. Προφανώς, η NVIDIA ισχυρίστηκε ότι η ακαδημαϊκή βιβλιοθήκη ήταν δίκαιο παιχνίδι για εμπορικά προϊόντα τεχνητής νοημοσύνης.
Η μητρική εταιρεία του YouTube, Alphabet, δεν έχει ανοσία στην κριτική για την απόξεση του Διαδικτύου για μοντέλα τεχνητής νοημοσύνης. Το περασμένο καλοκαίρι, η Google κυκλοφόρησε ένα σχέδιο για να χρησιμοποιήσει όλες τις «δημόσιες διαθέσιμες πληροφορίες για να βοηθήσει στην εκπαίδευση των μοντέλων τεχνητής νοημοσύνης της Google και στη δημιουργία προϊόντων και λειτουργιών όπως οι δυνατότητες Google Translate, Bard και Cloud AI».
Είναι ασφαλές να υποθέσουμε ότι οτιδήποτε δημοσιεύεται σε πλατφόρμες Google, όπως το YouTube, θεωρείται δίκαιο παιχνίδι, αλλά και οτιδήποτε δημοσιεύεται στο διαδίκτυο γενικότερα.
Εκείνη την εποχή, ένας εκπρόσωπος της Google είπε στον Tom's Guide, "Η πολιτική απορρήτου μας είναι εδώ και πολύ καιρό διαφανής ότι η Google χρησιμοποιεί δημόσια διαθέσιμες πληροφορίες από τον ανοιχτό ιστό για να εκπαιδεύει μοντέλα γλώσσας για υπηρεσίες όπως το Google Translate. Αυτή η τελευταία ενημέρωση απλώς διευκρινίζει ότι οι νεότερες υπηρεσίες όπως το Bard είναι επίσης Συμπεριλαμβανομένου Ενσωματώνουμε αρχές απορρήτου και διασφαλίσεις στην ανάπτυξη των τεχνολογιών τεχνητής νοημοσύνης μας, σύμφωνα με τις Αρχές μας για την τεχνητή νοημοσύνη .
Το συμπέρασμα είναι ότι οποιαδήποτε δημόσια ανάρτηση γίνεται σε οποιαδήποτε χρονική στιγμή αποτελεί τροφή για τις φιλοδοξίες τεχνητής νοημοσύνης της Google.
Η πλήρης αναφορά του 404 Media έχει πολύ περισσότερες λεπτομέρειες και αξίζει να διαβαστεί.
Σχόλια
Δημοσίευση σχολίου