Kiamat Hukum Untuk Generatif AI ChatGPT Jika Tertangkap Menjiplak Atau Melanggar, Memperingatkan Etika AI Dan Hukum AI

Berikan kredit di mana kredit jatuh tempo.

Itu adalah sedikit kebijaksanaan bijak yang mungkin Anda yakini dengan teguh. Memang, orang mengira atau membayangkan bahwa kita semua mungkin setuju secara wajar bahwa ini adalah aturan praktis yang adil dan masuk akal dalam hidup. Ketika seseorang melakukan sesuatu yang pantas mendapatkan pengakuan, pastikan mereka mendapatkan pengakuan yang layak.

Sudut pandang pelawan akan tampak jauh lebih tidak menarik.

Jika seseorang berkeliling bersikeras bahwa kredit harus tidak diakui ketika kredit jatuh tempo, yah, Anda mungkin menyatakan bahwa keyakinan seperti itu tidak sopan dan mungkin curang. Kita sering mendapati diri kita sangat terganggu ketika kredit dicurangi dari seseorang yang telah mencapai sesuatu yang penting. Saya berani mengatakan bahwa kita terutama tidak menyukai ketika orang lain secara salah mengambil pujian atas pekerjaan orang lain. Itu adalah pukulan ganda yang meresahkan. Orang yang seharusnya mendapat pujian ditolak momennya di bawah sinar matahari. Selain itu, penipu menikmati sorotan meskipun mereka salah membodohi kita untuk menyalahgunakan kasih sayang kita.

Mengapa semua wacana tentang mengumpulkan kredit dengan cara paling benar dan menghindari cara yang salah dan hina?

Karena kita tampaknya menghadapi kesulitan yang sama ketika datang ke Artificial Intelligence (AI) terbaru.

Ya, klaimnya adalah bahwa ini terjadi secara nyata melalui sejenis AI yang dikenal sebagai AI generatif. Ada banyak keraguan bahwa AI Generatif, AI terpanas dalam berita akhir-akhir ini, telah mengambil pujian atas apa yang tidak pantas untuk diapresiasi. Dan ini kemungkinan akan memburuk karena AI generatif semakin diperluas dan digunakan. Semakin banyak penghargaan yang diberikan kepada AI generatif, sementara sayangnya mereka yang sangat pantas mendapatkan penghargaan yang sebenarnya ditinggalkan begitu saja.

Cara saya yang disodorkan untuk secara gamblang menunjukkan fenomena yang diklaim ini adalah melalui dua slogannya yang manis:

  • 1) Plagiarisme dalam skala besar
  • 2) Pelanggaran Hak Cipta dalam skala besar

Saya berasumsi bahwa Anda mungkin mengetahui AI generatif karena aplikasi AI yang sangat populer yang dikenal sebagai ChatGPT yang dirilis pada bulan November oleh OpenAI. Saya akan berbicara lebih banyak tentang AI generatif dan ChatGPT sebentar lagi. Tetap bertahan.

Mari kita langsung ke inti dari apa yang membuat kambing orang seperti itu.

Beberapa orang mengeluh bahwa AI generatif berpotensi menipu manusia yang telah membuat konten. Soalnya, sebagian besar aplikasi AI generatif adalah data yang dilatih dengan memeriksa data yang ditemukan di Internet. Berdasarkan data tersebut, algoritme dapat mengasah jaringan pencocokan pola internal yang luas di dalam aplikasi AI yang selanjutnya dapat menghasilkan konten yang tampak baru yang tampak luar biasa seolah-olah dirancang oleh tangan manusia daripada sepotong otomatisasi.

Prestasi luar biasa ini sebagian besar disebabkan oleh penggunaan konten yang dipindai Internet. Tanpa volume dan kekayaan konten Internet sebagai sumber pelatihan data, AI generatif akan kosong dan sedikit atau tidak ada minat untuk digunakan. Dengan meminta AI memeriksa jutaan demi jutaan dokumen dan teks online, bersama dengan segala macam konten terkait, pencocokan pola secara bertahap diturunkan untuk mencoba dan meniru konten yang diproduksi manusia.

Semakin banyak konten yang diperiksa, kemungkinan besar pencocokan pola akan lebih diasah dan menjadi lebih baik dalam peniruan, semuanya setara.

Inilah pertanyaan bernilai miliaran dolar:

  • Pertanyaan Besar: Jika Anda atau orang lain memiliki konten di Internet yang dilatih oleh beberapa aplikasi AI generatif, melakukannya mungkin tanpa izin langsung Anda dan mungkin sepenuhnya tanpa kesadaran Anda sama sekali, jika Anda berhak atas sepotong kue untuk nilai apa pun yang muncul dari pelatihan data AI generatif itu?

Beberapa dengan keras berpendapat bahwa satu-satunya jawaban yang tepat adalah Yes, terutama bahwa pembuat konten manusia tersebut memang pantas mendapatkan bagian dari tindakan mereka. Masalahnya, Anda akan kesulitan menemukan siapa pun yang mendapatkan bagian yang adil, dan lebih buruk lagi, hampir tidak ada yang mendapatkan bagian apa pun. Pembuat konten Internet yang secara tidak sengaja dan tidak sadar berkontribusi pada dasarnya ditolak kreditnya yang sah.

Ini mungkin dicirikan sebagai mengerikan dan keterlaluan. Kami baru saja membongkar kebijaksanaan bijak bahwa kredit harus diberikan di mana kredit jatuh tempo. Dalam kasus AI generatif, ternyata tidak demikian. Aturan praktis yang sudah lama berlaku dan berbudi luhur tentang kredit tampaknya dilanggar tanpa perasaan.

Wah, balasnya, Anda benar-benar melebih-lebihkan dan salah menyatakan situasinya. Tentu, AI generatif memang memeriksa konten di Internet. Tentu, ini sangat membantu sebagai bagian dari pelatihan data AI generatif. Memang, aplikasi AI generatif yang mengesankan saat ini tidak akan begitu mengesankan tanpa pendekatan yang dipertimbangkan ini. Tetapi Anda telah melangkah terlalu jauh ketika mengatakan bahwa pembuat konten harus diberikan kredit tertentu.

Logikanya adalah sebagai berikut. Manusia pergi ke Internet dan belajar hal-hal dari Internet, melakukannya secara rutin dan tanpa ribut-ribut sendiri. Seseorang yang membaca blog tentang pipa ledeng dan kemudian menonton secara berlebihan video perbaikan pipa yang tersedia secara gratis mungkin keesokan harinya keluar dan bekerja sebagai tukang ledeng. Apakah mereka perlu memberikan sebagian dari pengiriman uang terkait pipa ledeng kepada blogger yang menulis tentang cara memasang pipa ledeng? Apakah mereka perlu memberikan bayaran kepada vlogger yang membuat video yang menampilkan langkah-langkah memperbaiki bak mandi yang bocor?

Hampir pasti tidak.

Pelatihan data AI generatif hanyalah sarana untuk mengembangkan pola. Selama output dari AI generatif tidak hanya regurgitasi persis apa yang diperiksa, Anda dapat secara persuasif berpendapat bahwa mereka telah "belajar" dan oleh karena itu tidak tunduk pada pemberian kredit khusus apa pun kepada sumber tertentu. Kecuali Anda dapat menangkap AI generatif dalam melakukan regurgitasi yang tepat, indikasinya adalah AI telah menggeneralisasi di luar sumber tertentu.

Tidak ada kredit karena siapa pun. Atau, orang mengira, Anda dapat mengatakan bahwa penghargaan diberikan kepada semua orang. Teks kolektif dan konten manusia lainnya yang ditemukan di Internet mendapat penghargaan. Kita semua mendapatkan kredit. Mencoba menunjukkan kredit ke sumber tertentu tidak masuk akal. Bergembiralah karena AI semakin maju dan semua umat manusia akan mendapat manfaat. Posting-posting di Internet itu seharusnya merasa terhormat bahwa mereka berkontribusi pada kemajuan AI di masa depan dan bagaimana hal ini akan membantu umat manusia untuk selama-lamanya.

Saya akan berbicara lebih banyak tentang kedua pandangan yang kontras itu.

Sementara itu, apakah Anda condong ke kubu yang mengatakan kredit sudah jatuh tempo dan terlambat terlambat bagi mereka yang memiliki situs web di Internet, atau apakah Anda menemukan pihak lawan yang mengatakan bahwa pembuat konten Internet pasti tidak ditipu adalah postur yang lebih meyakinkan?

Sebuah teka-teki dan teka-teki semua macet bersama-sama.

Mari kita bongkar ini.

Di kolom hari ini, saya akan membahas kekhawatiran yang diungkapkan bahwa AI generatif pada dasarnya menjiplak atau mungkin melanggar hak cipta konten yang telah diposting di Internet (dianggap sebagai hak Kekayaan Intelektual atau masalah IP). Kami akan melihat dasar dari keraguan ini. Saya kadang-kadang akan merujuk ke ChatGPT selama diskusi ini karena ini adalah gorila AI generatif seberat 600 pon, meskipun perlu diingat bahwa ada banyak aplikasi AI generatif lainnya dan umumnya didasarkan pada prinsip keseluruhan yang sama.

Sementara itu, Anda mungkin bertanya-tanya apa sebenarnya AI generatif itu.

Pertama-tama mari kita bahas dasar-dasar AI generatif dan kemudian kita bisa melihat lebih dekat pada masalah mendesak yang ada.

Ke semua ini muncul banyak pertimbangan Etika AI dan Hukum AI.

Perlu diketahui bahwa ada upaya berkelanjutan untuk menanamkan prinsip-prinsip Ethical AI ke dalam pengembangan dan penerapan aplikasi AI. Semakin banyak orang yang berkepentingan dan mantan ahli etika AI mencoba memastikan bahwa upaya untuk merancang dan mengadopsi AI mempertimbangkan pandangan untuk melakukan AI For Good dan menghindari AI Untuk Buruk. Demikian juga, ada undang-undang AI baru yang diusulkan yang disebarluaskan sebagai solusi potensial untuk mencegah upaya AI mengamuk pada hak asasi manusia dan sejenisnya. Untuk liputan saya yang berkelanjutan dan ekstensif tentang Etika AI dan Hukum AI, lihat tautannya di sini dan tautannya di sini, Hanya untuk beberapa nama.

Pengembangan dan penyebarluasan ajaran Etika AI sedang diupayakan untuk diharapkan mencegah masyarakat jatuh ke dalam segudang jebakan yang memicu AI. Untuk liputan saya tentang prinsip Etika AI PBB sebagaimana dirancang dan didukung oleh hampir 200 negara melalui upaya UNESCO, lihat tautannya di sini. Dalam nada yang sama, undang-undang AI baru sedang dieksplorasi untuk mencoba dan menjaga AI tetap seimbang. Salah satu take terbaru terdiri dari satu set yang diusulkan RUU Hak AI bahwa Gedung Putih AS baru-baru ini dirilis untuk mengidentifikasi hak asasi manusia di zaman AI, lihat tautannya di sini. Dibutuhkan sebuah desa untuk menjaga AI dan pengembang AI di jalur yang benar dan mencegah upaya curang yang disengaja atau tidak disengaja yang dapat merugikan masyarakat.

Saya akan menggabungkan pertimbangan terkait Etika AI dan Hukum AI ke dalam diskusi ini.

Dasar-dasar AI Generatif

Contoh AI generatif yang paling dikenal luas diwakili oleh aplikasi AI bernama ChatGPT. ChatGPT muncul ke publik pada bulan November ketika dirilis oleh firma riset AI OpenAI. Sejak ChatGPT telah mengumpulkan berita utama yang sangat besar dan secara mengejutkan melebihi ketenaran yang diberikan selama lima belas menit.

Saya menduga Anda mungkin pernah mendengar tentang ChatGPT atau mungkin mengenal seseorang yang telah menggunakannya.

ChatGPT dianggap sebagai aplikasi AI generatif karena mengambil beberapa teks dari pengguna dan kemudian sebagai input menghasilkan atau menghasilkan output yang terdiri dari esai. AI adalah generator teks-ke-teks, meskipun saya menggambarkan AI sebagai generator teks-ke-esai karena itu lebih mudah menjelaskan untuk apa biasanya digunakan. Anda dapat menggunakan AI generatif untuk membuat komposisi yang panjang atau Anda dapat membuatnya untuk memberikan komentar singkat yang bernas. Itu semua atas permintaan Anda.

Yang perlu Anda lakukan hanyalah memasukkan prompt dan aplikasi AI akan membuatkan esai untuk Anda yang mencoba menanggapi prompt Anda. Teks yang disusun akan tampak seolah-olah esai itu ditulis oleh tangan dan pikiran manusia. Jika Anda memasukkan prompt yang mengatakan "Ceritakan tentang Abraham Lincoln", AI generatif akan memberi Anda esai tentang Lincoln. Ada mode AI generatif lainnya, seperti teks-ke-seni dan teks-ke-video. Saya akan berfokus di sini pada variasi teks-ke-teks.

Pikiran pertama Anda mungkin adalah bahwa kemampuan generatif ini tampaknya bukan masalah besar dalam hal menghasilkan esai. Anda dapat dengan mudah melakukan pencarian online di Internet dan dengan mudah menemukan berton-ton esai tentang Presiden Lincoln. Kicker dalam kasus AI generatif adalah bahwa esai yang dihasilkan relatif unik dan memberikan komposisi asli daripada peniru. Jika Anda mencoba dan menemukan esai yang diproduksi oleh AI secara online di suatu tempat, kemungkinan besar Anda tidak akan menemukannya.

AI generatif telah dilatih sebelumnya dan menggunakan formulasi matematis dan komputasi yang rumit yang telah disiapkan dengan memeriksa pola dalam kata-kata dan cerita tertulis di seluruh web. Sebagai hasil dari pemeriksaan ribuan dan jutaan bagian tertulis, AI dapat memuntahkan esai dan cerita baru yang merupakan campuran dari apa yang ditemukan. Dengan menambahkan berbagai fungsionalitas probabilistik, teks yang dihasilkan cukup unik dibandingkan dengan apa yang telah digunakan dalam set pelatihan.

Ada banyak kekhawatiran tentang AI generatif.

Satu kelemahan penting adalah bahwa esai yang dihasilkan oleh aplikasi AI berbasis generatif dapat memiliki berbagai kebohongan yang disematkan, termasuk fakta yang nyata-nyata tidak benar, fakta yang digambarkan secara menyesatkan, dan fakta nyata yang seluruhnya dibuat-buat. Aspek fabrikasi tersebut sering disebut sebagai bentuk dari halusinasi AI, sebuah slogan yang tidak saya sukai tetapi sayangnya tampaknya mendapatkan daya tarik yang populer (untuk penjelasan terperinci saya tentang mengapa ini adalah terminologi yang buruk dan tidak sesuai, lihat liputan saya di tautannya di sini).

Kekhawatiran lain adalah bahwa manusia dapat dengan mudah mengambil pujian untuk esai yang diproduksi oleh AI generatif, meskipun esai itu sendiri tidak dibuat. Anda mungkin pernah mendengar bahwa guru dan sekolah cukup khawatir dengan munculnya aplikasi AI generatif. Siswa berpotensi menggunakan AI generatif untuk menulis esai yang ditugaskan kepada mereka. Jika seorang siswa mengklaim bahwa sebuah esai ditulis dengan tangan mereka sendiri, kecil kemungkinan guru tersebut dapat membedakan apakah itu dipalsukan oleh AI generatif. Untuk analisis saya tentang aspek pembaur siswa dan guru ini, lihat liputan saya di tautannya di sini dan tautannya di sini.

Ada beberapa klaim yang terlalu besar di media sosial tentang AI generatif menegaskan bahwa AI versi terbaru ini sebenarnya AI yang hidup (tidak, mereka salah!). Mereka yang berada di Etika AI dan Hukum AI sangat khawatir dengan tren klaim yang berkembang pesat ini. Anda mungkin dengan sopan mengatakan bahwa beberapa orang melebih-lebihkan apa yang sebenarnya dapat dilakukan AI saat ini. Mereka beranggapan bahwa AI memiliki kemampuan yang belum bisa kita capai. Itu sangat disayangkan. Lebih buruk lagi, mereka dapat membiarkan diri mereka sendiri dan orang lain masuk ke situasi yang mengerikan karena asumsi bahwa AI akan memiliki perasaan atau seperti manusia untuk dapat mengambil tindakan.

Jangan melakukan antropomorfisasi AI.

Melakukan hal itu akan membuat Anda terjebak dalam perangkap ketergantungan yang lengket dan masam untuk mengharapkan AI melakukan hal-hal yang tidak dapat dilakukannya. Dengan demikian, AI generatif terbaru relatif mengesankan untuk apa yang dapat dilakukannya. Perlu diketahui bahwa ada batasan signifikan yang harus selalu Anda ingat saat menggunakan aplikasi AI generatif apa pun.

Satu peringatan terakhir untuk saat ini.

Apa pun yang Anda lihat atau baca dalam respons AI generatif itu tampaknya untuk disampaikan sebagai faktual murni (tanggal, tempat, orang, dll.), pastikan untuk tetap skeptis dan bersedia memeriksa ulang apa yang Anda lihat.

Ya, tanggal bisa diramu, tempat bisa dibuat-buat, dan elemen yang biasanya kita harapkan tidak tercela adalah semua tunduk pada kecurigaan. Jangan percaya apa yang Anda baca dan awasi dengan skeptis saat memeriksa esai atau keluaran AI generatif apa pun. Jika aplikasi AI generatif memberi tahu Anda bahwa Abraham Lincoln terbang ke seluruh negeri dengan jet pribadinya, Anda pasti akan tahu bahwa ini berbahaya. Sayangnya, beberapa orang mungkin tidak menyadari bahwa jet tidak ada pada zamannya, atau mereka mungkin tahu tetapi tidak menyadari bahwa esai tersebut membuat klaim yang kurang ajar dan sangat salah ini.

Dosis skeptisisme sehat yang kuat dan pola pikir ketidakpercayaan yang terus-menerus akan menjadi aset terbaik Anda saat menggunakan AI generatif.

Kami siap untuk melangkah ke tahap selanjutnya dari penjelasan ini.

Internet Dan AI Generatif Bersama Ini

Sekarang setelah Anda memiliki kemiripan tentang apa itu AI generatif, kita dapat menjelajahi pertanyaan yang menjengkelkan tentang apakah AI generatif "memanfaatkan" secara adil atau tidak adil, atau beberapa orang akan mengatakannya terang-terangan mengeksploitasi konten internet.

Inilah empat topik penting saya yang berkaitan dengan masalah ini:

  • 1) Masalah Ganda: Plagiarisme Dan Pelanggaran Hak Cipta
  • 2) Mencoba Membuktikan Plagiarisme Atau Pelanggaran Hak Cipta Akan Mencoba
  • 3) Membuat Kasus Plagiarisme Atau Pelanggaran Hak Cipta
  • 4) Ranjau Darat Resmi Menunggu

Saya akan membahas masing-masing topik penting ini dan memberikan pertimbangan mendalam yang harus kita renungkan dengan penuh perhatian. Masing-masing topik ini merupakan bagian integral dari teka-teki yang lebih besar. Anda tidak dapat melihat hanya satu bagian. Anda juga tidak dapat melihat bagian mana pun secara terpisah dari bagian lainnya.

Ini adalah mozaik yang rumit dan seluruh teka-teki harus diberikan pertimbangan harmonis yang tepat.

Masalah Ganda: Plagiarisme Dan Pelanggaran Hak Cipta

Masalah ganda yang dihadapi mereka yang membuat dan menerjunkan AI generatif adalah bahwa barang dagangan mereka mungkin melakukan dua hal buruk:

  • 1) Plagiarisme. AI generatif dapat diartikan sebagai menjiplak konten yang ada di Internet sesuai dengan pemindaian Internet yang dilakukan selama pelatihan data AI.
  • 2) Pelanggaran Hak Cipta. AI generatif dapat diklaim sebagai usaha pelanggaran hak cipta terkait dengan konten Internet yang dipindai selama pelatihan data.

Untuk memperjelas, ada lebih banyak konten di Internet daripada yang biasanya dipindai untuk pelatihan data AI generatif. Hanya sebagian kecil dari Internet yang biasanya digunakan. Jadi, kita mungkin dapat berasumsi bahwa konten apa pun yang tidak dipindai selama pelatihan data tidak memiliki daging sapi tertentu dengan AI generatif.

Ini agak bisa diperdebatkan karena Anda berpotensi menarik garis yang menghubungkan konten lain yang dipindai dengan konten yang tidak dipindai. Selain itu, ketentuan penting lainnya adalah bahwa meskipun ada konten yang tidak dipindai, konten tersebut masih dapat dikatakan sebagai plagiat dan/atau pelanggaran hak cipta jika keluaran AI generatif mungkin mendarat di kata-kata yang sama. Maksud saya adalah bahwa ada banyak squishiness dalam semua ini.

Intinya: AI generatif penuh dengan potensi teka-teki hukum Etika AI dan Hukum AI terkait dengan plagiarisme dan pelanggaran hak cipta mendukung praktik pelatihan data yang berlaku.

Sejauh ini, pembuat AI dan peneliti AI telah melewati ini dengan cukup bebas dari hukuman, meskipun ada pedang yang menggantung dan berbahaya yang menggantung di atas mereka. Hanya beberapa tuntutan hukum yang sampai saat ini diluncurkan terhadap praktik-praktik ini. Anda mungkin pernah mendengar atau melihat artikel berita tentang tindakan hukum tersebut. Salah satunya, misalnya, melibatkan firma text-to-image dari Midjourney dan Stability AI karena melanggar konten artistik yang diposting di Internet. Yang lain memerlukan pelanggaran teks-ke-kode terhadap GitHub, Microsoft, dan OpenAI karena perangkat lunak Copilot yang memproduksi aplikasi AI. Getty Images juga bertujuan mengejar Stability AI untuk pelanggaran teks-ke-gambar.

Anda dapat mengantisipasi bahwa lebih banyak tuntutan hukum seperti itu akan diajukan.

Saat ini, sedikit peluang untuk meluncurkan tuntutan hukum tersebut karena hasilnya relatif tidak diketahui. Akankah pengadilan berpihak pada pembuat AI atau akankah mereka yang percaya konten mereka dieksploitasi secara tidak adil akan menjadi pemenang? Pertarungan hukum yang mahal selalu menjadi masalah serius. Menghabiskan biaya hukum berskala besar harus ditimbang dengan kemungkinan menang atau kalah.

Pembuat AI tampaknya hampir tidak punya pilihan selain melakukan perlawanan. Jika mereka menyerah, bahkan sedikit, kemungkinan besar akan terjadi semburan tuntutan hukum tambahan (pada dasarnya, membuka pintu untuk peluang yang lebih tinggi dari orang lain yang menang juga). Begitu ada darah legal di dalam air, hiu legal yang tersisa akan bergegas ke "skor mudah" yang dianggap "skor mudah" dan pertumpahan darah moneter yang meronta-ronta pasti akan terjadi.

Beberapa percaya bahwa kita harus mengesahkan undang-undang AI baru yang akan melindungi pembuat AI. Perlindungan bahkan mungkin berlaku surut. Dasar untuk ini adalah bahwa jika kita ingin melihat kemajuan AI yang generatif, kita harus memberikan landasan zona aman kepada pembuat AI. Setelah tuntutan hukum mulai mencetak kemenangan terhadap pembuat AI, jika itu terjadi (kami belum tahu), kekhawatirannya adalah AI generatif akan menguap karena tidak ada yang mau memberikan dukungan apa pun kepada perusahaan AI.

Seperti yang ditunjukkan dalam artikel Hukum Bloomberg baru-baru ini yang berjudul “ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI” oleh Dr. Ilia Kolochenko dan Gordon Platt, Bloomberg Law, Februari 2023, berikut adalah dua kutipan penting yang menggemakan sudut pandang ini:

  • “Perdebatan sengit sekarang berkecamuk di antara sarjana hukum AS dan profesor hukum IP tentang apakah pengikisan yang tidak sah dan penggunaan selanjutnya dari data berhak cipta merupakan pelanggaran hak cipta. Jika pandangan praktisi hukum yang melihat pelanggaran hak cipta dalam praktik tersebut berlaku, pengguna sistem AI tersebut juga dapat bertanggung jawab atas pelanggaran sekunder dan berpotensi menghadapi konsekuensi hukum.”
  • “Untuk mengatasi tantangan secara komprehensif, pembuat undang-undang harus mempertimbangkan tidak hanya memodernisasi undang-undang hak cipta yang ada, tetapi juga menerapkan serangkaian undang-undang dan peraturan khusus AI.”

Ingatlah bahwa sebagai masyarakat kita memang memberikan perlindungan hukum untuk perluasan dari Internet, seperti yang disaksikan sekarang oleh Mahkamah Agung yang meninjau Bagian 230 yang terkenal atau terkenal. Dengan demikian, tampaknya masuk akal dan preseden bahwa kami mungkin bersedia melakukan beberapa perlindungan serupa untuk kemajuan AI generatif. Mungkin perlindungan dapat diatur sementara, berakhir setelah AI generatif mencapai tingkat kemahiran yang telah ditentukan sebelumnya. Ketentuan perlindungan lainnya dapat dibuat.

Saya akan segera memposting analisis saya tentang bagaimana penilaian Mahkamah Agung dan putusan akhir pada Bagian 230 dapat memengaruhi munculnya AI generatif. Nantikan postingan yang akan datang!

Kembali ke pendapat yang disuarakan dengan keras bahwa kita harus memberikan kelonggaran untuk inovasi teknologi yang menakjubkan yang dikenal sebagai AI generatif. Beberapa orang akan mengatakan bahwa meskipun pelanggaran hak cipta yang diklaim telah atau sedang terjadi, masyarakat secara keseluruhan harus bersedia mengizinkan ini untuk tujuan khusus memajukan AI generatif.

Harapannya adalah undang-undang AI yang baru akan dibuat dengan hati-hati dan disesuaikan dengan hal-hal khusus yang terkait dengan pelatihan data untuk AI generatif.

Ada banyak argumen tandingan terhadap gagasan merancang undang-undang AI baru untuk tujuan ini. Satu kekhawatiran adalah bahwa undang-undang AI baru seperti itu akan membuka pintu air untuk segala macam pelanggaran hak cipta. Kami akan menyesali hari ketika kami mengizinkan undang-undang AI baru seperti itu mendarat di buku. Tidak peduli seberapa keras Anda mencoba untuk membatasi ini hanya untuk pelatihan data AI, orang lain akan secara diam-diam atau dengan cerdik menemukan celah yang akan menjadi pelanggaran hak cipta yang tidak terkendali dan merajalela.

Berputar-putar argumen pergi.

Satu argumen yang tidak terlalu penting berkaitan dengan mencoba menuntut AI itu sendiri. Perhatikan bahwa saya telah mengacu pada pembuat AI atau peneliti AI sebagai pemangku kepentingan yang bersalah. Ini adalah orang dan perusahaan. Beberapa menyarankan agar kita menargetkan AI sebagai pihak yang akan digugat. Saya telah membahas panjang lebar di kolom saya bahwa kami belum mengaitkan identitas hukum dengan AI, lihat tautannya di sini misalnya, dan dengan demikian tuntutan hukum yang ditujukan pada AI itu sendiri akan dianggap tidak masuk akal saat ini.

Sebagai tambahan dari pertanyaan tentang siapa atau apa yang harus digugat, ini memunculkan topik menarik lainnya.

Asumsikan bahwa aplikasi AI generatif tertentu dibuat oleh beberapa pembuat AI yang akan kita sebut Perusahaan Widget. Perusahaan Widget berukuran relatif kecil dan tidak memiliki banyak pendapatan, juga tidak banyak aset. Menuntut mereka kemungkinan besar tidak akan mengumpulkan kekayaan besar yang mungkin dicari seseorang. Paling-paling, Anda hanya akan merasa puas dengan meluruskan apa yang Anda anggap salah.

Anda ingin mengejar ikan besar.

Berikut adalah bagaimana hal itu akan muncul. Pembuat AI memilih untuk membuat AI generatif mereka tersedia untuk Big Time Company, konglomerat besar dengan banyak adonan dan banyak aset. Gugatan penamaan Widget Company kini akan memiliki target yang lebih baik, yaitu juga dengan penamaan Big Time Company. Ini adalah pertarungan David dan Goliath yang akan disukai para pengacara. Tentu saja, Big Time Company pasti akan mencoba melepaskan kailnya. Apakah mereka dapat melakukannya sekali lagi merupakan pertanyaan hukum yang tidak pasti, dan mereka mungkin akan terperosok ke dalam kotoran.

Sebelum kita melangkah lebih jauh tentang ini, saya ingin mendapatkan sesuatu yang penting di atas meja tentang perambahan AI generatif yang diperdebatkan karena pelatihan data. Saya yakin Anda secara intuitif menyadari bahwa plagiarisme dan pelanggaran hak cipta adalah dua hal yang agak berbeda. Mereka memiliki banyak kesamaan, meskipun mereka juga berbeda secara signifikan.

Berikut deskripsi ringkas dari Duke University yang menjelaskan keduanya:

  • “Plagiarisme paling baik didefinisikan sebagai penggunaan karya orang lain tanpa diakui. Ini adalah masalah etika yang melibatkan klaim kredit untuk pekerjaan yang tidak dibuat oleh penggugat. Seseorang dapat menjiplak karya orang lain terlepas dari status hak cipta dari karya tersebut. Misalnya, tetap saja plagiarisme untuk menyalin dari buku atau artikel yang sudah terlalu tua untuk tetap berada di bawah hak cipta. Ini juga plagiarisme untuk menggunakan data yang diambil dari sumber yang tidak diakui, meskipun materi faktual seperti data mungkin tidak dilindungi oleh hak cipta. Plagiarisme, bagaimanapun, mudah disembuhkan - kutipan yang tepat ke sumber asli materi.
  • “Pelanggaran hak cipta, di sisi lain, adalah penggunaan karya orang lain secara tidak sah. Ini adalah masalah hukum yang bergantung pada apakah karya tersebut dilindungi oleh hak cipta atau tidak, serta pada hal-hal spesifik seperti berapa banyak yang digunakan dan tujuan penggunaannya. Jika seseorang menyalin terlalu banyak karya yang dilindungi, atau menyalin untuk tujuan yang tidak sah, mengakui sumber asli saja tidak akan menyelesaikan masalah. Hanya dengan meminta izin terlebih dahulu dari pemegang hak cipta seseorang dapat menghindari risiko tuntutan pelanggaran.”

Saya menunjukkan pentingnya kedua masalah ini sehingga Anda akan menyadari bahwa solusinya dapat berbeda. Selain itu, keduanya terjerat dalam pertimbangan yang mencakup Etika AI dan Hukum AI, menjadikannya sama-sama bermanfaat untuk diperiksa.

Mari jelajahi obat atau solusi yang diklaim. Anda akan melihat bahwa itu mungkin membantu salah satu masalah masalah ganda, tetapi tidak yang lain.

Beberapa bersikeras bahwa yang harus dilakukan oleh pembuat AI hanyalah mengutip sumber mereka. Saat AI generatif menghasilkan esai, cukup sertakan kutipan spesifik untuk apa pun yang disebutkan dalam esai. Berikan berbagai URL dan indikasi lain tentang konten Internet mana yang digunakan. Ini tampaknya membuat mereka bebas dari keraguan tentang plagiarisme. Esai keluaran mungkin akan dengan jelas mengidentifikasi sumber apa yang digunakan untuk kata-kata yang diproduksi.

Ada beberapa pertengkaran dalam solusi yang diklaim itu, tetapi pada ketinggian 30,000 kaki katakanlah itu berfungsi sebagai obat semi-memuaskan untuk dilema plagiarisme. Sebagaimana disebutkan di atas dalam penjelasan pelanggaran hak cipta, mengutip materi sumber tidak serta merta membuat Anda keluar dari rumah anjing. Dengan asumsi bahwa konten tersebut memiliki hak cipta, dan bergantung pada faktor lain seperti seberapa banyak materi yang digunakan, pedang pelanggaran hak cipta yang menunggu dapat berayun tajam dan pasti.

Masalah ganda adalah semboyan di sini.

Mencoba Membuktikan Plagiarisme Atau Pelanggaran Hak Cipta Akan Mencoba

Buktikan itu!

Itu adalah refrein usang yang kita semua pernah dengar di berbagai waktu dalam hidup kita.

Anda tahu bagaimana kelanjutannya. Anda mungkin mengklaim bahwa sesuatu sedang terjadi atau telah terjadi. Anda mungkin tahu di lubuk hati Anda bahwa ini telah terjadi. Tapi ketika datang ke push-versus-dorong, Anda harus memiliki buktinya.

Dalam bahasa hari ini, Anda perlu menunjukkan penerimaan, seperti yang mereka katakan.

Pertanyaan saya untuk Anda adalah ini: Bagaimana kita akan membuktikan secara nyata bahwa AI generatif telah mengeksploitasi konten Internet secara tidak tepat?

Orang mengira bahwa jawabannya harus mudah. Anda meminta atau memberi tahu AI generatif untuk menghasilkan esai keluaran. Anda kemudian mengambil esai dan membandingkannya dengan apa yang dapat ditemukan di Internet. Jika Anda menemukan esainya, bam, AI generatif Anda terpaku di dinding pepatah.

Hidup sepertinya tidak pernah semudah ini.

Bayangkan kita mendapatkan AI generatif untuk menghasilkan esai yang berisi sekitar 100 kata. Kami berkeliling dan mencoba menjangkau semua sudut dan sudut Internet, mencari 100 kata itu. Jika kami menemukan 100 kata, yang ditampilkan dalam urutan yang persis sama dan dengan cara yang identik, kami tampaknya menemukan kata yang menarik.

Misalkan kita menemukan di Internet sebuah esai yang tampaknya "sebanding" meskipun hanya cocok dengan 80 dari 100 kata. Ini sepertinya masih cukup, mungkin. Tapi bayangkan kita hanya menemukan contoh 10 kata dari 100 kata yang cocok. Apakah itu cukup untuk menyatakan bahwa telah terjadi plagiarisme atau telah terjadi pelanggaran hak cipta?

Kelabu ada.

Teks lucu seperti itu.

Bandingkan ini dengan keadaan teks-ke-gambar atau teks-ke-seni. Saat AI generatif menyediakan kemampuan teks-ke-gambar atau teks-ke-seni, Anda memasukkan perintah teks dan aplikasi AI menghasilkan gambar berdasarkan perintah yang Anda berikan. Gambar tersebut mungkin tidak seperti gambar yang pernah dilihat di planet ini atau planet lain mana pun.

Di sisi lain, gambar tersebut mungkin mengingatkan pada gambar lain yang memang ada. Kita dapat melihat gambar yang dihasilkan AI secara generatif dan dengan insting mengatakan bahwa itu pasti terlihat seperti beberapa gambar lain yang telah kita lihat sebelumnya. Umumnya, visual aspek perbandingan dan kontras sedikit lebih mudah dilakukan. Karena itu, ketahuilah bahwa perdebatan hukum yang besar memastikan apa yang merupakan tumpang tindih atau replikasi dari satu gambar dari yang lain.

Situasi serupa lainnya ada dengan musik. Ada aplikasi AI generatif yang memungkinkan Anda memasukkan perintah teks dan output yang dihasilkan oleh AI adalah musik audio. Kemampuan AI text-to-audio atau text-to-music ini baru saja mulai muncul. Satu hal yang dapat Anda pertaruhkan dengan uang tertinggi Anda adalah bahwa musik yang dihasilkan oleh AI generatif akan sangat diteliti karena pelanggaran. Kami sepertinya tahu ketika kami mendengar pelanggaran musik, meskipun sekali lagi ini adalah masalah hukum yang kompleks yang tidak hanya didasarkan pada perasaan kami tentang replikasi yang dirasakan.

Izinkan saya satu contoh lagi.

Text-to-code generatif AI memberi Anda kemampuan untuk memasukkan prompt teks dan AI akan menghasilkan kode pemrograman untuk Anda. Anda kemudian dapat menggunakan kode ini untuk menyiapkan program komputer. Anda mungkin menggunakan kode persis seperti yang dihasilkan, atau Anda dapat memilih untuk mengedit dan menyesuaikan kode agar sesuai dengan kebutuhan Anda. Ada juga kebutuhan untuk memastikan bahwa kode itu tepat dan dapat diterapkan karena ada kemungkinan kesalahan dan kepalsuan dapat muncul dalam kode yang dihasilkan.

Asumsi pertama Anda mungkin bahwa kode pemrograman tidak berbeda dengan teks. Itu hanya teks. Tentu, itu adalah teks yang memberikan tujuan tertentu, tetapi tetaplah teks.

Yah, tidak persis. Sebagian besar bahasa pemrograman memiliki format dan struktur yang ketat sesuai dengan sifat pernyataan pengkodean bahasa tersebut. Ini dalam arti jauh lebih sempit daripada bahasa alami yang mengalir bebas. Anda agak terkotak-kotak tentang bagaimana pernyataan pengkodean dirumuskan. Demikian juga, urutan dan cara pernyataan digunakan dan disusun agak kotak.

Secara keseluruhan, kemungkinan untuk menunjukkan bahwa kode pemrograman telah dijiplak atau dilanggar hampir lebih mudah daripada semua bahasa alami. Jadi, ketika AI generatif pergi untuk memindai kode pemrograman di Internet dan kemudian menghasilkan kode pemrograman, kemungkinan untuk menyatakan bahwa kode tersebut direplikasi secara terang-terangan akan relatif lebih meyakinkan. Bukan slam dunk, jadi perkirakan pertempuran sengit akan terjadi dalam hal ini.

Poin utama saya adalah bahwa kita akan memiliki masalah Etika AI dan Hukum AI yang sama yang menghadapi semua mode AI generatif.

Plagiarisme dan pelanggaran hak cipta akan bermasalah untuk:

  • Teks-ke-teks atau teks-ke-esai
  • Teks-ke-gambar atau teks-ke-seni
  • Teks-ke-audio atau teks-ke-musik
  • Teks-ke-video
  • Teks-ke-kode
  • Dan lain-lain

Mereka semua tunduk pada keprihatinan yang sama. Beberapa mungkin sedikit lebih mudah untuk "dibuktikan" daripada yang lain. Semuanya akan memiliki ragam mimpi buruk mereka sendiri tentang landasan Etika AI dan Hukum AI.

Membuat Kasus Plagiarisme Atau Pelanggaran Hak Cipta

Untuk tujuan diskusi, mari fokus pada AI generatif teks-ke-teks atau teks-ke-esai. Saya melakukannya sebagian karena popularitas ChatGPT yang luar biasa, yang merupakan jenis teks-ke-teks dari AI generatif. Ada banyak orang yang menggunakan ChatGPT, bersama dengan banyak orang lainnya yang menggunakan berbagai aplikasi AI generatif teks-ke-teks yang serupa.

Apakah orang-orang yang menggunakan aplikasi AI generatif tahu bahwa mereka berpotensi mengandalkan plagiarisme atau pelanggaran hak cipta?

Tampaknya diragukan mereka melakukannya.

Saya berani mengatakan bahwa asumsi yang berlaku adalah bahwa jika aplikasi AI generatif tersedia untuk digunakan, pembuat AI atau perusahaan yang telah menerjunkan AI harus mengetahui atau yakin bahwa tidak ada yang tidak diinginkan tentang barang yang mereka tawarkan untuk digunakan. Jika Anda dapat menggunakannya, itu harus di atas papan.

Mari tinjau kembali komentar saya sebelumnya tentang bagaimana kita akan mencoba dan membuktikan bahwa AI generatif tertentu bekerja atas dasar yang salah terkait pelatihan data.

Saya juga dapat menambahkan bahwa jika kita dapat menangkap satu AI generatif yang melakukannya, kemungkinan untuk menangkap yang lain kemungkinan besar akan meningkat. Saya tidak mengatakan bahwa semua aplikasi AI generatif akan berada di kapal yang sama. Tapi mereka akan menemukan diri mereka di lautan yang agak keras begitu salah satu dari mereka terjepit di dinding.

Itu sebabnya juga akan sangat bermanfaat untuk mengawasi tuntutan hukum yang ada. Yang pertama yang menang atas pelanggaran yang diklaim, jika ini terjadi, mungkin akan mengeja malapetaka dan kesuraman untuk aplikasi AI generatif lainnya, kecuali beberapa kesempitan lolos dari masalah yang lebih luas. Mereka yang kalah dalam klaim pelanggaran tidak berarti bahwa aplikasi AI generatif dapat membunyikan lonceng dan merayakannya. Bisa jadi kerugian tersebut dikaitkan dengan faktor lain yang tidak relevan dengan aplikasi AI generatif lainnya, dan seterusnya.

Saya telah menyebutkan bahwa jika kita mengambil esai 100 kata dan mencoba menemukan kata-kata yang tepat itu dalam urutan yang sama persis di Internet, kita mungkin memiliki kasus plagiarisme atau pelanggaran hak cipta yang relatif solid, semuanya setara. Tetapi jika jumlah kata yang cocok sedikit, kita tampaknya berada di es tipis.

Saya ingin menggali lebih dalam tentang itu.

Aspek yang jelas dalam membuat perbandingan terdiri dari kata-kata yang persis sama dalam urutan yang sama persis. Ini mungkin terjadi untuk seluruh bagian. Ini akan mudah dikenali, hampir seperti diserahkan kepada kita di atas piring perak.

Kita juga mungkin akan curiga jika hanya potongan kata yang cocok. Idenya adalah untuk melihat apakah itu kata-kata penting atau mungkin kata-kata pengisi yang dapat dengan mudah kita hapus atau abaikan. Kami juga tidak ingin tertipu oleh penggunaan kata-kata dalam bentuk lampau atau mendatang, atau kebodohan lainnya. Variasi kata-kata itu juga harus dipertimbangkan.

Tingkat perbandingan lainnya adalah ketika kata-kata itu bukan kata-kata yang sama untuk sebagian besar, namun kata-kata itu bahkan dalam keadaan bervariasi tampaknya masih menunjukkan poin yang sama. Misalnya, ringkasan sering menggunakan kata-kata yang sangat mirip sebagai sumber aslinya, tetapi kita dapat melihat bahwa ringkasan tersebut tampaknya didasarkan pada sumber aslinya.

Tingkat perbandingan yang paling sulit akan didasarkan pada konsep atau ide. Misalkan kita melihat esai yang tidak memiliki kata yang sama atau mirip sebagai dasar perbandingan, tetapi esensi atau gagasannya sama. Kami diakui merayap ke wilayah yang sulit. Jika kita dengan mudah mengatakan ide-ide dilindungi dengan ketat, kita akan menutup hampir semua bentuk pengetahuan dan perluasan pengetahuan.

Kami sekali lagi dapat merujuk pada penjelasan praktis dari Duke University:

  • “Hak cipta tidak melindungi ide, hanya ekspresi spesifik dari sebuah ide. Misalnya, pengadilan memutuskan bahwa Dan Brown tidak melanggar hak cipta buku sebelumnya ketika dia menulis The Da Vinci Code karena yang dia pinjam dari karya sebelumnya hanyalah ide dasar, bukan kekhususan plot atau dialog. Karena hak cipta dimaksudkan untuk mendorong produksi kreatif, menggunakan ide orang lain untuk membuat karya baru dan orisinal menjunjung tinggi tujuan hak cipta, tidak melanggarnya. Hanya jika seseorang menyalin ekspresi orang lain tanpa izin, hak cipta berpotensi dilanggar.”
  • “Sebaliknya, untuk menghindari plagiarisme, seseorang harus mengakui sumber bahkan ide-ide yang dipinjam dari orang lain, terlepas dari apakah ekspresi ide-ide itu dipinjam dari mereka. Jadi, sebuah parafrase memerlukan kutipan, meskipun jarang menimbulkan masalah hak cipta.”

Harap dicatat seperti sebelumnya mengidentifikasi perbedaan antara aspek masalah ganda.

Nah, mempraktikkan pendekatan perbandingan adalah sesuatu yang telah terjadi selama bertahun-tahun. Pikirkan seperti ini. Siswa yang menulis esai untuk tugas sekolah mereka mungkin tergoda untuk mengambil konten dari Internet dan berpura-pura menulis kata-kata pemenang Hadiah Pulitzer kelas A.

Guru telah menggunakan program pemeriksaan plagiarisme sejak lama untuk mengatasi hal ini. Seorang guru mengambil esai siswa dan memasukkannya ke dalam pemeriksa plagiarisme. Dalam beberapa kasus, seluruh sekolah akan melisensikan penggunaan program pemeriksaan plagiarisme. Setiap kali siswa menyerahkan esai, mereka harus terlebih dahulu mengirim esai ke program pemeriksaan plagiarisme. Guru diinformasikan tentang apa yang dilaporkan oleh program.

Sayangnya, Anda harus sangat berhati-hati tentang apa yang dikatakan program pemeriksa plagiarisme ini. Penting untuk secara hati-hati menilai apakah indikasi yang dilaporkan valid. Seperti yang telah disebutkan, kemampuan untuk memastikan apakah suatu karya telah disalin dapat menjadi kabur. Jika Anda tanpa pikir panjang menerima hasil dari program pengecekan, Anda dapat secara salah menuduh seorang siswa menyalin ketika mereka tidak melakukannya. Ini bisa menghancurkan jiwa.

Selanjutnya, kita dapat mencoba menggunakan program pemeriksaan plagiarisme di ranah pengujian keluaran AI generatif. Perlakukan esai yang dihasilkan dari aplikasi AI generatif seolah-olah ditulis oleh seorang siswa. Kami kemudian mengukur apa yang dikatakan pemeriksa plagiarisme. Ini dilakukan dengan sebutir garam.

Ada studi penelitian baru-baru ini yang mencoba mengoperasionalkan jenis perbandingan ini dalam konteks AI generatif dengan cara yang sama. Saya ingin membahas beberapa temuan menarik dengan Anda.

Pertama, diperlukan beberapa latar belakang tambahan. AI generatif terkadang disebut sebagai LLM (model bahasa besar) atau hanya LM (model bahasa). Kedua, ChatGPT didasarkan pada versi paket AI generatif OpenAI lain yang disebut GPT-3.5. Sebelum GPT-3.5 ada GPT-3, dan sebelumnya ada GPT-2. Saat ini, GPT-2 dianggap agak primitif dibandingkan dengan seri selanjutnya, dan kami semua sangat menantikan peluncuran GPT-4 yang akan datang, lihat diskusi saya di tautannya di sini.

Studi penelitian yang ingin saya jelajahi secara singkat terdiri dari pemeriksaan GPT-2. Itu penting untuk disadari karena kita sekarang jauh melampaui kemampuan GPT-2. Jangan membuat kesimpulan gegabah mengenai hasil analisis GPT-2 ini. Meskipun demikian, kita dapat belajar banyak dari penilaian GPT-2. Penelitian tersebut berjudul “Do Language Models Plagiarize?” oleh Jooyoung Lee, Thai Le, Jinghui Chen, dan Dongwon Lee, tampil di ACM WWW '23, 1–5 Mei 2023, Austin, TX, AS.

Ini adalah pertanyaan penelitian utama mereka:

  • “Sejauh mana (tidak terbatas pada hafalan) LM mengeksploitasi frasa atau kalimat dari sampel pelatihan mereka?”

Mereka menggunakan tiga tingkat atau kategori plagiarisme potensial ini:

  • “Plagiarisme verbatim: Salinan tepat dari kata atau frasa tanpa transformasi.”
  • “Plagiarisme parafrase: Penggantian sinonim, penyusunan ulang kata, dan/atau terjemahan balik.”
  • “Plagiarisme ide: Representasi konten inti dalam bentuk memanjang.”

GPT-2 memang dilatih pada data Internet dan karenanya merupakan kandidat yang cocok untuk jenis analisis ini:

  • “GPT-2 dilatih sebelumnya di WebText, berisi lebih dari 8 juta dokumen yang diambil dari 45 juta tautan Reddit. Karena OpenAI belum merilis WebText secara publik, kami menggunakan OpenWebText yang merupakan rekreasi sumber terbuka dari korpus WebText. Ini telah digunakan dengan andal oleh literatur sebelumnya.

Temuan kunci selektif yang disarikan dari penelitian terdiri dari:

  • “Kami menemukan bahwa keluarga GPT-2 terlatih melakukan plagiat dari OpenWebText.”
  • “Temuan kami menunjukkan bahwa penyempurnaan secara signifikan mengurangi kasus plagiarisme verbatim dari OpenWebText.”
  • “Konsisten dengan Carlini dkk. dan Carlini et al., kami menemukan bahwa model GPT-2 yang lebih besar (besar dan xl) umumnya lebih sering menghasilkan urutan yang dijiplak daripada yang lebih kecil.”
  • “Namun, LM yang berbeda dapat menunjukkan pola plagiarisme yang berbeda, dan dengan demikian hasil kami mungkin tidak secara langsung digeneralisasikan ke LM lain, termasuk LM yang lebih baru seperti GPT-3 atau BLOOM.”
  • “Selain itu, pendeteksi plagiarisme otomatis diketahui memiliki banyak mode kegagalan (baik false negative maupun false positive).
  • “Mengingat bahwa sebagian besar data pelatihan LM diambil dari Web tanpa memberi tahu pemilik konten, pengulangan kata, frasa, dan bahkan ide inti dari rangkaian pelatihan menjadi teks yang dihasilkan memiliki implikasi etis.”

Kami pasti membutuhkan lebih banyak studi semacam ini.

Jika Anda penasaran tentang bagaimana GPT-2 dibandingkan dengan GPT-3 dalam hal pelatihan data, terdapat perbedaan yang cukup mencolok.

Menurut indikasi yang dilaporkan, pelatihan data untuk GPT-3 jauh lebih ekstensif:

  • “Model dilatih menggunakan database teks dari internet. Ini termasuk data sebesar 570GB yang diperoleh dari buku, teks web, Wikipedia, artikel, dan tulisan lain di internet. Lebih tepatnya, 300 miliar kata dimasukkan ke dalam sistem” (Fokus Sains BBC majalah, “ChatGPT: Semua yang perlu Anda ketahui tentang alat GPT-3 OpenAI” oleh Alex Hughes, Februari 2023).

Bagi Anda yang tertarik dengan deskripsi lebih mendalam tentang pelatihan data untuk GPT-3, berikut kutipan dari Kartu Model GPT-3 resmi yang diposting di GitHub (tanggal pembaruan terakhir tercantum pada September 2020):

  • “Dataset pelatihan GPT-3 terdiri dari teks yang diposting ke internet, atau teks yang diunggah ke internet (misalnya, buku). Data internet yang telah dilatih dan dievaluasi hingga saat ini mencakup: (1) versi kumpulan data CommonCrawl, yang difilter berdasarkan kesamaan dengan kumpulan referensi berkualitas tinggi, (2) versi yang diperluas dari kumpulan data Teks Web, (3 ) dua kumpulan buku berbasis internet, dan (4) Wikipedia bahasa Inggris.”
  • “Mengingat data pelatihannya, keluaran dan kinerja GPT-3 lebih mewakili populasi yang terhubung ke internet daripada populasi yang mendalami budaya verbal dan non-digital. Populasi yang terhubung ke internet lebih mewakili negara maju, pandangan kaya, muda, dan laki-laki, dan sebagian besar berpusat pada AS. Negara dan populasi yang lebih kaya di negara maju menunjukkan penetrasi internet yang lebih tinggi. Kesenjangan gender digital juga menunjukkan lebih sedikit perempuan yang terwakili secara online di seluruh dunia. Selain itu, karena berbagai belahan dunia memiliki tingkat penetrasi dan akses internet yang berbeda, kumpulan data kurang mewakili komunitas yang kurang terhubung.”

Satu kesimpulan dari indikasi di atas tentang GPT-3 adalah bahwa aturan praktis di antara mereka yang membuat AI generatif adalah semakin banyak data Internet yang dapat Anda pindai, kemungkinan untuk meningkatkan atau memajukan AI generatif akan meningkat.

Anda dapat melihat ini dengan salah satu dari dua cara.

  • 1) AI yang ditingkatkan. Kami akan memiliki AI generatif yang menjelajahi Internet sebanyak mungkin. Hasil yang menarik adalah AI generatif akan lebih baik dari sebelumnya. Itu sesuatu yang dinanti-nantikan.
  • 2) Menyalin Potensi Berlimpah. Perluasan pemindaian Internet ini secara menjengkelkan dan menarik membuat masalah plagiarisme dan pelanggaran hak cipta berpotensi semakin besar. Padahal sebelumnya tidak banyak pembuat konten yang terpengaruh, ukurannya akan berkembang. Jika Anda seorang pengacara di pihak pembuat konten, ini membuat Anda menangis (mungkin air mata kekecewaan, atau air mata kegembiraan atas prospek yang ditimbulkannya dalam hal tuntutan hukum).

Apakah gelas itu setengah penuh atau setengah kosong?

Kamu putuskan.

Ranjau Darat Resmi Menunggu

Pertanyaan yang mungkin Anda renungkan adalah apakah konten Internet yang Anda posting dianggap wajar untuk dipindai. Jika konten Anda berada di belakang paywall, mungkin itu bukan target untuk dipindai karena tidak dapat dijangkau dengan mudah, tergantung pada kekuatan paywall.

Saya kira sebagian besar orang sehari-hari tidak menyimpan konten mereka di balik paywall. Mereka ingin konten mereka tersedia untuk umum. Mereka berasumsi bahwa orang akan melihatnya.

Apakah membuat konten Anda tersedia untuk umum juga secara aksiomatis berarti Anda menyetujuinya untuk dipindai untuk digunakan oleh AI generatif yang sedang dilatih data?

Mungkin ya mungkin tidak.

Ini adalah salah satu masalah hukum yang menarik perhatian Anda.

Kembali ke kutipan sebelumnya Hukum Bloomberg artikel, penulis menyebutkan pentingnya Syarat dan Ketentuan (T&C) yang terkait dengan banyak situs web:

  • “Ranjau darat legal — yang sangat diabaikan oleh perusahaan AI tanpa disadari yang mengoperasikan bot online untuk pengikisan data — disembunyikan dalam Syarat dan Ketentuan yang umumnya tersedia di semua jenis situs web publik. Berbeda dengan undang-undang kekayaan intelektual yang saat ini belum terselesaikan dan dilema pelanggaran hak cipta, Syarat dan Ketentuan situs web didukung oleh undang-undang kontrak yang mapan dan biasanya dapat ditegakkan di pengadilan dengan mengandalkan jumlah preseden yang memadai.”

Mereka menunjukkan bahwa dengan asumsi situs web Anda memiliki halaman terkait lisensi, kemungkinan besar jika Anda menggunakan template modern standar, itu mungkin berisi klausul penting:

  • “Akibatnya, sebagian besar Syarat dan Ketentuan boilerplate untuk situs web—tersedia secara melimpah dalam akses gratis—berisi klausul yang melarang pengikisan data otomatis. Ironisnya, template yang tersedia secara gratis tersebut kemungkinan telah digunakan untuk pelatihan ChatGPT. Oleh karena itu, pemilik konten mungkin ingin meninjau Syarat dan Ketentuan mereka dan memasukkan klausul terpisah yang secara tegas melarang semua penggunaan konten apa pun dari situs web untuk pelatihan AI atau tujuan terkait lainnya, baik yang dikumpulkan secara manual atau otomatis, tanpa izin tertulis sebelumnya dari pemilik situs web .”

Kicker tambahan disertakan dalam analisis mereka tentang tindakan potensial yang harus diambil pembuat konten tentang situs web mereka:

  • “Oleh karena itu, memasukkan ketentuan likuidasi ganti rugi yang dapat ditegakkan untuk setiap pelanggaran klausul larangan pengikisan, ditambah dengan ketentuan perintah tanpa ikatan, dapat menjadi solusi yang dapat dipertahankan bagi para penulis konten kreatif yang tidak tertarik untuk memberikan hasil dari karya mereka. kerja intelektual untuk tujuan pelatihan AI tanpa dibayar untuk itu atau, setidaknya, diberi penghargaan yang layak untuk pekerjaan mereka.”

Anda mungkin ingin berkonsultasi dengan pengacara Anda tentang hal ini.

Beberapa mengatakan bahwa ini adalah cara penting untuk mencoba dan memberi tahu pembuat AI bahwa pembuat konten sangat serius dalam melindungi konten mereka. Memastikan lisensi Anda memiliki kata-kata yang tepat, tampaknya akan membuat pembuat AI waspada.

Namun yang lain agak suram. Mereka dengan sedih mengatakan bahwa Anda dapat melanjutkan untuk memasukkan bahasa hukum yang paling keras dan mematikan di situs web Anda, tetapi pada akhirnya, pembuat AI akan memindainya. Anda tidak akan tahu mereka melakukannya. Anda akan memiliki setan waktu membuktikan bahwa mereka melakukannya. Anda tidak mungkin menemukan bahwa output mereka mencerminkan konten Anda. Ini adalah perjuangan berat yang tidak akan Anda menangkan.

Argumen balasannya adalah bahwa Anda menyerah pada pertempuran bahkan sebelum itu dilancarkan. Jika Anda setidaknya tidak memiliki bahasa hukum yang memadai, dan jika Anda pernah menangkap mereka, mereka akan bergoyang dan musang untuk menghindari tanggung jawab apa pun. Semua karena Anda tidak memposting istilah hukum yang tepat.

Sementara itu, pendekatan lain yang berusaha mendapatkan daya tarik terdiri dari menandai situs web Anda dengan sesuatu yang mengatakan bahwa situs tersebut tidak boleh dipindai oleh AI generatif. Idenya adalah bahwa penanda standar akan dirancang. Situs web mungkin dapat menambahkan penanda ke situs mereka. Pembuat AI akan diberitahu bahwa mereka harus mengubah pemindaian data mereka untuk melewati situs web yang ditandai.

Bisakah pendekatan penanda berhasil? Kekhawatiran termasuk biaya untuk mendapatkan dan memposting penanda. Seiring dengan apakah pembuat AI akan mematuhi penanda dan memastikan bahwa mereka menghindari pemindaian situs yang ditandai. Perspektif lain adalah bahwa meskipun pembuat AI tidak mengikuti penandaan, ini memberikan petunjuk lain untuk pergi ke pengadilan dan berargumen bahwa pembuat konten berusaha keras untuk mencoba dan memperingatkan tentang pemindaian AI.

Astaga, itu semua membuat kepalamu pusing.

Kesimpulan

Beberapa komentar terakhir tentang topik pelik ini.

Apakah Anda siap untuk perspektif yang membengkokkan pikiran tentang keseluruhan AI ini sebagai plagiarizer dan dilema pelanggar hak cipta?

Sebagian besar asumsi tentang “menangkap” AI generatif dalam tindakan plagiarisme atau pelanggaran hak cipta bergantung pada penemuan keluaran yang sangat menyerupai pekerjaan sebelumnya seperti konten di Internet yang berpotensi dipindai selama pelatihan data.

Misalkan meskipun taktik membagi-dan-menaklukkan sedang dimainkan di sini.

Inilah yang saya maksud.

Jika AI generatif meminjam sedikit dari sini dan sedikit dari sana, yang pada akhirnya menggabungkan mereka untuk menghasilkan output tertentu, kemungkinan untuk mendapatkan momen gotcha sangat berkurang. Output apa pun tampaknya tidak akan naik ke ambang batas yang cukup sehingga Anda dapat mengatakan dengan pasti bahwa output tersebut diambil dari satu item sumber tertentu. Esai yang dihasilkan atau mode keluaran lainnya hanya akan dapat dicocokkan secara fraksional. Dan dengan pendekatan yang biasa mencoba untuk menyatakan bahwa plagiarisme atau pelanggaran hak cipta telah terjadi, Anda biasanya harus menunjukkan lebih dari beberapa hal kecil yang sedang dimainkan, terutama jika potongannya tidak menonjol dan dapat ditemukan secara luas di Internet (meremehkan beban yang memadai untuk membuktikan penyalahgunaan).

Masih bisakah Anda secara persuasif menyatakan bahwa pelatihan data oleh AI generatif telah merobek situs web dan pembuat konten meskipun bukti yang disarankan adalah proporsi yang seolah-olah tidak material?

Berpikir tentang itu.

Jika kami menghadapi potensi plagiarisme dalam skala besar dan pelanggaran hak cipta dalam skala besar, kami mungkin perlu mengubah pendekatan kami untuk menentukan apa yang dimaksud dengan plagiarisme dan/atau pelanggaran hak cipta. Mungkin ada kasus yang dibuat untuk plagiarisme atau pelanggaran hak cipta pada umumnya atau pada umumnya. Mosaik yang terdiri dari ribuan atau jutaan potongan sangat kecil dapat ditafsirkan sebagai melakukan pelanggaran tersebut. Masalah yang tampak adalah bahwa hal ini dapat membuat segala macam konten tiba-tiba berada di bawah payung pelanggaran. Ini bisa menjadi lereng yang licin.

Pikiran berat.

Berbicara tentang pemikiran yang kuat, Leo Tolstoy, penulis legendaris, dengan terkenal menyatakan: "Satu-satunya makna hidup adalah melayani umat manusia."

Jika situs web Anda dan situs web orang lain dipindai untuk kemajuan AI, dan meskipun Anda tidak mendapatkan satu sen pun untuk itu, dapatkah Anda merasa terhibur dengan keyakinan kuat bahwa Anda berkontribusi untuk masa depan umat manusia? Tampaknya harga kecil untuk membayar.

Ya, kecuali AI ternyata merupakan risiko eksistensial yang ditakuti yang menghapus semua manusia dari keberadaan. Anda seharusnya tidak mengambil kredit untuk itu. Saya berasumsi Anda tidak akan segera berkontribusi pada hasil yang mengerikan itu. Mengesampingkan prediksi bencana itu, Anda mungkin berpikir bahwa jika pembuat AI menghasilkan uang dari AI generatif mereka, dan mereka tampaknya menikmati pencatutan, Anda juga harus mendapatkan sepotong kue. Berbagi dan berbagi sama. Pembuat AI harus meminta izin untuk memindai situs web apa pun dan kemudian juga menegosiasikan harga yang harus dibayar karena diizinkan melakukan pemindaian.

Berikan kredit di mana kredit jatuh tempo.

Mari kita beri Sir Walter Scott kata terakhir untuk saat ini: “ Oh, betapa kusutnya jaring yang kita buat. Saat pertama kali kita berlatih untuk menipu.”

Ini mungkin berlaku jika Anda percaya bahwa penipuan sedang terjadi, atau mungkin tidak berlaku jika Anda berpikir bahwa semuanya baik-baik saja dan terus terang serta sah. Mohon dengan murah hati beri penghargaan pada diri Anda sendiri karena telah memikirkan hal ini. Anda pantas mendapatkannya.

Sumber: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- dan-ai-hukum/