يوم القيامة القانوني للدردشة التوليدية باستخدام الذكاء الاصطناعي

ننسب الفضل إلى أهله.

هذا قليل من الحكمة الحكيمة التي ربما نشأت على الإيمان بها بشدة. في الواقع ، يفترض المرء أو يتخيل أننا قد نتفق جميعًا إلى حد ما بشكل معقول على أن هذه قاعدة عامة عادلة ومعقولة في الحياة. عندما يفعل شخص ما شيئًا يستحق الاعتراف ، تأكد من حصوله على التقدير المستحق.

قد تبدو وجهة النظر المتضاربة أقل إقناعًا بكثير.

إذا تجول شخص ما في الإصرار على أن الائتمان يجب ليس يتم التعرف عليها عند استحقاق الائتمان ، حسنًا ، قد تؤكد أن مثل هذا الاعتقاد غير مهذب وربما مخادع. غالبًا ما نجد أنفسنا منزعجين بشدة عندما يتم خداع الائتمان لشخص أنجز شيئًا ملحوظًا. أجرؤ على القول إننا نستاء بشكل خاص عندما ينسب الآخرون زوراً إلى عمل الآخرين. هذا هو الضربة المزدوجة المقلقة. الشخص الذي كان يجب أن يحصل على الائتمان يُحرم من لحظة تعرضه للشمس. بالإضافة إلى ذلك ، فإن المحتال يستمتع بالضوء على الرغم من أنه يخدعنا بشكل خاطئ في اختلاس عواطفنا الإيجابية.

لماذا كل هذا الخطاب حول الحصول على الفضل في أقصى الطرق وتجنب الطرق الخاطئة والازدراء؟

لأننا على ما يبدو نواجه مأزقًا مشابهًا عندما يتعلق الأمر بأحدث الذكاء الاصطناعي (AI).

نعم ، الادعاءات هي أن هذا يحدث بشكل واضح عبر نوع من الذكاء الاصطناعي يُعرف باسم الذكاء الاصطناعي التوليدي. هناك الكثير من التناقضات بأن الذكاء الاصطناعي التوليدي ، وهو أكثر ذكاء اصطناعي سخونة في الأخبار هذه الأيام ، قد حصل بالفعل على الفضل في ما لا يستحق أن يُنسب إليه الفضل. ومن المرجح أن يتفاقم هذا مع زيادة التوسع في استخدام الذكاء الاصطناعي التوليدي واستخدامه. المزيد والمزيد من الفضل في إضفاء المزيد من الذكاء على الذكاء الاصطناعي التوليدي ، بينما للأسف أولئك الذين يستحقون الفضل الحقيقي يتركون في الغبار.

طريقتي التي قدمتها للدلالة بشكل واضح على هذه الظاهرة المزعومة هي من خلال عبارتين رائعتين:

  • 1) السرقة الأدبية على نطاق واسع
  • 2) انتهاك حقوق النشر على نطاق واسع

أفترض أنك قد تكون على دراية بالذكاء الاصطناعي التوليدي نظرًا لتطبيق AI الشهير المعروف باسم ChatGPT والذي تم إصداره في نوفمبر بواسطة OpenAI. سأقول المزيد عن الذكاء الاصطناعي التوليفي و ChatGPT للحظات. أصبر.

دعنا ننتقل على الفور إلى جوهر ما يحصل على ماعز الناس ، كما كان.

كان البعض يشتكي بشدة من أن الذكاء الاصطناعي التوليدي من المحتمل أن يمزق البشر الذين قاموا بإنشاء المحتوى. كما ترى ، فإن معظم تطبيقات الذكاء الاصطناعي التوليدية هي بيانات يتم تدريبها من خلال فحص البيانات الموجودة على الإنترنت. بناءً على هذه البيانات ، يمكن للخوارزميات صقل شبكة واسعة لمطابقة الأنماط الداخلية داخل تطبيق الذكاء الاصطناعي والتي يمكن أن تنتج لاحقًا محتوى جديدًا على ما يبدو يبدو بشكل مثير للدهشة كما لو أنه تم ابتكاره بواسطة اليد البشرية بدلاً من جزء من الأتمتة

يعود هذا العمل الفذ إلى حد كبير إلى استخدام المحتوى الممسوح ضوئيًا على الإنترنت. بدون حجم وثراء محتوى الإنترنت كمصدر للتدريب على البيانات ، سيكون الذكاء الاصطناعي التوليدي فارغًا إلى حد كبير ولن يكون ذا فائدة كبيرة أو معدومًا لاستخدامه. من خلال جعل الذكاء الاصطناعي يفحص الملايين من الملايين من المستندات والنصوص عبر الإنترنت ، جنبًا إلى جنب مع جميع أنواع المحتوى المرتبط ، يتم اشتقاق مطابقة الأنماط تدريجياً لمحاولة تقليد المحتوى الذي ينتجه الإنسان.

كلما زاد المحتوى الذي تم فحصه ، فإن الاحتمالات هي أن مطابقة النمط ستكون أكثر صقلًا وستتحسن في التقليد ، وكل شيء آخر متساوٍ.

هنا إذن سؤال المليار دولار:

  • سؤال كبير: إذا كان لديك أو لدى غيرك محتوى على الإنترنت تم تدريب بعض تطبيقات الذكاء الاصطناعي التوليدية عليه ، فمن المفترض أن تفعل ذلك بدون إذن مباشر منك وربما بدون وعيك تمامًا على الإطلاق ، إذا كان يحق لك الحصول على جزء من الكعكة بأي قيمة تنشأ عن هذا التدريب التوليدي على بيانات الذكاء الاصطناعي؟

يجادل البعض بشدة بأن الإجابة الصحيحة الوحيدة هي نعم، لا سيما أن منشئو المحتوى البشري هؤلاء يستحقون حقًا نصيبهم من العمل. الأمر هو أنك ستتعرض لضغوط شديدة للعثور على أي شخص حصل على نصيبه العادل ، والأسوأ من ذلك ، لم يحصل أي شخص تقريبًا على أي نصيب على الإطلاق. يُحرم منشئو محتوى الإنترنت الذين ساهموا بشكل غير طوعي ودون علم من الائتمان الشرعي.

قد يوصف هذا بأنه فظيع وشائن. لقد مررنا للتو بتفكيك الحكمة الحكيمة التي مفادها أنه يجب منح الفضل في المكان الذي يستحقه. في حالة الذكاء الاصطناعي التوليدي ، يبدو أن الأمر ليس كذلك. يبدو أن القاعدة الأساسية الطويلة الأمد والفاضلة حول الائتمان تنتهك بقسوة.

توقف ، الرد يقول ، أنت تبالغ تمامًا وتسيء تفسير الموقف. من المؤكد أن الذكاء الاصطناعي التوليدي قام بفحص المحتوى على الإنترنت. بالتأكيد ، كان هذا مفيدًا بشكل كبير كجزء من تدريب البيانات للذكاء الاصطناعي التوليدي. من المسلم به أن تطبيقات الذكاء الاصطناعي الرائعة اليوم لن تكون مثيرة للإعجاب بدون هذا النهج المدروس. لكنك ذهبت بعيدًا جدًا عندما قلت إنه يجب تخصيص أي مظهر معين من أشكال الائتمان لمنشئي المحتوى.

المنطق هو كما يلي. يذهب البشر إلى الإنترنت ويتعلمون أشياء من الإنترنت ، ويقومون بذلك بشكل روتيني ودون أي ضجة في حد ذاته. قد يخرج الشخص الذي يقرأ مدونات عن السباكة ثم يشاهد مقاطع فيديو لإصلاح السباكة متاحة مجانًا في اليوم التالي والحصول على عمل كسباك. هل يحتاجون إلى إعطاء جزء من تحويلاتهم المتعلقة بالسباكة إلى المدون الذي كتب عن كيفية حفر الحوض؟ هل يحتاجون إلى دفع رسوم إلى مدوِّن الفيديو الذي جعل الفيديو يعرض خطوات إصلاح حوض الاستحمام المتسرب؟

بالتأكيد لا.

التدريب على البيانات للذكاء الاصطناعي التوليدي هو مجرد وسيلة لتطوير الأنماط. طالما أن مخرجات الذكاء الاصطناعي التوليدي ليست مجرد ارتجاع لما تم فحصه بالضبط ، يمكنك أن تجادل بشكل مقنع بأنهم "تعلموا" وبالتالي لا يخضعون لمنح أي ائتمان محدد لأي مصدر محدد. ما لم تتمكن من اللحاق بالذكاء الاصطناعي التوليدي في إجراء قلس دقيق ، فإن الدلائل تشير إلى أن الذكاء الاصطناعي قد تعمم بما يتجاوز أي مصدر معين.

لا ائتمان مستحق لأي شخص. أو ، كما يفترض المرء ، يمكنك القول إن الفضل يعود إلى الجميع. يُنسب الفضل إلى النص الجماعي والمحتويات الأخرى للبشرية الموجودة على الإنترنت. كلنا نحصل على الفضل إن محاولة تحديد الفضل في مصدر معين أمر لا معنى له. كن سعيدًا لأن الذكاء الاصطناعي يتم تطويره وأن البشرية ستفيد جميعًا. يجب أن تشعر تلك المنشورات على الإنترنت بالفخر لأنها ساهمت في مستقبل من التقدم في مجال الذكاء الاصطناعي وكيف سيساعد ذلك البشرية إلى الأبد.

سيكون لدي المزيد لأقوله عن هاتين النظرتين المتناقضتين.

في هذه الأثناء ، هل تميل نحو المعسكر الذي يقول إن الائتمان مستحق ومتأخر متأخرًا لأولئك الذين لديهم مواقع ويب على الإنترنت ، أم أنك تجد أن الجانب الآخر الذي يقول إن منشئي محتوى الإنترنت هم بالتأكيد ليس النهب هو الموقف الأقوى؟

لغز ولغز متشابكان معًا.

دعونا نفك هذا.

في عمود اليوم ، سأتناول هذه المخاوف التي تم التعبير عنها من أن الذكاء الاصطناعي التوليدي هو في الأساس مسروق أو ربما ينتهك حقوق الطبع والنشر للمحتوى الذي تم نشره على الإنترنت (يعتبر حقًا من حقوق الملكية الفكرية أو قضية ملكية فكرية). سننظر في أساس هذه الهواجس. سأشير أحيانًا إلى ChatGPT خلال هذه المناقشة نظرًا لأنها غوريلا تزن 600 رطل من الذكاء الاصطناعي التوليدي ، على الرغم من أن ضع في اعتبارك أن هناك الكثير من تطبيقات الذكاء الاصطناعي التوليدية الأخرى وتستند عمومًا إلى نفس المبادئ العامة.

في غضون ذلك ، قد تتساءل عن ماهية الذكاء الاصطناعي التوليدي في الواقع.

دعنا أولاً نغطي أساسيات الذكاء الاصطناعي التوليدي ثم يمكننا أن نلقي نظرة فاحصة على المسألة الملحة في متناول اليد.

في كل هذا يأتي عدد كبير من اعتبارات أخلاقيات الذكاء الاصطناعي وقانون الذكاء الاصطناعي.

يرجى العلم أن هناك جهودًا مستمرة لإدخال مبادئ الذكاء الاصطناعي الأخلاقية في تطوير تطبيقات الذكاء الاصطناعي وإدخالها في الميدان. تحاول مجموعة متزايدة من خبراء أخلاقيات الذكاء الاصطناعي المهتمين والسابقين ضمان أن تأخذ الجهود المبذولة لابتكار واعتماد الذكاء الاصطناعي في الاعتبار وجهة نظر التنفيذ. منظمة العفو الدولية من أجل الخير وتجنب منظمة العفو الدولية للسوء. وبالمثل ، هناك قوانين جديدة مقترحة للذكاء الاصطناعي يتم التلاعب بها كحلول محتملة لمنع مساعي الذكاء الاصطناعي من التلاعب بحقوق الإنسان وما شابه. للاطلاع على تغطيتي المستمرة والواسعة لأخلاقيات الذكاء الاصطناعي وقانون الذكاء الاصطناعي ، انظر الرابط هنا و الرابط هنا، على سبيل المثال لا الحصر.

تتم متابعة تطوير وإصدار مبادئ الذكاء الاصطناعي الأخلاقية لمنع المجتمع من الوقوع في عدد لا يحصى من الفخاخ التي تحفز الذكاء الاصطناعي. لتغطيتي لمبادئ أخلاقيات الذكاء الاصطناعي للأمم المتحدة كما وضعتها ودعمتها ما يقرب من 200 دولة من خلال جهود اليونسكو ، انظر الرابط هنا. على نفس المنوال ، يتم استكشاف قوانين جديدة للذكاء الاصطناعي لمحاولة الحفاظ على الذكاء الاصطناعي على قدم المساواة. واحدة من أحدث اللقطات تتكون من مجموعة من المقترحات منظمة العفو الدولية شرعة الحقوق الذي أصدره البيت الأبيض الأمريكي مؤخرًا لتحديد حقوق الإنسان في عصر الذكاء الاصطناعي ، انظر الرابط هنا. يتطلب الأمر قرية لإبقاء مطوري الذكاء الاصطناعي والذكاء الاصطناعي على المسار الصحيح وردع الجهود الهادفة أو العرضية المخادعة التي قد تقوض المجتمع.

سأقوم بدمج الاعتبارات المتعلقة بأخلاقيات الذكاء الاصطناعي وقانون الذكاء الاصطناعي في هذه المناقشة.

أساسيات الذكاء الاصطناعي التوليدي

يتم تمثيل المثال الأكثر شهرة على نطاق واسع للذكاء الاصطناعي التوليدي بواسطة تطبيق AI يسمى ChatGPT. ظهرت ChatGPT في الوعي العام مرة أخرى في نوفمبر عندما تم إصدارها من قبل شركة أبحاث الذكاء الاصطناعي OpenAI. منذ أن حصدت ChatGPT عناوين كبيرة وتجاوزت بشكل مذهل الخمسة عشر دقيقة المخصصة لها من الشهرة.

أعتقد أنك ربما سمعت عن ChatGPT أو ربما تعرف شخصًا ما استخدمه.

يعتبر ChatGPT أحد تطبيقات الذكاء الاصطناعي التوليفية لأنه يأخذ كمدخلات بعض النصوص من المستخدم ثم يولد أو ينتج ناتجًا يتكون من مقال. الذكاء الاصطناعي هو منشئ تحويل النص إلى نص ، على الرغم من أنني أصف الذكاء الاصطناعي بأنه منشئ تحويل النص إلى مقال لأن ذلك يوضح بسهولة أكثر ما يتم استخدامه بشكل شائع. يمكنك استخدام الذكاء الاصطناعي التوليدي لتأليف تراكيب طويلة أو يمكنك جعله يقدم تعليقات قصيرة بليغة إلى حد ما. كل شيء في العطاءات الخاصة بك.

كل ما عليك فعله هو إدخال مطالبة وسيقوم تطبيق AI بإنشاء مقال لك يحاول الرد على مطالبتك. سيبدو النص المكتوب كما لو أن المقال كتبه يد الإنسان وعقله. إذا كنت ستدخل مطالبة تقول "أخبرني عن أبراهام لينكولن" ، فإن الذكاء الاصطناعي التوليدي سوف يزودك بمقال عن لينكولن. هناك طرق أخرى للذكاء الاصطناعي التوليدي ، مثل تحويل النص إلى فن وتحويل النص إلى فيديو. سأركز هنا على تباين النص إلى نص.

قد يكون فكرتك الأولى أن هذه القدرة التوليدية لا تبدو مثل هذه الصفقة الكبيرة من حيث إنتاج المقالات. يمكنك بسهولة إجراء بحث عبر الإنترنت على الإنترنت والعثور بسهولة على أطنان وأطنان من المقالات حول الرئيس لينكولن. المثير في حالة الذكاء الاصطناعي التوليدي هو أن المقال الذي تم إنشاؤه فريد نسبيًا ويوفر تكوينًا أصليًا وليس نسخة مقلدة. إذا حاولت العثور على مقال من إنتاج الذكاء الاصطناعي على الإنترنت في مكان ما ، فمن غير المرجح أن تكتشفه.

يتم تدريب الذكاء الاصطناعي التوليدي مسبقًا ويستفيد من صياغة رياضية وحسابية معقدة تم إعدادها من خلال فحص الأنماط في الكلمات والقصص المكتوبة عبر الويب. نتيجة لفحص الآلاف والملايين من المقاطع المكتوبة ، يمكن للذكاء الاصطناعي أن ينشر مقالات وقصصًا جديدة تمثل مزيجًا مما تم العثور عليه. من خلال إضافة وظائف احتمالية مختلفة ، يكون النص الناتج فريدًا إلى حد كبير مقارنة بما تم استخدامه في مجموعة التدريب.

هناك العديد من المخاوف بشأن الذكاء الاصطناعي التوليدي.

أحد الجوانب السلبية المهمة هو أن المقالات التي ينتجها تطبيق الذكاء الاصطناعي القائم على التوليد يمكن أن تحتوي على أكاذيب مختلفة مضمنة ، بما في ذلك الحقائق غير الصحيحة بوضوح ، والحقائق التي يتم تصويرها بشكل مضلل ، والحقائق الواضحة الملفقة بالكامل. غالبًا ما يشار إلى تلك الجوانب الملفقة على أنها شكل من أشكال هلوسة الذكاء الاصطناعي، عبارة شائعة لا أستمتع بها ولكن للأسف يبدو أنها تكتسب شعبية على أي حال (للحصول على شرح مفصل حول سبب كون هذا المصطلح رديئًا وغير مناسب ، راجع تغطيتي على الرابط هنا).

مصدر قلق آخر هو أن البشر يمكنهم بسهولة الحصول على الفضل في مقال تم إنشاؤه بواسطة الذكاء الاصطناعي ، على الرغم من عدم تأليف المقال بأنفسهم. ربما سمعت أن المعلمين والمدارس قلقون تمامًا بشأن ظهور تطبيقات الذكاء الاصطناعي التوليدية. يمكن للطلاب استخدام الذكاء الاصطناعي التوليدي لكتابة المقالات المخصصة لهم. إذا ادعى أحد الطلاب أن مقالًا كتبه بنفسه ، فهناك فرصة ضئيلة لأن يتمكن المعلم من تمييز ما إذا كان قد تم صياغته بواسطة الذكاء الاصطناعي التوليدي أم لا. لتحليلي لهذا الجانب المربك للطالب والمعلم ، راجع تغطيتي في الرابط هنا و الرابط هنا.

كانت هناك بعض الادعاءات الضخمة على وسائل التواصل الاجتماعي الذكاء الاصطناعي التوليدي مؤكدا أن هذا الإصدار الأخير من الذكاء الاصطناعي هو في الواقع منظمة العفو الدولية الواعية (كلا ، هم مخطئون!). أولئك الذين ينتمون إلى أخلاقيات الذكاء الاصطناعي وقانون الذكاء الاصطناعي قلقون بشكل خاص من هذا الاتجاه المزدهر للمطالبات الممتدة. قد تقول بأدب أن بعض الناس يبالغون في ما يمكن أن يفعله الذكاء الاصطناعي اليوم. يفترضون أن الذكاء الاصطناعي لديه قدرات لم نتمكن من تحقيقها بعد. هذا مؤسف. والأسوأ من ذلك ، يمكنهم السماح لأنفسهم وللآخرين بالدخول في مواقف عصيبة بسبب افتراض أن الذكاء الاصطناعي سيكون واعيًا أو شبيهًا بالبشر في القدرة على اتخاذ الإجراءات.

لا تجسد الذكاء الاصطناعي.

سيؤدي القيام بذلك إلى الوقوع في فخ الاعتماد اللزج والعنيف لتوقع أن يقوم الذكاء الاصطناعي بأشياء لا يمكنه القيام بها. مع ما يقال ، فإن أحدث ما في الذكاء الاصطناعي التوليدي مثير للإعجاب نسبيًا لما يمكن أن يفعله. كن على دراية بأن هناك قيودًا كبيرة يجب أن تضعها في اعتبارك باستمرار عند استخدام أي تطبيق ذكاء اصطناعي.

تحذير مسبق أخير في الوقت الحالي.

كل ما تراه أو تقرأه في استجابة الذكاء الاصطناعي التوليدية يبدو ليتم نقلها على أنها واقعية بحتة (التواريخ والأماكن والأشخاص وما إلى ذلك) ، تأكد من أن تظل متشككًا وأن تكون على استعداد للتحقق مرة أخرى مما تراه.

نعم ، يمكن إعداد التواريخ ، ويمكن تكوين الأماكن ، والعناصر التي نتوقع أن تكون فوق اللوم هي من جميع تخضع للشبهات. لا تصدق ما تقرأه ولا تصدق عينك عند دراسة أي مقالات أو مخرجات تكوينية للذكاء الاصطناعي. إذا أخبرك أحد تطبيقات الذكاء الاصطناعي التوليدية أن أبراهام لنكولن قد طار في جميع أنحاء البلاد في طائرته الخاصة ، فستعرف بلا شك أن هذا أمر سيء. لسوء الحظ ، قد لا يدرك بعض الناس أن الطائرات لم تكن موجودة في أيامه ، أو ربما يعرفون لكنهم يفشلون في ملاحظة أن المقال يقدم هذا الادعاء الوقح والخطأ بشكل شنيع.

إن جرعة قوية من الشك الصحي وعقلية عدم التصديق المستمرة ستكون أفضل ما لديك عند استخدام الذكاء الاصطناعي التوليدي.

نحن على استعداد للانتقال إلى المرحلة التالية من هذا التوضيح.

الإنترنت والذكاء الاصطناعي التوليدي في هذا معًا

الآن بعد أن أصبح لديك ما يشبه ما هو الذكاء الاصطناعي التوليدي ، يمكننا استكشاف السؤال المثير للقلق حول ما إذا كان الذكاء الاصطناعي التوليدي "يستفيد" بشكل عادل أو غير عادل ، أو قد يقول البعض بشكل صارخ استغلال محتوى الإنترنت.

فيما يلي موضوعاتي الأربعة الحيوية ذات الصلة بهذا الموضوع:

  • 1) مشكلة مزدوجة: الانتحال وانتهاك حقوق النشر
  • 2) ستتم محاولة إثبات الانتحال أو انتهاك حقوق النشر
  • 3) إثبات قضية الانتحال أو التعدي على حق المؤلف
  • 4) الألغام الأرضية القانونية تنتظر

سأغطي كل من هذه الموضوعات الهامة وأقدم اعتبارات ثاقبة يجب علينا جميعًا أن نفكر فيها بعناية. كل موضوع من هذه الموضوعات هو جزء لا يتجزأ من لغز أكبر. لا يمكنك النظر إلى قطعة واحدة فقط. ولا يمكنك النظر إلى أي قطعة بمعزل عن القطع الأخرى.

هذه فسيفساء معقدة ويجب إعطاء اللغز بأكمله اعتبارًا متناغمًا مناسبًا.

مشكلة مزدوجة: الانتحال وانتهاك حقوق النشر

تكمن المشكلة المزدوجة التي تواجه أولئك الذين يصنعون الذكاء الاصطناعي ويجيدونه في أن بضاعتهم قد تؤدي إلى شيئين سيئين:

  • 1) السرقة الأدبية. يمكن تفسير الذكاء الاصطناعي التوليدي على أنه يغشون المحتوى الموجود على الإنترنت وفقًا لفحص الإنترنت الذي حدث أثناء تدريب البيانات على الذكاء الاصطناعي.
  • 2) التعدي على حق المؤلف. يمكن المطالبة بالذكاء الاصطناعي التوليدي على أنه تعهد التعدي على حق المؤلف المرتبطة بمحتوى الإنترنت الذي تم مسحه ضوئيًا أثناء التدريب على البيانات.

للتوضيح ، يوجد محتوى على الإنترنت أكثر بكثير مما يتم مسحه ضوئيًا في الواقع لتدريب البيانات على الذكاء الاصطناعي التوليدي. عادة ما يتم استخدام جزء ضئيل فقط من الإنترنت. وبالتالي ، يمكننا أن نفترض أن أي محتوى لم يتم مسحه ضوئيًا أثناء التدريب على البيانات ليس له لحم خاص مع الذكاء الاصطناعي التوليدي.

هذا قابل للنقاش إلى حد ما على الرغم من أنه من المحتمل أن ترسم خطًا يربط بين المحتوى الآخر الذي تم مسحه ضوئيًا بالمحتوى الذي لم يتم مسحه ضوئيًا. أيضًا ، هناك شرط مهم آخر وهو أنه حتى إذا كان هناك محتوى لم يتم مسحه ضوئيًا ، فلا يزال من الممكن القول بأنه مسروق و / أو ينتهك حقوق الطبع والنشر إذا كانت مخرجات الذكاء الاصطناعي التوليدي تقع على نفس الإسهاب. نقطتي هي أن هناك الكثير من الإسفنج في كل هذا.

خلاصة القول: الذكاء الاصطناعي التوليدي مليء بالألغاز القانونية المحتملة لأخلاقيات الذكاء الاصطناعي وقانون الذكاء الاصطناعي عندما يتعلق الأمر بالسرقة الأدبية وانتهاك حقوق النشر دعم ممارسات التدريب على البيانات السائدة.

حتى الآن ، قام صانعو الذكاء الاصطناعي وباحثو الذكاء الاصطناعي بالتزحلق على هذا الخالي من الأخطاء إلى حد كبير ، على الرغم من السيف الذي يلوح في الأفق وغير المستقر المعلق فوقهم. ولم يتم رفع سوى عدد قليل من الدعاوى القضائية حتى الآن ضد هذه الممارسات. ربما تكون قد سمعت أو شاهدت مقالات إخبارية حول مثل هذه الإجراءات القانونية. أحدهما ، على سبيل المثال ، يشمل شركات تحويل النص إلى صورة في Midjourney و Stability AI لانتهاكها المحتوى الفني المنشور على الإنترنت. آخر ينطوي على انتهاك تحويل النص إلى رمز ضد GitHub و Microsoft و OpenAI بسبب برنامج Copilot الذي ينتج تطبيقات AI. تهدف Getty Images أيضًا إلى تعقب Stability AI لانتهاك تحويل النص إلى صورة.

يمكنك توقع رفع المزيد من هذه الدعاوى القضائية.

في الوقت الحالي ، من المحتمل قليلاً رفع تلك الدعاوى القضائية لأن النتيجة غير معروفة نسبيًا. هل سيكون جانب المحكمة مع صانعي الذكاء الاصطناعي أم أولئك الذين يعتقدون أن محتواهم قد تم استغلاله بشكل غير عادل هم المنتصرون؟ معركة قانونية مكلفة هي دائما مسألة خطيرة. يجب الموازنة بين إنفاق التكاليف القانونية على نطاق واسع وفرص الفوز أو الخسارة.

يبدو أن صانعي الذكاء الاصطناعي ليس لديهم أي خيار تقريبًا سوى خوض معركة. إذا كان عليهم الانصياع ، حتى ولو قليلاً ، فإن الاحتمالات هي أن سيل من الدعاوى القضائية الإضافية سينتج عنها (بشكل أساسي ، فتح الباب أمام فرص متزايدة لسيادة الآخرين أيضًا). بمجرد أن يكون هناك دماء قانونية في الماء ، فإن أسماك القرش القانونية المتبقية ستندفع إلى "الدرجة السهلة" المعتبرة وسيحدث حمام دم نقدي شديد الضرب.

يعتقد البعض أنه يجب علينا إصدار قوانين جديدة للذكاء الاصطناعي من شأنها حماية صانعي الذكاء الاصطناعي. قد تكون الحماية بأثر رجعي. أساس ذلك هو أننا إذا أردنا رؤية تطورات إبداعية في مجال الذكاء الاصطناعي ، فعلينا أن نمنح صانعي الذكاء الاصطناعي بعض المناطق الآمنة. بمجرد أن تبدأ الدعاوى القضائية في تحقيق انتصارات ضد صانعي الذكاء الاصطناعي ، إذا حدث ذلك (لا نعرف حتى الآن) ، فإن القلق هو أن الذكاء الاصطناعي التوليدي سوف يتبخر حيث لن يكون أحد على استعداد لتقديم أي دعم لشركات الذكاء الاصطناعي.

كما تمت الإشارة باقتدار في مقال صدر مؤخرًا عن قانون بلومبرج بعنوان "ChatGPT: الملكية الفكرية والأمن السيبراني والمخاطر القانونية الأخرى للذكاء الاصطناعي التوليدي" للدكتور إيليا كولوشينكو وجوردون بلات ، قانون بلومبرج ، فبراير 2023 ، إليك مقتطفان حيويان يرددان وجهات النظر هذه:

  • "يحتدم الآن نقاش ساخن بين الباحثين القانونيين الأمريكيين وأساتذة قانون الملكية الفكرية حول ما إذا كان الكشط غير المصرح به والاستخدام اللاحق للبيانات المحمية بحقوق الطبع والنشر يشكلان انتهاكًا لحقوق الطبع والنشر. إذا سادت وجهة نظر الممارسين القانونيين الذين يرون انتهاكات حقوق النشر في هذه الممارسة ، فقد يكون مستخدمو أنظمة الذكاء الاصطناعي هذه أيضًا مسؤولين عن الانتهاك الثانوي ويحتمل أن يواجهوا تداعيات قانونية ".
  • "لمواجهة التحدي بشكل شامل ، يجب على المشرعين ألا ينظروا فقط في تحديث تشريعات حقوق النشر الحالية ، ولكن أيضًا في تنفيذ مجموعة من القوانين واللوائح الخاصة بالذكاء الاصطناعي."

تذكر أنه كمجتمع قمنا بوضع الحماية القانونية لـ توسع الإنترنت ، كما تشهد الآن المحكمة العليا بمراجعة القسم الشهير أو سيئ السمعة 230. وهكذا ، يبدو من المعقول والسابقة أننا قد نكون مستعدين للقيام ببعض الحماية المماثلة من أجل النهوض بالذكاء الاصطناعي التوليدي. ربما يمكن إعداد الحماية مؤقتًا ، وتنتهي صلاحيتها بعد وصول الذكاء الاصطناعي التوليدي إلى مستوى معين من الكفاءة محدد مسبقًا. يمكن وضع أحكام وقائية أخرى.

سأقوم قريبًا بنشر تحليلي لكيفية تأثير تقييم المحكمة العليا والحكم النهائي بشأن القسم 230 على ظهور الذكاء الاصطناعي التوليدي. كن على اطلاع على هذا المنشور القادم!

بالعودة إلى الرأي الذي تم التعبير عنه بقوة بأنه يجب علينا إعطاء مساحة للابتكار التكنولوجي المذهل المجتمعي المعروف باسم الذكاء الاصطناعي التوليدي. قد يقول البعض أنه حتى لو كان التعدي المزعوم على حق المؤلف قد حدث أو يحدث بالفعل ، يجب أن يكون المجتمع ككل على استعداد للسماح بذلك للأغراض المحددة لتطوير الذكاء الاصطناعي التوليدي.

نأمل أن يتم صياغة قوانين الذكاء الاصطناعي الجديدة بعناية ومواءمتها مع التفاصيل المرتبطة بالتدريب على البيانات للذكاء الاصطناعي التوليدي.

هناك الكثير من الحجج المضادة لمفهوم استنباط قوانين ذكاء اصطناعي جديدة لهذا الغرض. يتمثل أحد المخاوف في أن أي قانون جديد للذكاء الاصطناعي سيفتح الباب على مصراعيه لجميع أنواع التعدي على حق المؤلف. سنأسف على اليوم الذي سمحنا فيه لمثل هذه القوانين الجديدة للذكاء الاصطناعي بالظهور في الكتب. بغض النظر عن مدى صعوبة محاولتك حصر ذلك في التدريب على بيانات الذكاء الاصطناعي فقط ، سيجد الآخرون بذكاء أو بذكاء ثغرات ترقى إلى انتهاك حقوق الطبع والنشر غير المقيد والمتفشي.

جولة وجولة الحجج تذهب.

إحدى الحجج التي لا تحمل أهمية خاصة لها علاقة بمحاولة مقاضاة الذكاء الاصطناعي نفسه. لاحظ أنني كنت أشير إلى صانع الذكاء الاصطناعي أو باحثي الذكاء الاصطناعي بصفتهم أصحاب المصلحة المذنبين. هؤلاء أشخاص وشركات. يقترح البعض أننا يجب أن نستهدف الذكاء الاصطناعي باعتباره الطرف المطلوب مقاضاته. لقد ناقشت بإسهاب في عمودي أننا لم ننسب حتى الآن الشخصية القانونية إلى الذكاء الاصطناعي ، انظر الرابط هنا على سبيل المثال ، وبالتالي فإن مثل هذه الدعاوى القضائية التي تستهدف الذكاء الاصطناعي في حد ذاته تعتبر بلا معنى في الوقت الحالي.

كإضافة إلى السؤال حول من أو ما الذي يجب مقاضاته ، فإن هذا يطرح موضوعًا مثيرًا آخر.

افترض أن تطبيقًا خاصًا للذكاء الاصطناعي ابتكره بعض صانع الذكاء الاصطناعي الذي سنطلق عليه اسم Widget Company. شركة Widget صغيرة الحجم نسبيًا وليس لديها الكثير من الإيرادات ، ولا الكثير من الأصول. إن مقاضاتهم لن يكتسب على الأرجح الثروات الهائلة التي قد يبحث عنها المرء. على الأكثر ، ستشعر فقط بالرضا عن تصحيح ما تعتبره خطأ.

تريد أن تلاحق السمكة الكبيرة.

إليك كيف سيحدث ذلك. يختار صانع الذكاء الاصطناعي جعل الذكاء الاصطناعي التوليدي متاحًا لشركة Big Time ، وهي تكتل كبير يضم أطنانًا من العجين وأطنانًا من الأصول. سيكون لدعوى قضائية تسمي شركة Widget الآن هدفًا أفضل في العرض ، أي أيضًا من خلال تسمية شركة Big Time. هذه معركة بين ديفيد وجليات سيستمتع بها المحامون. بالطبع ، ستحاول شركة Big Time بلا شك التذبذب من خطاف الصيد. ما إذا كان بإمكانهم القيام بذلك مرة أخرى هو سؤال قانوني غير مؤكد ، وقد يغرقون في الوحل بشكل ميؤوس منه.

قبل أن نتعمق أكثر في هذا الأمر ، أود أن أحصل على شيء حاسم على الطاولة حول التعديات المزعومة للذكاء الاصطناعي التوليدي بسبب التدريب على البيانات. أنا متأكد من أنك تدرك بشكل حدسي أن الانتحال وانتهاك حقوق الطبع والنشر هما وحشان مختلفان إلى حد ما. لديهم الكثير من القواسم المشتركة ، على الرغم من اختلافهم أيضًا بشكل كبير.

فيما يلي وصف موجز سهل الاستخدام من جامعة ديوك يشرح الاثنين:

  • من الأفضل تعريف الانتحال على أنه الاستخدام غير المعترف به لعمل شخص آخر. إنها قضية أخلاقية تنطوي على مطالبة بالائتمان مقابل العمل الذي لم يخلقه المدعي. يمكن للمرء أن يسرق عمل شخص آخر بغض النظر عن حالة حقوق الطبع والنشر لهذا العمل. على سبيل المثال ، يعد النسخ من كتاب أو مقال قديمًا جدًا بحيث لا يزال خاضعًا لحقوق الطبع والنشر انتحالًا. من السرقة أيضًا استخدام البيانات المأخوذة من مصدر غير معترف به ، على الرغم من أن المواد الواقعية مثل البيانات قد لا تكون محمية بموجب حقوق النشر. ومع ذلك ، يمكن علاج السرقة الأدبية بسهولة - الاقتباس الصحيح من المصدر الأصلي للمادة ".
  • "التعدي على حق المؤلف ، من ناحية أخرى ، هو الاستخدام غير المصرح به لعمل شخص آخر. هذه مسألة قانونية تعتمد على ما إذا كان العمل محميًا بموجب حقوق الطبع والنشر في المقام الأول ، وكذلك على تفاصيل مثل مقدار الاستخدام والغرض من الاستخدام. إذا نسخ المرء الكثير من العمل المحمي ، أو النسخ لغرض غير مصرح به ، فإن مجرد الاعتراف بالمصدر الأصلي لن يحل المشكلة. فقط من خلال السعي للحصول على إذن مسبق من صاحب حقوق الطبع والنشر ، يمكن للمرء تجنب مخاطر تهمة الانتهاك ".

أشير إلى أهمية هذين الشاغلين حتى تدرك أن العلاجات يمكن أن تختلف وفقًا لذلك. أيضًا ، كلاهما متورط في اعتبارات تتغلغل في أخلاقيات الذكاء الاصطناعي وقانون الذكاء الاصطناعي ، مما يجعلها جديرة بالاهتمام بنفس القدر.

دعنا نستكشف علاجًا أو حلًا مزعومًا. سترى أنه قد يساعد في إحدى المشكلات المزدوجة ، ولكن ليس الأخرى.

أصر البعض على أن كل ما يتعين على صانعي الذكاء الاصطناعي فعله هو الاستشهاد بمصادرهم. عندما ينتج الذكاء الاصطناعي التوليدي مقالًا ، ما عليك سوى تضمين اقتباسات محددة لكل ما هو مذكور في المقالة. قدم عناوين URL مختلفة وإشارات أخرى حول محتوى الإنترنت الذي تم استخدامه. يبدو أن هذا يحررهم من الوهم بشأن الانتحال. من المفترض أن تحدد المقالة الناتجة بوضوح المصادر التي تم استخدامها للصياغة التي يتم إنتاجها.

هناك بعض المراوغات في هذا الحل المزعوم ، ولكن على مستوى 30,000 قدم ، دعنا نقول أن هذا بمثابة علاج شبه مرض لمعضلة الانتحال. كما هو مذكور أعلاه في شرح انتهاك حقوق النشر ، فإن الاستشهاد بمصدر المواد لا يؤدي بالضرورة إلى إخراجك من المنزل. بافتراض أن المحتوى محمي بحقوق الطبع والنشر ، واعتمادًا على عوامل أخرى مثل كمية المواد التي تم استخدامها ، فإن السيف المنتظر لانتهاك حقوق النشر يمكن أن يتأرجح بشكل حاد ونهائي.

مشكلة مزدوجة هي كلمة السر هنا.

ستتم محاولة إثبات الانتحال أو انتهاك حقوق النشر

اثبت ذلك!

هذه هي العبارة البالية التي سمعناها جميعًا في أوقات مختلفة من حياتنا.

أنت تعرف كيف ستسير الامور. قد تدعي أن شيئًا ما يحدث أو قد حدث. قد تعلم في قلبك أن هذا قد حدث. ولكن عندما يتعلق الأمر بالدفع مقابل الدفع ، يجب أن يكون لديك الدليل.

في لغة اليوم ، تحتاج إلى إظهار ملف المبالغ المستلمة، كما يقولون.

سؤالي لك هو هذا: كيف سنثبت بشكل واضح أن الذكاء الاصطناعي التوليدي قد استغل محتوى الإنترنت بشكل غير لائق؟

يفترض المرء أن الإجابة يجب أن تكون سهلة. أنت تسأل أو تخبر الذكاء الاصطناعي التوليدي لإنتاج مقال ناتج. ثم تأخذ المقال وتقارنه بما يمكن العثور عليه على الإنترنت. إذا وجدت المقال ، يا بام ، فلديك الذكاء الاصطناعي التوليدي مثبتًا على الحائط الذي يضرب به المثل.

يبدو أن الحياة لم تكن بهذه السهولة.

تخيل أننا نحصل على ذكاء اصطناعي مولّد لإنتاج مقال يحتوي على حوالي 100 كلمة. نتجول ونحاول الوصول إلى جميع زوايا الإنترنت وأركانها ، ونبحث عن تلك الكلمات المائة. إذا وجدنا الكلمات المائة ، معروضة بنفس الترتيب الدقيق وبطريقة متطابقة ، يبدو أننا قد وجدنا أنفسنا ساخنًا.

افترض أننا وجدنا على الإنترنت مقالًا يبدو أنه "قابل للمقارنة" على الرغم من أنه يتطابق فقط مع 80 كلمة من أصل 100 كلمة. ربما يبدو هذا كافيا. لكن تخيل أننا وجدنا فقط مثيلًا من 10 كلمات من 100 متطابقة. هل هذا كافٍ للتأكيد على حدوث سرقة أدبية أو حدوث انتهاك لحقوق الطبع والنشر؟

الرمادي موجود.

النص مضحك بهذه الطريقة.

قارن هذا بظروف تحويل النص إلى صورة أو تحويل النص إلى فن. عندما يوفر الذكاء الاصطناعي التوليفي إمكانية تحويل النص إلى صورة أو تحويل النص إلى فن ، فأنت تدخل مطالبة نصية وينتج تطبيق AI صورة تستند إلى حد ما إلى المطالبة التي قدمتها. قد تختلف الصورة عن أي صورة شوهدت على هذا الكوكب أو أي كوكب آخر.

من ناحية أخرى ، قد تكون الصورة تذكرنا بالصور الأخرى الموجودة بالفعل. يمكننا أن ننظر إلى الصورة المنتجة بواسطة الذكاء الاصطناعي وإلى حد ما من خلال غريزة القناة الهضمية نقول إنها بالتأكيد تبدو مثل بعض الصور الأخرى التي رأيناها من قبل. بشكل عام ، فإن بصري يتم إجراء جوانب المقارنة والتباين بسهولة أكبر قليلاً. ومع ذلك ، يرجى العلم أن المناقشات القانونية الضخمة تضمن ما يشكل تداخلًا أو تكرارًا لصورة من صورة أخرى.

توجد حالة أخرى مماثلة مع الموسيقى. هناك تطبيقات الذكاء الاصطناعي التوليدية التي تسمح لك بإدخال نص موجه والإخراج الذي تنتجه منظمة العفو الدولية هو موسيقى صوتية. بدأت قدرات الذكاء الاصطناعي لتحويل النص إلى صوت أو تحويل النص إلى موسيقى في الظهور الآن. الشيء الوحيد الذي يمكنك المراهنة عليه هو أن الموسيقى التي ينتجها الذكاء الاصطناعي ستخضع لتدقيق شديد بسبب الانتهاك. يبدو أننا نعرف متى نسمع انتهاكًا موسيقيًا ، على الرغم من أن هذه مشكلة قانونية معقدة لا تعتمد فقط على ما نشعر به حيال النسخ المتماثل.

اسمح لي بمثال آخر.

يوفر لك برنامج إنشاء نص إلى رمز AI القدرة على إدخال مطالبة نصية وسيقوم AI بإنتاج رمز برمجة لك. يمكنك بعد ذلك استخدام هذا الرمز لإعداد برنامج كمبيوتر. يمكنك استخدام الكود تمامًا كما تم إنشاؤه ، أو يمكنك اختيار تعديل الكود وتعديله ليناسب احتياجاتك. هناك أيضًا حاجة للتأكد من أن الكود مناسب وقابل للتطبيق لأنه من الممكن أن تظهر أخطاء وأكاذيب في الكود الذي تم إنشاؤه.

قد يكون افتراضك الأول هو أن كود البرمجة لا يختلف عن النص. إنه مجرد نص. بالتأكيد ، إنه نص يوفر غرضًا معينًا ، لكنه لا يزال نصًا.

حسنًا ، ليس بالضبط. تمتلك معظم لغات البرمجة تنسيقًا وبنية صارمة لطبيعة عبارات الترميز لتلك اللغة. هذا بمعنى أضيق بكثير من اللغة الطبيعية التي تتدفق بحرية. أنت محاصر إلى حد ما فيما يتعلق بكيفية صياغة عبارات الترميز. وبالمثل ، فإن التسلسل والطريقة التي يتم بها استخدام البيانات وترتيبها محاصران إلى حد ما.

بشكل عام ، فإن إمكانية إظهار أن كود البرمجة كان مسروقًا أو منتهكًا يكاد يكون أسهل من اللغة الطبيعية. وبالتالي ، عندما يذهب الذكاء الاصطناعي التوليدي لمسح رمز البرمجة على الإنترنت ثم يقوم لاحقًا بإنشاء رمز البرمجة ، فإن فرص القول بأن الكود قد تم نسخه بشكل صارخ ستكون أكثر إقناعًا نسبيًا. ليست ضربة قاسية ، لذا توقع خوض معارك مريرة في هذا الشأن.

نقطتي الرئيسية هي أنه سيكون لدينا نفس قضايا أخلاقيات الذكاء الاصطناعي وقانون الذكاء الاصطناعي التي تواجه جميع أنماط الذكاء الاصطناعي التوليدي.

سيكون الانتحال وانتهاك حقوق الطبع والنشر مشكلة بالنسبة إلى:

  • نص إلى نص أو نص إلى مقال
  • نص إلى صورة أو نص إلى فن
  • تحويل النص إلى صوت أو تحويل النص إلى موسيقى
  • نص إلى فيديو
  • نص إلى رمز
  • إلخ

كلهم يخضعون لنفس المخاوف. قد يكون "إثبات" بعضها أسهل قليلاً من البعض الآخر. سيكون لكل منهم مجموعة متنوعة من الكوابيس الخاصة بأخلاقيات الذكاء الاصطناعي وأسس قانون الذكاء الاصطناعي.

إثبات قضية الانتحال أو التعدي على حق المؤلف

لأغراض المناقشة ، دعنا نركز على الذكاء الاصطناعي التوليدي من نص إلى نص أو نص إلى مقال. أفعل ذلك جزئيًا بسبب الشعبية الهائلة لـ ChatGPT ، وهو نوع تحويل النص إلى نص من الذكاء الاصطناعي التوليدي. هناك الكثير من الأشخاص الذين يستخدمون ChatGPT ، إلى جانب العديد من الأشخاص الآخرين الذين يستخدمون العديد من تطبيقات الذكاء الاصطناعي المتشابهة لتحويل النص إلى نص.

هل يعرف هؤلاء الأشخاص الذين يستخدمون تطبيقات الذكاء الاصطناعي التوليدية أنهم من المحتمل أن يعتمدوا على الانتحال أو انتهاك حقوق النشر؟

يبدو من المشكوك فيه أن يفعلوا ذلك.

أود أن أجرؤ على القول إن الافتراض السائد هو أنه إذا كان تطبيق الذكاء الاصطناعي التوليدي متاحًا للاستخدام ، فيجب أن يعرف صانع الذكاء الاصطناعي أو الشركة التي قدمت الذكاء الاصطناعي أو تكون واثقة من أنه لا يوجد شيء غير مرغوب فيه بشأن الأدوات التي يقدمونها للاستخدام. إذا كنت تستطيع استخدامه ، فيجب أن يكون على متن الطائرة.

دعنا نعيد النظر في تعليقي السابق حول الكيفية التي سنحاول بها إثبات أن ذكاءً إصطناعيًا معينًا يعمل على أساس خاطئ فيما يتعلق بالتدريب على البيانات.

قد أضيف أيضًا أنه إذا تمكنا من اكتشاف ذكاء اصطناعي واحد يقوم بذلك ، فمن المحتمل أن يتم تعزيز فرص القبض على الآخرين. أنا لا أقول أن جميع تطبيقات الذكاء الاصطناعي التوليدية ستكون في نفس القارب. لكنهم سوف يجدون أنفسهم في بحار قاسية إلى حد ما بمجرد تثبيت أحدهم على الحائط.

لهذا السبب أيضًا سيكون من المجدي للغاية مراقبة الدعاوى القضائية الحالية. أول واحد يفوز فيما يتعلق بالانتهاك المزعوم ، في حالة حدوث ذلك ، من المحتمل أن يؤدي إلى الهلاك والكآبة لتطبيقات الذكاء الاصطناعي التوليدية الأخرى ، ما لم يفلت بعض الضيق من المشكلات الأوسع في متناول اليد. الأشخاص الذين يخسرون بسبب الانتهاك المزعوم لا يعني بالضرورة أن تطبيقات الذكاء الاصطناعي التوليدية يمكنها قرع الأجراس والاحتفال. قد تكون الخسارة ناتجة عن عوامل أخرى ليست ذات صلة بتطبيقات الذكاء الاصطناعي الأخرى ، وما إلى ذلك.

لقد ذكرت أنه إذا أخذنا مقالًا من 100 كلمة وحاولنا العثور على تلك الكلمات بالضبط في نفس التسلسل بالضبط على الإنترنت ، فقد يكون لدينا حالة قوية نسبيًا للانتحال أو انتهاك حقوق الطبع والنشر ، كل شيء آخر متساوٍ. ولكن إذا كان عدد الكلمات المتطابقة منخفضًا ، فسنبدو أننا على جليد رقيق.

أود التعمق في ذلك.

يتمثل أحد الجوانب الواضحة لإجراء المقارنة في نفس الكلمات بالضبط في نفس التسلسل بالضبط. قد يحدث هذا لمقاطع كاملة. سيكون هذا مناسبًا للعيان ، كأن يتم تسليمه إلينا على طبق من الفضة.

قد نشك أيضًا في حالة تطابق مقتطف من الكلمات فقط. تتمثل الفكرة في معرفة ما إذا كانت كلمات مهمة أو ربما كلمات حشو يمكننا إزالتها أو تجاهلها بسهولة. كما أننا لا نريد أن ننخدع باستخدام الكلمات في زمنها الماضي أو المستقبل ، أو بطريقة أخرى. يجب أيضًا مراعاة هذه الاختلافات في الكلمات.

قد يكون مستوى آخر من المقارنة عندما لا تكون الكلمات بشكل خاص هي الكلمات نفسها إلى حد كبير ، ومع ذلك يبدو أن الكلمات حتى في حالة متنوعة لا تزال تشير إلى نفس النقاط. على سبيل المثال ، غالبًا ما يستخدم الملخص كلمات متشابهة تمامًا كمصدر أصلي ، ولكن يمكننا تمييز أن الملخص يبدو مبنيًا على المصدر الأصلي.

سيكون أصعب مستوى من المقارنة على أساس المفاهيم أو الأفكار. افترض أننا نرى مقالًا لا يحتوي على الكلمات نفسها أو الكلمات المتشابهة كأساس للمقارنة ، لكن الجوهر أو الأفكار هي نفسها. من المسلم به أننا نقترب من أرض وعرة. إذا أردنا أن نقول بسهولة إن الأفكار محمية بشكل وثيق ، فسنضع غطاءً على جميع أشكال المعرفة وتوسيع المعرفة تقريبًا.

يمكننا أن نشير مرة أخرى إلى شرح مفيد من جامعة ديوك:

  • "حق المؤلف لا يحمي الأفكار ، فقط التعبير المحدد عن الفكرة. على سبيل المثال ، قررت المحكمة أن دان براون لم ينتهك حقوق الطبع والنشر لكتاب سابق عندما كتب شيفرة دافنشي لأن كل ما اقترضه من العمل السابق كان الأفكار الأساسية ، وليس تفاصيل الحبكة أو الحوار. بما أن حقوق الطبع والنشر تهدف إلى تشجيع الإنتاج الإبداعي ، فإن استخدام أفكار شخص آخر لصياغة عمل جديد وأصلي يدعم الغرض من حقوق النشر ، ولا ينتهكها. فقط إذا قام أحدهم بنسخ تعبير آخر بدون إذن فمن المحتمل أن يتم انتهاك حقوق الطبع والنشر. "
  • "لتجنب الانتحال ، من ناحية أخرى ، يجب على المرء أن يعترف بالمصدر حتى للأفكار المستعارة من شخص آخر ، بغض النظر عما إذا كان التعبير عن تلك الأفكار مستعارًا معهم أم لا. وبالتالي ، تتطلب إعادة الصياغة الاستشهاد ، على الرغم من أنها نادرًا ما تثير أي مشكلة تتعلق بحقوق الطبع والنشر ".

يرجى ملاحظة كما سبق تحديد الاختلافات بين جوانب المشاكل المزدوجة.

الآن بعد ذلك ، وضع نهج المقارنة موضع التنفيذ هو شيء يحدث منذ سنوات عديدة. أعتقد أنه من هذا الطريق. قد يميل الطلاب الذين يكتبون مقالات لعملهم المدرسي إلى الحصول على محتوى من الإنترنت والتظاهر بأنهم كتبوا الكلمات الحائزة على جائزة بوليتزر من الدرجة الأولى.

يستخدم المعلمون برامج التحقق من الانتحال لفترة طويلة للتعامل مع هذا الأمر. يأخذ المعلم مقال الطالب ويغذيه في مدقق الانتحال. في بعض الحالات ، ترخص مدرسة بأكملها استخدام برنامج التحقق من الانتحال. عندما يقوم الطلاب بتسليم مقال ، يجب عليهم أولاً إرسال المقالة إلى برنامج التحقق من الانتحال. يتم إطلاع المعلم على تقارير البرنامج.

لسوء الحظ ، يجب أن تكون حذرًا للغاية بشأن ما تقوله برامج التحقق من الانتحال. من المهم أن تقيم بعناية ما إذا كانت المؤشرات المبلغ عنها صحيحة. كما ذكرنا سابقًا ، فإن القدرة على التأكد من نسخ العمل يمكن أن تكون ضبابية. إذا قبلت نتيجة برنامج الفحص دون تفكير ، فيمكنك اتهام الطالب زوراً بالنسخ عندما لم يفعل ذلك. هذا يمكن أن يكون سحق الروح.

بالمضي قدمًا ، يمكننا محاولة استخدام برامج التحقق من الانتحال في مجال اختبار مخرجات الذكاء الاصطناعي التوليدية. تعامل مع المقالات التي يتم إخراجها من تطبيق الذكاء الاصطناعي التوليفي كما لو كان طالبًا مكتوبًا. ثم نقيس ما يقوله مدقق الانتحال. يتم ذلك بحبوب ملح.

هناك دراسة بحثية حديثة حاولت تفعيل هذه الأنواع من المقارنات في سياق الذكاء الاصطناعي التوليدي بهذه الطريقة بالذات. أود أن أتطرق إلى بعض النتائج المثيرة للاهتمام معك.

أولا ، بعض الخلفية المضافة مطلوبة. يُشار أحيانًا إلى الذكاء الاصطناعي التوليدي باسم LLMs (نماذج اللغات الكبيرة) أو ببساطة LMs (نماذج اللغة). ثانيًا ، يعتمد ChatGPT على إصدار حزمة أخرى من حزمة OpenAI AI التوليدية تسمى GPT-3.5. قبل GPT-3.5 ، كان هناك GPT-3 ، وقبل ذلك كان GPT-2. في الوقت الحاضر ، يعتبر GPT-2 بدائيًا إلى حد ما مقارنة بالسلسلة اللاحقة ، ونحن جميعًا ننتظر بفارغ الصبر الكشف القادم عن GPT-4 ، انظر نقاشي في الرابط هنا.

تتألف الدراسة البحثية التي أرغب في استكشافها بإيجاز من فحص GPT-2. من المهم إدراك ذلك لأننا تجاوزنا الآن قدرات GPT-2. لا تقدم أي استنتاجات متهورة فيما يتعلق بنتائج هذا التحليل لـ GPT-2. ومع ذلك ، يمكننا أن نتعلم الكثير من تقييم GPT-2. الدراسة بعنوان "هل نماذج اللغة تنتحل؟" بواسطة Jooyoung Lee و Thai Le و Jinghui Chen و Dongwon Lee ، ظهروا في ACM WWW '23 ، 1-5 مايو 2023 ، أوستن ، تكساس ، الولايات المتحدة الأمريكية.

هذا هو سؤالهم البحثي الرئيسي:

  • "إلى أي مدى (على سبيل المثال لا الحصر الحفظ) تستغل LM عبارات أو جمل من عينات التدريب الخاصة بهم؟"

استخدموا هذه المستويات أو الفئات الثلاثة من السرقة الأدبية المحتملة:

  • "الانتحال الحرفي: نسخ متطابقة من الكلمات أو العبارات بدون تحويل."
  • "إعادة صياغة الانتحال: الاستبدال المرادف ، وإعادة ترتيب الكلمات ، و / أو الترجمة العكسية."
  • "انتحال الفكرة: تمثيل المحتوى الأساسي في شكل ممدود."

تم تدريب GPT-2 بالفعل على بيانات الإنترنت وبالتالي فهو مرشح مناسب لهذا النوع من التحليل:

  • تم تدريب GPT-2 مسبقًا على WebText ، والتي تحتوي على أكثر من 8 ملايين مستند تم استردادها من 45 مليون رابط Reddit. نظرًا لأن OpenAI لم تطلق WebText علنًا ، فإننا نستخدم OpenWebText وهو إعادة إنشاء مفتوحة المصدر لمجموعة نصوص الويب. لقد تم استخدامه بشكل موثوق من قبل المؤلفات السابقة ".

تتكون النتائج الرئيسية الانتقائية كما تم اقتباسها من الدراسة من:

  • "اكتشفنا أن عائلات GPT-2 المدربة مسبقًا تنتحل من OpenWebText."
  • "تُظهر النتائج التي توصلنا إليها أن الضبط الدقيق يقلل بشكل كبير من حالات الانتحال الحرفي من OpenWebText."
  • "بما يتفق مع كارليني وآخرون. و Carlini et al. ، وجدنا أن نماذج GPT-2 الأكبر (الكبيرة و xl) تولد بشكل عام متواليات مسروقة بشكل متكرر أكثر من النماذج الأصغر. "
  • "ومع ذلك ، قد تُظهر LMs المختلفة أنماطًا مختلفة من الانتحال ، وبالتالي قد لا يتم تعميم نتائجنا بشكل مباشر على LMs الأخرى ، بما في ذلك LMs الأحدث مثل GPT-3 أو BLOOM."
  • "بالإضافة إلى ذلك ، من المعروف أن أجهزة الكشف عن السرقة الأدبية تحتوي على العديد من أنماط الفشل (سواء في السلبيات الكاذبة أو الإيجابيات الكاذبة).
  • "بالنظر إلى أن غالبية بيانات التدريب الخاصة بـ LMs تم اقتلاعها من الويب دون إبلاغ مالكي المحتوى ، فإن تكرارهم للكلمات والعبارات وحتى الأفكار الأساسية من مجموعات التدريب إلى النصوص التي تم إنشاؤها لها آثار أخلاقية."

نحن بالتأكيد بحاجة إلى المزيد من الدراسات من هذا النوع.

إذا كنت مهتمًا بمعرفة كيفية مقارنة GPT-2 بـ GPT-3 فيما يتعلق بتدريب البيانات ، فهناك تباين واضح تمامًا.

وفقًا للإشارات المبلغ عنها ، كان التدريب على البيانات لـ GPT-3 أكثر شمولاً:

  • تم تدريب النموذج باستخدام قواعد بيانات نصية من الإنترنت. وشمل ذلك 570 جيجا بايت من البيانات التي تم الحصول عليها من الكتب ونصوص الويب وويكيبيديا والمقالات وغيرها من النصوص المكتوبة على الإنترنت. لنكون أكثر دقة ، تم إدخال 300 مليار كلمة في النظام "(بي بي سي للتركيز العلمي مجلة "ChatGPT: كل ما تحتاج لمعرفته حول أداة OpenAI's GPT-3" بقلم أليكس هيوز ، فبراير 2023).

لأولئك منكم المهتمين بمزيد من الأوصاف المتعمقة لتدريب البيانات لـ GPT-3 ، إليك مقتطف من بطاقة طراز GPT-3 الرسمية المنشورة على GitHub (تم إدراج تاريخ التحديث الأخير في سبتمبر 2020):

  • "تتكون مجموعة بيانات التدريب GPT-3 من نص تم نشره على الإنترنت ، أو من نص تم تحميله على الإنترنت (مثل الكتب). تتضمن بيانات الإنترنت التي تم التدريب عليها وتقييمها حتى الآن ما يلي: (1) نسخة من مجموعة بيانات CommonCrawl ، تمت تصفيتها بناءً على التشابه مع مجموعة مرجعية عالية الجودة ، (2) نسخة موسعة من مجموعة بيانات نص الويب ، (3) ) مجموعتا كتاب على الإنترنت ، و (4) ويكيبيديا باللغة الإنجليزية. "
  • "نظرًا لبيانات التدريب الخاصة بها ، فإن مخرجات وأداء GPT-3 هي أكثر تمثيلا للسكان المتصلين بالإنترنت من أولئك المنغمسين في الثقافة اللفظية وغير الرقمية. السكان المتصلون بالإنترنت هم أكثر تمثيلا للدول المتقدمة ، والأثرياء ، والشباب ، والآراء الذكورية ، ومعظمهم متمركزون حول الولايات المتحدة. تظهر الدول والشعوب الأكثر ثراءً في البلدان المتقدمة انتشارًا أعلى للإنترنت. تظهر الفجوة الرقمية بين الجنسين أيضًا تمثيلًا أقل للنساء عبر الإنترنت في جميع أنحاء العالم. بالإضافة إلى ذلك ، نظرًا لأن أجزاء مختلفة من العالم بها مستويات مختلفة من اختراق الإنترنت والوصول إليه ، فإن مجموعة البيانات لا تمثل المجتمعات الأقل اتصالًا ".

إحدى النقاط المستقاة من الإشارة أعلاه حول GPT-3 هي أن القاعدة الأساسية بين أولئك الذين يصنعون الذكاء الاصطناعي التوليدي هي أنه كلما زادت بيانات الإنترنت التي يمكنك مسحها ضوئيًا ، تزداد احتمالات تحسين أو تطوير الذكاء الاصطناعي التوليدي.

يمكنك النظر إلى هذا بإحدى طريقتين.

  • 1) تحسين منظمة العفو الدولية. سنحصل على ذكاء اصطناعي توليدي يزحف عبر أكبر قدر ممكن من الإنترنت. النتيجة المثيرة هي أن الذكاء الاصطناعي التوليدي سيكون أفضل مما هو عليه بالفعل. هذا شيء نتطلع إليه.
  • 2) نسخ الوفرة المحتملة. إن هذا التوسع في فحص الإنترنت أمر بغيض وجذاب يجعل مشكلة الانتحال وانتهاك حقوق النشر أكبر وأكبر. في حين لم يكن هناك عدد كبير من منشئي المحتوى يتأثرون من قبل ، فإن الحجم سيزدهر. إذا كنت محاميًا من جانب صانعي المحتوى ، فإن هذا يجلب الدموع إلى عينيك (ربما دموع من الفزع ، أو دموع الفرح مما يجلبه هذا من حيث الدعاوى القضائية).

هل الكوب نصف ممتلئ أم نصف فارغ؟

انت صاحب القرار.

الألغام الأرضية القانونية تنتظر

السؤال الذي قد تفكر فيه هو ما إذا كان محتوى الإنترنت المنشور يعتبر لعبة عادلة لفحصه. إذا كان المحتوى الخاص بك محميًا بنظام حظر الاشتراك غير المدفوع ، فمن المفترض أنه ليس هدفًا لفحصه لأنه لا يمكن الوصول إليه بسهولة ، اعتمادًا على قوة نظام حظر الاشتراك غير المدفوع.

أعتقد أن معظم الأشخاص العاديين لا يمتلكون محتواهم بعيدًا عن نظام حظر الاشتراك غير المدفوع. يريدون أن يكون محتواهم متاحًا للجمهور. يفترضون أن الناس سوف يلقون نظرة عليها.

هل يعني إتاحة المحتوى الخاص بك للجمهور أيضًا بشكل بديهي أنك توافق على مسحه ضوئيًا للاستخدام بواسطة الذكاء الاصطناعي التوليدي الذي يتم تدريبه على البيانات؟

ربما نعم ، ربما لا.

إنها واحدة من تلك الأمور القانونية التي تهمك.

بالعودة إلى ما سبق ذكره قانون بلومبرج المقالة ، ذكر المؤلفون أهمية الشروط والأحكام (T&C) المرتبطة بالعديد من مواقع الويب:

  • "إن الألغام الأرضية القانونية - التي تم تجاهلها إلى حد كبير من قبل شركات الذكاء الاصطناعي غير المتعمدة التي تشغل روبوتات على الإنترنت لكشط البيانات - مخفية في البنود والشروط المتاحة بشكل شائع على مواقع الويب العامة من جميع الأنواع. على عكس قانون الملكية الفكرية غير المستقر حاليًا ومعضلة انتهاك حقوق الطبع والنشر ، فإن شروط وأحكام موقع الويب مدعومة بقانون عقود راسخ ويمكن عادةً فرضها في المحكمة اعتمادًا على عدد كافٍ من السوابق ".

تشير إلى أنه بافتراض أن موقع الويب الخاص بك يحتوي على صفحة متعلقة بالترخيص ، فمن المحتمل أنك إذا استخدمت نموذجًا حديثًا موحدًا ، فقد يحتوي على بند مهم:

  • "وبالتالي ، فإن معظم الشروط والأحكام المعيارية لمواقع الويب - المتوفرة بكثرة في الوصول المجاني - تحتوي على بند يحظر تجريف البيانات الآلي. ومن المفارقات أن مثل هذه القوالب المتاحة مجانًا ربما تم استخدامها للتدريب على ChatGPT. لذلك ، قد يرغب مالكو المحتوى في مراجعة الشروط والأحكام الخاصة بهم وإدراج بند منفصل يحظر تمامًا استخدام أي محتوى من مواقع الويب لتدريب الذكاء الاصطناعي أو أي أغراض ذات صلة ، سواء تم جمعها يدويًا أو تلقائيًا ، دون إذن كتابي مسبق من مالك موقع الويب . "

يتم تضمين عامل إضافي في تحليلهم للإجراءات المحتملة التي يتخذها منشئو المحتوى بشأن مواقعهم على الويب:

  • "لذلك ، فإن إدراج بند تعويضات قابلة للتنفيذ لكل انتهاك لشرط عدم التجريد ، معززًا بأمر قضائي بدون سند ، يمكن أن يكون حلاً مقبولاً لمؤلفي المحتوى الإبداعي غير الحريصين على تقديم ثمار العمل الفكري لأغراض التدريب على الذكاء الاصطناعي دون دفع أجر مقابل ذلك ، أو على الأقل منح ائتمان مناسب لعملهم ".

قد ترغب في استشارة محاميك حول هذا الموضوع.

يقول البعض أن هذه طريقة حيوية لمحاولة إخبار صانعي الذكاء الاصطناعي بأن منشئي المحتوى جادون للغاية في حماية المحتوى الخاص بهم. إن التأكد من أن الترخيص الخاص بك يحتوي على الصياغة المناسبة ، يبدو أنه يضع صانعي الذكاء الاصطناعي تحت الملاحظة.

على الرغم من أن البعض الآخر متشائم بعض الشيء. يقولون باكتئاب أنه يمكنك المضي قدمًا في وضع أقسى وأخطر لغة قانونية على موقع الويب الخاص بك ، ولكن في النهاية ، سيقوم صانعو الذكاء الاصطناعي بمسحها ضوئيًا. لن تعرف أنهم فعلوا ذلك. سيكون لديك وقت شيطان يثبت أنهم فعلوا ذلك. من غير المحتمل أن تكتشف أن مخرجاتها تعكس المحتوى الخاص بك. إنها معركة شاقة لن تفوز بها.

الحجة المضادة هي أنك تستسلم للمعركة حتى قبل أن تشن. إذا لم يكن لديك على الأقل لغة قانونية كافية ، وإذا قمت بالإمساك بهم في أي وقت ، فسوف يتأرجحون ويبتعدون عن طريق الهروب من أي مسؤولية. كل ذلك لأنك لم تنشر النوع الصحيح من المصطلحات القانونية.

وفي الوقت نفسه ، هناك نهج آخر يسعى إلى اكتساب قوة دفع يتكون من وسم موقع الويب الخاص بك بشيء يقول أنه لا يجب فحص الموقع بواسطة الذكاء الاصطناعي التوليدي. الفكرة هي أنه سيتم وضع علامة موحدة. من المفترض أن تضيف مواقع الويب علامة إلى موقعها. سيتم إخبار صانعي الذكاء الاصطناعي أنه يجب عليهم تغيير مسح البيانات لتخطي المواقع المحددة.

هل يمكن أن يكون نهج العلامة ناجحًا؟ تشمل المخاوف تكاليف الحصول على العلامات ونشرها. إلى جانب ما إذا كان صانعو الذكاء الاصطناعي سيلتزمون بالعلامات ويضمنون تجنبهم لمسح المواقع المحددة. منظور آخر هو أنه حتى لو لم يتماشى صانعو الذكاء الاصطناعي مع العلامات ، فإن هذا يوفر دليلاً آخر منبهاً للذهاب إلى المحكمة والجدل بأن منشئ المحتوى قد قطع الميل الأخير لمحاولة التحذير من مسح الذكاء الاصطناعي.

عذرًا ، كل هذا يجعل رأسك تدور.

وفي الختام

بضع ملاحظات أخيرة حول هذا الموضوع الشائك.

هل أنت مستعد لمنظور مذهل حول هذا الذكاء الاصطناعي برمته باعتباره منتحلًا ومعضلة منتهك حقوق الطبع والنشر؟

يتوقف الكثير من الافتراضات حول "اصطياد" الذكاء الاصطناعي التوليدي في فعل الانتحال أو انتهاك حقوق النشر على اكتشاف المخرجات التي تشبه إلى حد كبير الأعمال السابقة مثل المحتوى الموجود على الإنترنت والذي من المحتمل أن يكون قد تم مسحه ضوئيًا أثناء التدريب على البيانات.

افترض على الرغم من أن حيلة فرق تسد تلعب هنا.

إليكم ما أقصده

إذا اقترضت الذكاء الاصطناعي التوليدي قليلاً من هنا وقليلاً صغيرًا من هناك ، وخلطهما معًا في النهاية لإنتاج أي ناتج معين ، فإن فرص التمكن من الحصول على لحظة مسكتك تقل بشكل كبير. لن يرتفع أي ناتج على ما يبدو إلى حد كافٍ يمكنك أن تقوله على وجه اليقين أنه تم اقتطاعه من عنصر مصدر معين. ستكون المقالة الناتجة أو أنماط الإخراج الأخرى قابلة للمطابقة بشكل جزئي. ومن خلال النهج المعتاد لمحاولة الجدل حول حدوث انتحال أو انتهاك لحقوق الطبع والنشر ، يتعين عليك عادةً عرض أكثر من جزء صغير جدًا من اللعبة ، خاصةً إذا لم تكن اللقمة بارزة ويمكن العثور عليها على نطاق واسع عبر الإنترنت (تقويض أي عبء مناسب لإثبات التملك غير المشروع).

هل لا يزال بإمكانك أن تعلن بشكل مقنع أن التدريب على البيانات بواسطة الذكاء الاصطناعي التوليفي قد انتزع مواقع الويب ومنشئي المحتوى حتى لو كان الدليل المقترح هو نسبة غير مادية ظاهريًا؟

فكر بالامر.

إذا كنا نواجه انتحالًا محتملاً على نطاق واسع وانتهاك حقوق الطبع والنشر على نطاق واسع ، فقد نحتاج إلى تغيير نهجنا لتحديد ما يشكل سرقة أدبية و / أو انتهاكًا لحقوق الطبع والنشر. ربما هناك قضية يجب رفعها لسرقة أدبية أو التعدي على حق المؤلف بشكل رئيسي أو على نطاق واسع. يمكن تفسير الفسيفساء المكونة من آلاف أو ملايين المقتطفات الصغيرة على أنها ارتكاب مثل هذه الانتهاكات. لكن المشكلة الواضحة هي أن هذا يمكن أن يجعل كل أنواع المحتوى فجأة تقع تحت مظلة الانتهاكات. قد يكون هذا منحدرًا زلقًا.

أفكار ثقيلة.

بالحديث عن الأفكار الضخمة ، قال الكاتب الأسطوري ليو تولستوي: "المعنى الوحيد للحياة هو خدمة الإنسانية".

إذا كان يتم فحص موقع الويب الخاص بك ومواقع الويب الخاصة بالآخرين من أجل تحسين الذكاء الاصطناعي ، وعلى الرغم من أنك لا تحصل على فلس واحد مقابل ذلك ، فهل سيكون لديك العزاء في الاعتقاد الراسخ بأنك تساهم في مستقبل البشرية؟ يبدو أنه ثمن ضئيل يجب دفعه.

حسنًا ، ما لم يتبين أن الذكاء الاصطناعي هو الخطر الوجودي المخيف الذي يقضي على كل البشر من الوجود. يجب أن لا تأخذ الفضل في ذلك. أفترض أنك لن تساهم في هذه النتيجة الوخيمة في أقرب وقت. إذا وضعنا هذا التنبؤ الكارثي جانبًا ، فقد تفكر في أنه إذا كان صانعو الذكاء الاصطناعي يجنون الأموال من الذكاء الاصطناعي التوليدي ، ويبدو أنهم يستمتعون بالتربح ، فيجب أن تحصل على قطعة من الكعكة أيضًا. حصة ومشاركة على حد سواء. يجب على صانعي الذكاء الاصطناعي أن يطلبوا الإذن لفحص أي موقع ويب ثم التفاوض أيضًا على السعر الذي يتعين دفعه مقابل السماح لهم بإجراء الفحص.

ننسب الفضل إلى أهله.

دعونا نعطي السير والتر سكوت الكلمة الأخيرة الآن: "أوه ، يا لها من شبكة متشابكة نسجها. عندما نمارس الخداع لأول مرة ".

ربما ينطبق هذا إذا كنت تعتقد أن الخداع على قدم وساق ، أو ربما لا ينطبق إذا كنت تعتقد أن كل شيء على ما يرام وصريح وشرعي تمامًا. من فضلك امنح نفسك الفضل في تفكيرك في هذا الأمر بسخاء. تستحقها.

المصدر: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- و ai-law /