أحياناً تُسهّل برامج المحادثة مثل 'تشات جي بي تي ChatGPT" حياتنا اليومية من خلال القيام بمهام مُرهقة. لكن هذه الروبوتات الذكية لها ثمنها. فبصمتها الكربونية والمائية الكارثية معروفة جيدًا الآن. وهناك جانب آخر مُقلق للغاية، ولكنه أقل إثارة للقلق: فالذكاء الاصطناعي يُلوّث النصوص المكتوبة، ويُعطّل النظام البيئي اللغوي، مع خطر تعقيد دراسة اللغة.
كشفت دراسة نُشرت عام 2023 أن استخدام الذكاء الاصطناعي في المنشورات العلمية قد ازداد بشكل ملحوظ منذ إطلاق "تشات جي بي تي" (الإصدار 3.5). وتتجاوز هذه الظاهرة المجال الأكاديمي، لتشمل جزءًا كبيرًا من المحتوى الرقمي، لا سيما موسوعة ويكيبيديا التشاركية، ومنصة التحرير الأمريكية Medium.
تكمن المشكلة أولاً في أن هذه النصوص قد تكون غير دقيقة أحياناً؛ لأن الذكاء الاصطناعي يميل إلى اختلاق إجابات خارج نطاق تدريبه. كما تكمن في أسلوبها غير الشخصي والموحّد.
يُهدّد التلوث النّصي بالذكاء الاصطناعي الفضاءات الرقمية، حيث يكون إنتاج المحتوى ضخمًا وضعيف التنظيم (مثل شبكات التواصل الاجتماعي، والمنتديات الإلكترونية، ومنصات التجارة الإلكترونية، وغيرها). كما تُعدّ تقييمات العملاء، ومقالات المدونات، وأعمال الطلاب، ودورات المعلمين من المجالات الرئيسة التي يُمكن للذكاء الاصطناعي أن يتسلل فيها بحذر إلى المحتوى المُنتج والمنشور في نهاية المطاف.
هذا التوجه يُمكّننا من الحديث عن تلوث النصوص. ولدى اللغويين سبب وجيه للقلق. ففي المستقبل القريب، قد تنخفض نسبة بيانات اللغة الطبيعية على الإنترنت لدرجة أن النصوص المُولّدة بالذكاء الاصطناعي ستطغى عليها. سيؤدي هذا التلوث إلى تشويه التحليلات اللغوية، ويؤدي إلى تمثيلات متحيزة للاستخدام البشري الفعلي للغة. وفي أحسن الأحوال، سيُضيف طبقة إضافية من التعقيد إلى تركيبة عينات اللغة التي سيتعيّن على اللغويين كشفها.
ما تأثير ذلك على اللغة؟
لا يُمكن اكتشاف هذا التلوث فورًا للعين غير المُدربة. مع ذلك، يُدرك المرء مع الممارسة أن لغة "تشات جي بي تي" مليئة بتعقيدات الكلام التي تكشف عن أصولها الخوارزمية. فهو يُفرط في استخدام الصفات المُؤكدة، مثل "حاسم"، و"أساسي"، و"مهم"، أو "رائع"، بالإضافة إلى تعبيرات مُبهمة ("كثير..."، و"بشكل عام...")، وغالبًا ما يُجيب بقوائم مُرقّمة أو مُنقطية. من المُمكن التأثير على أسلوب روبوت الدردشة، ولكن هذا هو السلوك المُعتاد في مُعظم الاستخدامات.
سلّطت مقالة نُشرت في مجلة فوربس في ديسمبر 2024 الضوء على تأثير الذكاء الاصطناعي التوليدي على مفرداتنا ومخاطره على التنوع اللغوي. نظرًا لاستخدامه القليل من التعبيرات المحلية والتعبيرات الاصطلاحية الإقليمية، سيعزّز الذكاء الاصطناعي تجانس اللغة. إذا طُلب من نموذج ذكاء اصطناعي كتابة نص باللغة الإنجليزية، فمن المرجح أن تكون المفردات المستخدمة أقرب إلى اللغة الإنجليزية العالمية القياسية، متجنبةً التعبيرات الشائعة في مختلف المناطق الناطقة باللغة الإنجليزية.
يمكن للذكاء الاصطناعي أيضًا تبسيط المفردات البشرية بشكل كبير، بتفضيل كلمات معينة على أخرى، مما يؤدي إلى تبسيط تدريجي للقواعد النحوية والصرفية. يمكننا أن نحسب عدد مرات ظهور صفتي "دقيق" و"معقد" في مُخرجات روبوت المحادثة، ومقارنة هذا الرقم باستخدامنا الشخصي لنتأكد بأنفسنا.
ما يقلق اللغويين:
يدرس علم اللغويات اللغة باعتبارها القوة التي تُشكل أساس اكتساب اللغة واستخدامها. ومن خلال تحليل الظواهر اللغوية في اللغات الطبيعية، يسعى الباحثون إلى فهم آلية عمل اللغات، سواءً فيما يُميزها، أو ما يُوحدها، أو ما يجعلها إبداعًا بشريًا. ويسعى علم اللغويات المتسلسلة إلى جمع مجموعات كبيرة من النصوص لنمذجة نشوء وتطور الظواهر المعجمية والنحوية.
تعتمد النظريات اللغوية على إنتاجات المتحدثين الأصليين؛ أي الأشخاص الذين اكتسبوا لغةً منذ الصغر وأتقنوها حدسيًا. تُجمع عينات من هذه الإنتاجات في قواعد بيانات تُسمى "المجموعات اللغوية". يُهدّد الذكاء الاصطناعي الآن إنشاء هذه الموارد الأساسية واستغلالها.
بالنسبة للغة الفرنسية، تُقدّم قواعد بيانات مثل Frantext (التي تجمع أكثر من 5000 نص أدبي) أو French Treebank (التي تحتوي على أكثر من 21500 جملة مُحلّلة بدقة) محتوى مُوثّقًا بدقة. ومع ذلك، يُثير الوضع قلقًا بشأن مجموعات النصوص التي تجمع النصوص الإلكترونية تلقائيًا. هذه القواعد، مثل frTenTen أو frWaC، التي تسحب باستمرار محتوى من الإنترنت الناطق بالفرنسية، تتعرّض لخطر التلوّث بالنصوص المُولّدة بالذكاء الاصطناعي. في النهاية، قد تُصبح الكتابات البشرية الأصيلة محدودة.
أما المجموعات اللغوية التقليدية فتتألف من إنتاجات عفوية لا يدرك فيها المتحدثون أن لغتهم ستخضع للتحليل، وهو شرط أساسي لضمان صحة البيانات. لكن ازدياد النصوص المُولّدة بالذكاء الاصطناعي يُشكِّل تحديًا لهذا المفهوم التقليدي للمجموعات كأرشيفات للاستخدام اللغوي الأصيل.
مع تزايد ضبابية الحدود بين اللغة البشرية واللغة الآلية، تُطرح عدة أسئلة: ما هي المكانة التي يجب منحها للنصوص المُولّدة بالذكاء الاصطناعي؟ كيف يُمكن تمييزها عن النصوص البشرية؟ ما هي آثارها على فهمنا للغة وتطورها؟ كيف يُمكننا الحدّ من التلوث المُحتمل للبيانات المُخصصة للدراسات اللغوية؟
لغة متوسطة وغير مجسّدة:
قد يراودنا أحيانًا وهم التحدّث مع إنسان، كما في فيلم "هي" (2013)، ولكنه وهمٌ لا أكثر. فالذكاء الاصطناعي، المُستلهم من تعليماتنا أو "الإشارات"، يتلاعب بملايين نقاط البيانات لتوليد تسلسلات من الكلمات المحتملة، دون فهم بشري حقيقي. لا يتمتع الذكاء الاصطناعي الحالي بثراء الصوت البشري. أسلوبه يمكن التعرّف عليه بسهولة لأنه متوسّط. إنه أسلوب الكثيرين، وبالتالي ليس حكراً على أحد.
باستخدام عبارات من نصوص لا تُحصى، يحسب الذكاء الاصطناعي متوسط كل لغة. تبدأ العملية بقاعدة بيانات نصية ضخمة تجمع طيفًا واسعًا من الأساليب والمواضيع والسياقات اللغوية. بمرور الوقت، يُدرّب الذكاء الاصطناعي ويُحسّن فهمه للغة (الفهم يعني معرفة مجموعات الكلمات)، ولكنه يقوم بتخفيفها ما يجعل كل طريقة نطق فريدة. يتنبأ الذكاء الاصطناعي بالكلمات الأكثر شيوعًا، وبالتالي يفقد أصالة كل صوت.
مع أن تشات جي بي تي قادر على محاكاة اللهجات واللكنات (دون استبعاد إثارة السخرية أحيانًا)، وتغيير أسلوبه عند الطلب، فما جدوى دراسة المحاكاة دون روابط موثوقة بالتجارب الإنسانية الأصيلة؟ ما جدوى التعميم من لغة اصطناعية، نتاج تعميم مُجرّد من الإنسانية؟
لأن اللغويات علمٌ إنساني، والظواهر النحوية التي ندرسها بشريةٌ بطبيعتها؛ فإن مهمتنا كلغويين تتطلب منا دراسة نصوص إنسانية أصيلة، مرتبطة بالتجارب الإنسانية والسياقات الاجتماعية. وخلافًا للعلوم الدقيقة، نُقدّر الانتظام وعدم الانتظام في اللغة. ولنأخذ مثالًا واضحًا على ذلك عبارة: "aprés que" (بالفرنسية تعني: بَعْدَ) عادةً ما تتبعها الصيغة الاخبارية، وفقًا لكتب النحو، ولكنها تُستخدم كثيرًا مع صيغة المضارع في الاستخدام اليومي. تُجسّد هذه الانحرافات عن القاعدة بجلاء الطبيعة الاجتماعية والإنسانية للغة.
تهديد الأوربوروس:
يُشكّل تلوّث مجموعات البيانات اللغوية بمحتوى مُولّد بواسطة الذكاء الاصطناعي تحديات منهجية جسيمة. ويتمثل الخطر الأكبر في هذا السيناريو في ظهور ما يُمكن تسميته "الأوروبوروس اللغوي": وهي دورة من الاستهلاك الذاتي تتعلّم فيها نماذج اللغة الكبيرة من النصوص التي أنتجتها بنفسها.
وقد تؤدي هذه الحلقة المعززة ذاتياً إلى تشويه تدريجي لما نعتبره لغة طبيعية، حيث يتعلّم كل جيل من نماذج الذكاء الاصطناعي من الآثار والتحيزات التي خلفتها الأجيال السابقة ويعمل على تضخيمها.
وقد يؤدي هذا إلى تحول تدريجي بعيدًا عن نماذج اللغة البشرية الأصيلة، مما يخلق ما يسمّى ظاهرة "الوادي اللغوي الغريب"، حيث يصبح النص الذي يتم إنشاؤه بواسطة الذكاء الاصطناعي أكثر انتشارًا وأقل تمثيلًا للتواصل البشري الأصيل في نفس الوقت.
***
● Guillaume Desagulier غيوم ديساجولير ◂ أستاذ اللغويات الإنجليزية، جامعة بوردو مونتين
المصدر ◂ 