الابتكار الاجتماعي
الحصول على البيانات في الذكاء الاصطناعي أصعب بكثير مما نعتقد

مجلة اتجاهات الأثر الاجتماعي - العدد 16

الحصول على البيانات في الذكاء الاصطناعي أصعب بكثير مما نعتقد

تعد متاجر جو Go التابعة لأمازون Amazon أماكن رائعة ومثيرة للإعجاب، حيث تتيح المتاجر التي ليس لديها محاسبون -والتي افتُتحت لأول مرة في سياتل في عام 2018- للعملاء الذين يستخدمون التطبيقات بأخذ الأغراض والخروج بها بكل بساطة، حيث يستخدم النظام الموجود العديد من أجهزة الاستشعار، ولكن الأمر الأروع والأكثر رقياً هو أن عملية الشراء هذه تتم بواسطة كاميرات متصلة بنظام ذكاء اصطناعي تتبع الأغراض عند أخذها من الرفوف، وبمجرد مغادرة المتسوقين ببضائعهم، تُحسب الفاتورة وتُحصَّل الرسوم منهم تلقائياً.

وإن القيام بذلك في متجر مزدحم ليس بالأمر السهل، فيجب أن يتعامل النظام مع المتاجر المزدحمة التي يختفي فيها الأشخاص عن الأنظار خلف العملاء الآخرين، كما يجب أن يتعرف على العملاء الأفراد وكذلك الأصدقاء أو مجموعات العائلة، فإذا وضع الطفل غرضاً في سلة العائلة، فينبغي للنظام أن يدرك أن عليه فرض رسوم على الوالدين، ويجب فعل ذلك كله بصورة آنية وبدرجة عالية من الدقة.

ويتطلب تعليم الآلات أن تعرض عليها الكثير من "البيانات التدريبية" على شكل مقاطع فيديو لعملاء يبحثون في الرفوف، ويأخذون الأغراض، ويعيدونها وما شابه ذلك، وبالنسبة للمهام الموحدة مثل التعرف على الصور، يمكن لمطوري الذكاء الاصطناعي استخدام مجموعات البيانات التدريبية العامة التي تحتوي كل منها على آلاف الصور، ولكن لم تكن هناك مجموعة تدريبية من هذا القبيل تُظهر أشخاصاً يبحثون في المتاجر.

وقد كان من الممكن إنشاء بعض البيانات من قبل موظفي أمازونAmazon ، الذين سُمح لهم بدخول الصيغ التجريبية التي تم وُضعت للمتاجر، ولكن هذا النهج جعل تأثير الشركة لحد معين فقط، نظراً لوجود العديد من الطرق التي قد يأخذ بها الإنسان منتجاً من الرف ثم يقرر اختياره أو إعادته فوراً أو إعادته لاحقاً، ولكي يتم العمل في العالم الحقيقي، فيجب أن يغطي النظام أكبر عدد ممكن من هؤلاء.

ومن الناحية النظرية نجد أن العالم مليء بالبيانات التي تعتبر شريان الحياة للذكاء الاصطناعي الحديث، وتعتقد مؤسسة البيانات الدولية International Data Corporation IDC -وهي شركة أبحاث سوقية- أن العالم أنتج ثلاثة وثلاثين زيتابايت من البيانات في عام 2018، وهو ما يكفي ليملأ سبعة تريليون قرص فيديو رقمي، ولكن كاثلين والش Kathleen Walch من شركة كوجنيليتيكا Cognilytica -وهي شركة استشارية ترتكز على الذكاء الاصطناعي- تقول "إن مشكلات البيانات -مع ذلك- هي واحدة من أكثر النقاط الشائكة شيوعاً في أي مشروع ذكاء اصطناعي، وكما في حالة أمازونAmazon ، قد لا توجد البيانات المطلوبة على الإطلاق. أو قد تُحبس في خزائن أحد المنافسين، وحتى عندما يكون بالإمكان استخراج البيانات ذات الصلة، فقد لا تكون مناسبة لتغذية أجهزة الحاسوب".

تقول شركة كوجنيليتيكا Cognilytica "إن الجدل حول البيانات من مختلف الأنواع يستغرق حوالي ثمانين بالمائة من الوقت المستغرق في مشروع نموذجي للذكاء الاصطناعي"، ويتطلب تدريب نظام التعلم الآلي أعداداً كبيرة من الأمثلة المصنفة بعناية، وعادة ما يتعين على البشر عمل هذه التصنيفات، وغالباً ما تؤدي شركات التكنولوجيا الكبيرة عملها داخلياً، ويمكن للشركات التي تفتقر إلى الموارد أو الخبرة المطلوبة الاستفادة من أنشطة التعاقد الخارجي المتنامية للقيام بذلك نيابة عنهم.

 وهناك شركة صينية تدعى موبي هايك MBH  Moby Hike -على سبيل المثال- توظف أكثر من ثلاث مائة ألف شخص لتصنيف صور لا نهاية لها للوجوه أو مشاهد الشوارع أو المسح الطبي ليتمكنوا من معالجتها بواسطة الآلات.

ويرتبط قسم ميكانيكي تركMechanical Turk  أيضاً -وهو قسم فرعي آخر من أمازونAmazon - بجيش من العمال البشريين العاديين الذين يتقاضون أجوراً مقابل أداء مهام متكررة.

وتعتقد شركة كوجنيليتيكا Cognilytica أن سوق "إعداد البيانات" التابع لجهات خارجية كان يستحق أكثر من مليار ونصف مليار دولار في عام 2019، ويمكن أن ينمو إلى ثلاثة مليارات ونصف مليار دولار بحلول عام 2024، وكذلك الأمر بالنسبة لأعمال تصنيف البيانات، حيث أنفقت الشركات 1.7 مليار دولار على الأقل في عام 2019، وهو رقم يمكن أن يصل إلى أربعة مليارات ومليون دولار بحلول عام 2024، يقول رون شميلزر Ron Schmelzer من شركة كوجنيليتيكا Cognilytica أيضاً "إن التمكّن من موضوع ما ليس ضرورياً، ففي التشخيص الطبي مثلاً يمكن تدريب محبي تصنيف البيانات ليصبحوا أشبه بالأطباء في التعرف على أشياء مثل الكسور والأورام، ولكن الإبقاء على قدر معين مما يسميه باحثو الذكاء الاصطناعي "بخبرة المجال" هو أمر بالغ الأهمية".

ويمكن أن تحتوي البيانات نفسها على فخاخ، وذلك حيث تربط أنظمة التعلم الآلي بين المدخلات والمخرجات، ولكنها تفعل ذلك عشوائياً، ودون فهم للسياق الأوسع، ففي عام 1968 حذر  دونالد كنوث Donald Knuth معلم البرمجة، من أن أجهزة الحاسوب "تفعل ما قيل لها بالضبط، لا أكثر ولا أقل"، والتعلم الآلي مليء بالأمثلة عن مقولة السيد كنوث Knuth، حيث تتبع الآلات نص القانون بدقة، بينما تغفل عن روحه.

Asset 55@2x.png

وجد باحثون في 2018 من ماونت سينا Mount Sinai -وهي شبكة مستشفيات في نيويورك- أن هناك نظام ذكاء اصطناعي دُرِّب على اكتشاف الالتهاب الرئوي في الأشعة السينية للصدر، وقد أصبح هذا النظام أقل كفاءة بصورة ملحوظة عند استخدامه في مستشفيات غير تلك التي دُرِّب عليها، واكتشف الباحثون أن الآلة كانت قادرة على تحديد المستشفى الذي جاء منه الفحص، وكانت إحدى الطرق هي تحليل الرموز المعدنية الصغيرة الموضوعة في زاوية جهاز الفحص، والتي تختلف بين المستشفيات.

ونظراً لأن إحدى المستشفيات في مجموعة التدريب لديها معدل أساسي للالتهاب الرئوي أعلى بكثير من غيرها، فإن هذه المعلومات في حد ذاتها كانت كافية لتعزيز دقة النظام بصورة كبيرة، وأطلق الباحثون على الأزيز الذكي الذي أصدره النظام اسم "الغش"، على أساس أنه أخفق عندما زُوّد النظام ببيانات من مستشفيات لا يعرفها.

نوع مختلف من العِرق:

التحيز هو مصدر آخر من المشكلات، ففي العام الماضي اختبر المعهد الوطني الأمريكي للمعايير والتكنولوجيا ما يقرب من مائتي خوارزمية للتعرف على الوجوه، ووجد أن العديد منها كانت أقل دقة في تحديد الوجوه السوداء من تلك البيضاء، وقد تعكس المشكلة غلبة الوجوه البيضاء في بيانات التدريب الخاصة بهم، ووجدت دراسة من شركة الآلات التجارية الدولية International Business Machines Corporation IBM  نُشرت العام الماضي، أن أكثر من 80% من الوجوه في ثلاث مجموعات تدريب مستخدمة على نطاق واسع كانت بشرتها فاتحة.

Asset 54@2x.png

وإن مثل هذه العيوب -على الأقل من الناحية النظرية- هي سهلة الإصلاح (فقد قدمت شركة الآلات التجارية الدولية International Business Machines Corporation IBM  مجموعة بيانات ذات طابع تمثيلي ليستخدمها أي شخص). ولكن يمكن أن تكون إزالة مصادر التحيز الأخرى أكثر صعوبة، ففي عام 2017، تخلت أمازون Amazon عن مشروع توظيف مصمم للبحث عن السير الذاتية لتحديد المرشحين المناسبين عندما تبين أن النظام يفضّل المتقدمين الذكور، وكشف تحليل عملية التشغيل قبل إتمامها عن مشكلة دائرية ذاتية التعزيز، ثم دُرّب النظام على السير الذاتية للمتقدمين الناجحين السابقين للشركة، ولكن نظراً لأن معظم القوى العاملة في مجال التكنولوجيا هي بالفعل من الذكور، فإن النظام المدرَّب على البيانات التاريخية سوف يختار الذكور كمؤشر قوي على الملاءمة.

فيمكن للبشر محاولة منع مثل هذه الاستدلالات، كما يقول فابريس سيايس Fabrice Ciais الذي يدير فريق التعلم الآلي في شركة برايس ووترهاوس كوبرز PricewaterhouseCoopers في بريطانيا (وحاولت أمازون Amazon فعل ذلك بالضبط)، وفي كثير من الحالات وفي معظم البلدان الغنية، لا يمكن لأصحاب العمل التوظيف على أساس عوامل مثل الجنس أو العمر أو العرق، ولكن يقول السيد سيايس Ciais "إن الخوارزميات يمكن أن تتفوق على أسيادها البشريين باستخدام المتغيرات الوسيطة proxy variables لإعادة بناء المعلومات المحظورة، ويمكن أن يحتوي كل شيء من الهوايات إلى الوظائف السابقة ورموز المنطقة في أرقام الهواتف على تلميحات إلى أن المتقدم من المحتمل أن يكون أنثى أو شاباً أو من أقلية عرقية".

إذا كانت ثقافات بيانات العالم الواقعي صعبة للغاية، فإن أحد الخيارات هو تكوين بعض البيانات الخاصة بك، وهذا ما فعلته أمازون Amazon لتنقيح وزيادة دقة متاجرها التي تدعى جو Go وذلك حيث استخدمت الشركة برنامج رسومات لإنشاء متسوقين افتراضيين، واستُخدم هؤلاء البشر المصطنعون لتدريب الآلات على العديد من المواقف الصعبة أو غير العادية التي لم تظهر في بيانات التدريب الحقيقية، ولكن ربما ظهرت عندما نُشر النظام في العالم الواقعي.

و أمازون Amazon ليست وحدها من فعل هذا، إذ تُجري شركات السيارات ذاتية القيادة الكثير من التدريبات على محاكاة عالية الدقة للواقع، بحيث لا يمكن إحداث ضرر حقيقي عندما يحدث خطأ ما، ووصفت ورقة بحثية نُشرت في عام 2018 من شركة إنفيديا NVIDIA -وهي شركة تصنيع شرائح- طريقة لإنشاء بيانات تدريب مصطنعة بسرعة للسيارات ذاتية القيادة، وخلصت إلى أن الخوارزميات الناتجة تعمل بصورة أفضل من تلك المدربة على البيانات الحقيقية وحدها.

وتُعتبر الخصوصية عامل جذب آخر للبيانات المصطنعة، ويجب على الشركات التي تأمل في استخدام الذكاء الاصطناعي في الطب أو التمويل أن تتعامل مع قوانين مثل قانون التأمين الصحي لقابلية النقل والمساءلة في أمريكا، أو اللائحة العامة لحماية البيانات في الاتحاد الأوروبي، وقد يكون إخفاء هوية البيانات بشكل صحيح أمراً صعباً، وهي مشكلة لا تحتاج الأنظمة المدربة على الأشخاص المصطنعين إلى القلق بشأنها.

ويقول إيوان كاميرون Ewen Cameron  أحد زملاء سيايس Ciais "إن الحيلة تكمن في ضمان أن تكون المحاكاة قريبة بما يكفي من الواقع بحيث يضمنون استمرار دروسهم"، وبالنسبة لبعض المشكلات المحددة جيداً مثل اكتشاف الاحتيال أو تسجيل النقاط الائتمانية فستكون أمراً بسيطاً، إذ يمكن إنشاء البيانات المصطنعة عن طريق إضافة ضوضاء إحصائية إلى النوع الحقيقي، وعلى الرغم من أن المعاملات الفردية في هذه الحالة ستكون وهمية، إلا أنه من الممكن ضمان أنها ستتمتع -إجمالاً- بنفس الخصائص الإحصائية مثل البيانات الحقيقية التي اشتُقت منها، ولكن كلما أصبحت المشكلة أكثر تعقيداً، كان من الصعب ضمان تحويل الدروس المستفادة من البيانات الافتراضية بسلاسة إلى العالم الحقيقي.

إن عملية جمع البيانات ستتم لمرة واحدة، ولكن لفترة من الزمن، وهذا قد يراه البعض مضيعة للوقت، لكنه في الوقت ذاته يعزز عملية التعلم الآلي، بحيث تصل الآلة إلى نموذج يساعدها في تنفيذ الملايين من القرارات ذاتياً دون تدخل الإنسان.

ولقد افتتحت أمازون Amazon ستة وعشرين متجراً من متاجر جو Go وتقدمت بترخيص التكنولوجيا لتجار التجزئة الآخرين، ولكن حتى في هذه الحالة توجد أسباب تدعو للحذر، حيث تخضع العديد من نماذج الذكاء الاصطناعي لـ "الانجراف"، أي أن التغييرات في كيفية عمل العالم ستجعل قراراتهم تصبح أقل دقة مع مرور الوقت، كما توضح سفيتلانا سيكولار Svetlana Sicular من شركة جارتنر Gartner للأبحاث، حيث يتغير سلوك العملاء، وتتطور اللغة، ويغير المنظّمون ما يمكن أن تفعله الشركات.

وفي بعض الأحيان، يحدث هذا الانجراف بين عشية وضحاها، فتقول سيكولار Sicular "كان شراء تذاكر الطيران ذهاباً فقط مؤشراً جيداً يدل على عمليات الاحتيال [في نماذج الكشف الآلي]، وبعد ذلك مع عمليات الإغلاق الخاصة بفيروس كوفيد-19، فجأة كان الكثير من الأبرياء يفعلون ذلك"، وإن بعض أنظمة التعرف على الوجه التي اعتادت على رؤية وجوه بشرية مكشوفة، تكافح الآن بعد أن أصبحت الكمامات معياراً متبعاً، واحتاجت الأنظمة اللوجستية الآلية إلى مساعدة من البشر للتعامل مع الطلب المفاجئ على مناديل الحمامات والطحين وغيرها من المواد الغذائية الأساسية، وتعني قابلية التغيير التي يتمتع بها العالم أن هناك حاجة إلى المزيد من التدريب، مما يعني تزويد الآلات بمزيد من البيانات، في دورة لا تنتهي من إعادة التدريب، ويحذر السيد كاميرون Cameron من أن "الذكاء الاصطناعي ليس نظاماً يمكن تثبتيه ثم نسيانه ببساطة".

شارك هذا المقال

تواصل معنا

نرحب بكافة استفساراتكم وتساؤلاتكم...