هل تحتاج إلى المزيد من البيانات من أجل التعلم العميق؟ ستقوم شركات البيانات المصطنعة بتصنيعها لك
يمكنك أن ترى شعيرات اللحية الباهتة تبزغ من شفته العليا، والتجاعيد على جبهته، والعيوب على بشرته. إنه شخص مزيف، ولكن من المفترض أنه يماثل شخصاً حقيقياً، شأنه شأن مئات الآلاف من الأشخاص الآخرين الذين صنعتهم شركة داتاجين (Datagen)، وهي شركة تبيع البشر المزيفين الذين تم توليد أشكالهم عن طريق المحاكاة.
هؤلاء البشر ليسوا أشكالاً افتراضية للألعاب أو شخصيات متحركة للأفلام، بل بيانات مصطنعة مصممة لتغذية الشهية المتزايدة لخوارزميات التعلم العميق. تقدم شركات مثل داتاجين بديلاً مقنعاً للعملية المكلفة من حيث الوقت والمال لجمع بيانات العالم الحقيقي. ستقوم هذه الشركات بصناعة البيانات التي تحتاجها كيفما شئت ووقتما تريد وبتكلفة زهيدة نسبياً.
لتوليد البشر المصطنعين، تقوم داتاجين أولاً بإجراء مسح لبشر حقيقيين. تتعاون الشركة مع المزودين الذين يدفعون للناس للدخول إلى ماسحات ضوئية عملاقة لكامل الجسم تلتقط كل التفاصيل من قزحية العين إلى نسيج بشرتهم إلى انحناء أصابعهم. بعد ذلك، تأخذ الشركة الناشئة البيانات الأولية وتضخها عبر سلسلة من الخوارزميات التي تطور تمثيلات ثلاثية الأبعاد لجسم الشخص ووجهه وعينيه ويديه.
تقول الشركة إنها تعمل بالفعل مع أربعة من شركات التكنولوجيا العملاقة في الولايات المتحدة، لكنها لا تكشف عن أسماء هذه الشركات بشكل رسمي. تقدم أقرب الشركات المنافسة لها، سينتيزيس إيه آي (Synthesis AI) بشراً رقميين بحسب الطلب. تقوم شركات أخرى بتوليد بيانات لاستخدامها في مجالات التمويل والتأمين والرعاية الصحية. وهناك العديد من شركات البيانات المصطنعة التي يبلغ عددها ما يقرب من عدد أنواع البيانات.
في السابق كان يُنظر إلى البيانات المصطنعة على أنها أقل استحساناً من البيانات الحقيقية، لكن اليوم ينظر إليها البعض باعتبارها الترياق؛ فالبيانات الحقيقية فوضوية ومليئة بالتحيز، كما أن لوائح خصوصية البيانات الجديدة تصعب عملية جمعها. على النقيض من ذلك، تعد البيانات المصطنعة نظيفة للغاية ويمكن استخدامها لبناء مجموعات بيانات أكثر تنوعاً. وعلى سبيل المثال، يمكنك إنتاج وجوه موسومة بشكل كامل ومن مختلف الأعمار والأشكال والأعراق لبناء نظام للكشف عن الوجوه يمكن استخدامه بنجاح عبر مختلف الشرائح السكانية.
لكن هناك بعض القيود المرافقة لاستخدام البيانات المصطنعة؛ فإذا لم تنجح في محاكاة الواقع على الأرض، فقد ينتهي بها المطاف إلى إنتاج ذكاء اصطناعي أسوأ من ذلك الذي يستخدم بيانات العالم الواقعي الفوضوية والمتحيزة، أو يمكن ببساطة أن ترث نفس المشاكل الموجودة فيها. تقول كاثي أونيل، عالمة البيانات ومؤسسة شركة أوركا (ORCAA) المختصة بالتدقيق الخوارزمي: “لا أرغب في التهليل لهذا النموذج والقول ’أوه، هذا سيحل الكثير من المشاكل’؛ لأنه سيتجاهل أيضاً الكثير من الجوانب”.
بيانات تحاكي الواقع لكن ليست حقيقية
لطالما كان التعلم العميق يتمحور حول البيانات. لكن في السنوات القليلة الماضية، تعلم مجتمع الذكاء الاصطناعي أن البيانات الجيدة أكثر أهمية من البيانات الضخمة. حتى الكميات الصغيرة من البيانات الصحيحة الموسومة بوضوح يمكنها أن تساهم بشكل أكبر في تحسين أداء نظام الذكاء الاصطناعي مقارنة باستخدام 10 أضعاف كمية البيانات غير المنسقة، أو حتى باستخدام خوارزمية أكثر تطوراً.
يقول الرئيس التنفيذي لشركة داتاجين والشريك المؤسس، أوفير شاكون، إن هذا يغير الطريقة التي يجب أن تتعامل بها الشركات مع تطوير نماذج الذكاء الاصطناعي. يبدؤون حالياً بجمع أكبر قدر ممكن من البيانات ثم تعديل وضبط خوارزمياتهم للحصول على أداء أفضل. بدلاً من ذلك، يجب أن يقوموا بالأمر على نحو معاكس؛ أي يجب أن يستخدموا نفس الخوارزمية مع العمل على تحسين تركيبة بياناتهم.
لكن جمع بيانات العالم الحقيقي لإجراء هذا النوع من التجارب التكرارية مكلف للغاية ويستغرق وقتاً طويلاً. هنا بالضبط يأتي دور داتاجين؛ حيث إنه باستخدام مولد للبيانات المصطنعة، يمكن للفرق إنشاء واختبار العشرات من مجموعات البيانات الجديدة يومياً لتحديد أي منها يرفع أداء النموذج إلى الحد الأقصى.
وبهدف ضمان أن تكون البيانات ممثلة للواقع، تقدم داتاجين للمزودين إرشادات مفصلة حول عدد الأفراد الذين يجب مسحهم ضوئياً في كل فئة عمرية، ونطاق مؤشر كتلة الجسم، والعرق، بالإضافة إلى قائمة محددة من الإجراءات التي يمكنهم القيام بها مثل التجول في غرفة أو شرب الصودا. بعد ذلك، يرسل المزودون صوراً ثابتة عالية الدقة وبيانات التقاط الحركة لتلك الإجراءات. ثم تقوم خوارزميات داتاجين بتوسيع هذه البيانات إلى مئات الآلاف من المجموعات. وفي بعض الأحيان يتم فحص البيانات المصطنعة مرة أخرى، على سبيل المثال، يتم إسقاط صور الوجوه المزيفة على وجوه حقيقية لمعرفة ما إذا كانت تبدو واقعية.
تعمل داتاجين الآن على إنشاء تعابير وجهية لمراقبة انتباه السائق في السيارات الذكية، وحركات جسدية لتتبع العملاء في المتاجر ذاتية الخدمة، وقزحية العين وحركات اليد لتحسين قدرات تتبع العين واليد لسماعات الرأس الخاصة بالواقع الافتراضي. وتقول الشركة إن بياناتها قد تم استخدامها بالفعل لتطوير أنظمة الرؤية الحاسوبية التي تخدم عشرات الملايين من المستخدمين.
لا يقتصر التصنيع على نطاق واسع على البشر المصطنعين؛ حيث تقوم شركة كليك إنس (Click-Ins) الناشئة باستخدام الذكاء الاصطناعي لإجراء عمليات فحص مؤتمتة للمركبات. يقوم برنامج التصميم بإعادة إنشاء جميع طرازات السيارات التي يحتاجها الذكاء الاصطناعي للتعرف عليها ثم يعيد تصميمها بألوان وأعطال وتشوهات مختلفة في ظل ظروف إضاءة متباينة ومع خلفيات مختلفة. يتيح ذلك للشركة تحديث نظام الذكاء الاصطناعي لديها عندما يطرح صانعو السيارات طرازات جديدة، ويساعدها على تجنب انتهاك خصوصية البيانات في البلدان التي تعتبر فيها لوحات تسجيل السيارة معلومات خاصة، وبالتالي لا يسمح بوجودها في الصور المستخدمة لتدريب الذكاء الاصطناعي.
تعمل شركة موستلي إيه آي (Mostly.ai) مع شركات الخدمات المالية والاتصالات والتأمين لتزويدها بجداول لبيانات عملاء مزيفة تتيح للشركات مشاركة قاعدة بيانات العملاء الخاصة بهم مع المزودين الخارجيين بطريقة متوافقة مع القانون. ورغم أن إغفال الهوية قد يقلل من غنى مجموعة البيانات، لكنه لا يزال يخفق في حماية خصوصية الأشخاص على نحو مناسب. في المقابل، يمكن استخدام البيانات المصطنعة لإنشاء مجموعات بيانات مزيفة مفصلة تشترك في نفس الخصائص الإحصائية المماثلة لخصائص البيانات الحقيقية للشركة. كما يمكن استخدامها لمحاكاة البيانات التي لا تمتلكها الشركة حتى الآن، بما في ذلك مجموعة متنوعة من العملاء أو سيناريوهات مثل النشاط الاحتيالي.
يقول مؤيدو استخدام البيانات المصطنعة إنها يمكن أن تساعد في تقييم أنظمة الذكاء الاصطناعي أيضاً. ففي ورقة بحثية نُشرت مؤخراً في مؤتمر للذكاء الاصطناعي، أظهرت سوتشي ساريا، الأستاذة المساعدة في مجال التعلم الآلي والرعاية الصحية في جامعة جونز هوبكنز والمؤلفون المشاركون معها، كيف يمكن استخدام تقنيات توليد البيانات لاستقراء مجموعات مختلفة من المرضى من مجموعة واحدة من البيانات. قد يكون هذا الأمر مفيدًا على سبيل المثال إذا كانت الشركة تمتلك فقط بيانات حول الشريحة السكانية الشابة في مدينة نيويورك ولكنها ترغب في فهم كيفية أداء الذكاء الاصطناعي على بيانات السكان المسنين لدى دراسة ارتفاع معدل انتشار مرض السكري. أسست ساريا الآن شركتها الخاصة، بيزيان هيلث (Bayesian Health)، التي ستستخدم هذه التقنية للمساعدة في اختبار أنظمة الذكاء الاصطناعي الطبية.
قيود اصطناع البيانات
هل هناك مبالغة حول إمكانات البيانات المصطنعة؟
عندما يتعلق الأمر بالخصوصية، يقول آرون روث، أستاذ علوم الحاسوب والمعلومات في جامعة بنسلفانيا، إنه “لمجرد أن البيانات ’اصطناعية’ ولا تتوافق بشكل مباشر مع بيانات المستخدم الحقيقي لا يعني أنها لا تحتوي معلومات حساسة عن أشخاص حقيقيين. وعلى سبيل المثال، لقد ثبت أن بعض تقنيات توليد البيانات تقوم بإعادة إنتاج الصور أو النصوص الموجودة في بيانات التدريب. في حين تبين أن بعض هذه التقنيات يقع عرضة للهجمات التي تدفعها إلى إعادة توليد البيانات نفسها.
قد لا يمثل ذلك مشكلة بالنسبة لشركة مثل داتاجين، التي لا تهدف بياناتها المصطنعة إلى إخفاء هوية الأفراد الذين وافقوا على إجراء مسح ضوئي لهم. لكنه سيشكل مشكلة كبيرة بالنسبة للشركات التي تقدم حلولها باعتبارها وسيلة لحماية المعلومات المالية أو معلومات المرضى الحساسة.
تشير الأبحاث إلى أن الجمع بين تقنيتين لتوليد البيانات المصطنعة -على وجه الخصوص: الخصوصية التفاضليةوالشبكات التوليدية التنافسية– يمكن أن ينتج أقوى حماية للخصوصية، كما يقول بيرنيس هيرمان، عالم البيانات في معهد إي ساينس بجامعة واشنطن. لكن ما يثير قلق المشككين هو أن هذا التفصيل الدقيق بشأن الخصوصية يمكن أن يضيع في مصطلحات لغة التسويق التي يستخدمها مزودو البيانات المصطنعة، والذين لن يكونوا صريحين دائماً بشأن التقنيات التي يستخدمونها.
وفي الوقت نفسه، لا تتوافر الكثير من الأدلة حول قدرة البيانات المصطنعة على التخفيف بشكل فعال من تحيز أنظمة الذكاء الاصطناعي. ويعود أحد الأسباب وراء ذلك إلى حقيقة أن استقراء بيانات جديدة من مجموعة بيانات حالية متحيزة قد لا يؤدي بالضرورة إلى توليد بيانات ذات تمثيل أوسع. وعلى سبيل المثال، تحتوي بيانات داتاجين الأولية على عدد أقل نسبياً من الأقليات العرقية، ما يعني أنها تستخدم عدداً أقل من نقاط البيانات الحقيقية لإنشاء بشر مزيفين من هذه المجموعات. ورغم أن عملية التوليد لا تقوم على التخمين بشكل كامل، فلا يزال من المرجح أن يكون هؤلاء البشر المزيفون أكثر ابتعاداً عن الواقع. تقول أونيل: “إذا كانت الوجوه المصطنعة ذات البشرة الداكنة التي تنتجها لا تشابه الوجوه الحقيقية بدرجة كافية، فإنك لا تحل المشكلة في الحقيقة”.
سبب آخر للمشكلة يكمن في أن امتلاك مجموعات بيانات متوازنة تماماً لا يضمن الحصول على أنظمة ذكاء اصطناعي عادلة تماماً، كما يقول كريستو ويلسون، الأستاذ المشارك في علوم الحاسوب بجامعة نورث إيسترن. إذا كان مقرض بطاقة الائتمان يحاول تطوير خوارزمية ذكاء اصطناعي لتسجيل المقترضين المحتملين، فإنه لن يتمكن من القضاء على جميع أشكال التمييز الممكنة ببساطة عن طريق تمثيل الأشخاص ذوي البشرة البيضاء والسوداء في بياناته. فقد يتسلل التمييز من خلال الاختلافات بين المتقدمين من ذوي البشرة البيضاء والسوداء.
ولتعقيد الأمور أكثر، تُظهر الأبحاث الأولية أنه في بعض الحالات قد لا يكون من الممكن حتى الاعتماد على البيانات المصطنعة في تطوير أنظمة ذكاء اصطناعي تتسم بالعدالة وتحافظ على الخصوصية في الوقت نفسه. ففي ورقة بحثية نُشرت مؤخراً في مؤتمر للذكاء الاصطناعي، حاول باحثون من جامعة تورنتو ومعهد فيكتور القيام بذلك باستخدام صور الأشعة السينية للصدر. وقد وجدوا أنهم غير قادرين على إنشاء نظام ذكاء اصطناعي طبي دقيق عندما حاولوا إنشاء مجموعة بيانات مصطنعة متنوعة من خلال استخدام مزيج من الخصوصية التفاضلية والشبكات التوليدية التنافسية.
لا يعني أي من هذا أنه ينبغي عدم استخدام البيانات المصطنعة. في الواقع، قد يغدو من الضروري استخدامها. وفي ظل حاجة المشرعين للتعامل مع ضرورة اختبار امتثال أنظمة الذكاء الاصطناعي للقوانين، فقد يكون هذا هو النهج الوحيد الذي يمنحهم المرونة التي يحتاجونها لإنشاء بيانات اختبار مستهدفة عند الطلب، كما تقول أونيل. لكن هذا يجعل دراسة المسائل حول قيود البيانات المصطنعة أكثر أهمية وإلحاحاً الآن.
وتضيف أونيل: “من المرجح أن تتحسن البيانات المصطنعة بمرور الوقت، ولكن ذلك يحتاج إلى بحث وجهد ولن يحدث عن طريق الصدفة”.