الخلطة السرية للنمو من محلل بيانات إلى عالم بيانات
كاتب المقال: Natalia Koupanou ترجمة: سعد الشهراني مراجعة: يحيى خوجة
[رابط الموضوع الأصلي هنا]
مما لا شك فيه أن موجة علم البيانات قد وصلت لمعظم الصناعات، مما يجعلها أكثر الوظائف جاذبية في القرن الحادي والعشرين كما هو مشار إليه في هارفارد بيزنس ريفيو. على الرغم من ازدياد الطلب والشهية لعلماء البيانات ذوي الخبرة، إلا أن الوظيفة توصف بشكل غامض في معظم الأوقات. أيضاً، لا يزال التصور بين علم البيانات وتحليلات البيانات أو هندستها غير محدد بشكل واضح من قبل الكثير من مديري التوظيف. هذا الافتقار إلى معيار الصناعة الحقيقي يربك الكثير من المهنيين الذين يرغبون في التحول إلى دور علم البيانات. بالتحدث إلى العديد من المحللين ومطوري البرامج، أدركت كم يمكن أن تكون المعلومات المتوفرة حول الذكاء الاصطناعي وتعلم الآله (ML) هائلة. أعرف أيضًا من التجربة مدى صعوبة معرفة من أين تبدأ من دون أي توجيه. حاليًا، أنا عالم بيانات في Zoopla وأرغب في مشاركة بعض الدروس التي تعلمتها من رحلتي المهنية الشخصية في التحليلات في علم البيانات.
الوقوف بقوة على أساس رياضي صلب
غالبية خوارزميات تعلم الآله مبنية على حساب التفاضل والتكامل متعدد المتغيرات والجبر الخطي وغير الخطي. يمكن لعلماء البيانات ذوي المهارات العالية تغيير برنامج الحاسب على مستوى الرياضيات وبالتالي تحقيق تحسن حقيقي في أداء النموذج. من المهم أن يكون لديك المهارات الرياضية، وخاصة الإحصاء والجبر الخطي. إن امتلاك القدرة على تعلم تقنيات تعلم الآلة وفهمها هو شرط لتصبح عالم بيانات. لا يهم من أين تعلمتها سواءاً تعلمتها من خلال دراسة علم النفس أو تخصص الرياضيات، سواءاً بشهادة الدكتوراه أو دورة عبر الإنترنت.
أنا شخصياً لديّ درجة البكالوريوس والماجستير في الهندسة من جامعة كامبريدج. عادة توفر درجات البكالوريوس STEM أساسيات في الرياضيات اللازمة لتعلم تقنيات تعلم الآلة وعلم البيانات. الكثير من علماء البيانات الطموحين يشعرون بالإحباط من خرافة الدكتوراه كشرط مسبق لمهنة علم البيانات. يوجد حاليًا العديد من علماء البيانات الحاصلين على درجة الدكتوراه، لكن هذه ليست قاعدة. على سبيل المثال، يتمتع زميلي السابق جورجي برازيل حاصل على درجة الماجستير في الرياضيات التطبيقية بأكثر من 7 سنوات من الخبرة في مجال علوم البيانات في كبرى الشركات بما فيها مايكروسوفت.
نصيحة 1: ركز على قدراتك بدلاً من خلفيتك.
كعالم بيانات، غالبًا تقسم المشكلات الصعبة ذات النهايات المفتوحة والمحددة إلى خطوات صغيرة، وهذه المهارة تم تدريبك عليها خلال مرحلة الدراسات العليا في فترة 3-6 سنوات. يمكن الصناعة أن تقدم أيضًا هذه المهارة، ولهذا اخترت شخصيًا الانضمام إلى شركة ناشئة للتجارة الإلكترونية بعد دراستي الجامعية حيث كنت العضو الثاني في فريق التحليلات الرقمية والتسعير.
علم نفسك قبل تعليم جهازك
يقوم محللي البيانات بتقديم المعلومات السابقة والحالية وتلخيصها وتفسيرها لجعلها قابلة للاستخدام في الأعمال. وهذا مختلف تمامًا عن عالم البيانات، الذي يتمثل دوره في تلخيص البيانات بطريقة تسمح بإجراء التنبؤ بالمستقبل أو صنع قرارًا إلزاميًا. تتمثل المهمة الأساسية لعلماء البيانات في تدريب واختبار وتحسين خوارزميات تعلم الآله، وبالتالي، فإن مهاراتهم مرجحة بشكل كبير على نمذجتها.
تنشر العديد من المدونات وغيرها من المنصات المثالية للمبتدئين ويمكنها إرشادك بمشكلات محددة قد ترغب في حلها. المصادر الأخرى المفيدة للقراءة هي:
- Bishop –التعرف على الأنماط وتعلم الآلة (يطلق عليه الكثيرون اسم الكتاب المقدس لتعلم الآلة)
- Hal Daumé III – دورة في تعلم الآلة.
- Michael Nielsen– الشبكات العصبية والتعلم العميق.
يمكن أن تكون النظريات والمعادلات الثقيلة مخيفة في بعض الأحيان، ولكن يجب ألا تُبقي الشخص خارج الميدان. كانت المنهجية التي نجحت معي هي قراءتي بالتوازي مع البرمجة. على سبيل المثال، حاول إنشاء عصبون طبقة واحدة (أبسط أنواع الشبكات العصبية) من نقطة الصفر للفهم التام لما قرأته في الكتب.
الجمع بين التعلم: الكتب والدورات والبرمجة.
نصيحة 2: طبّق المنهجيات العلمية التي تعلمتها.
هناك أيضًا العديد من الدورات التدريبية والماجستير عبر الإنترنت ذات الأوزان المختلفة في النظرية والتطبيق التي تغطي أساسيات تعلم الآله، اختياراتي المفضلة هي:
- دورة Coursera ML course من Andrew Ng ، رائد في هذا المجال، والتي تغطي بعض الأساسيات. قد يكون من الأفضل حل المهام باستخدام لغة بايثون بدلاً من أوكتاف أو ماتلاب لأنك ستكون في وضع أفضل بسوق العمل عندما يكون لديك مهارات بايثون أقوى.
- دورات AI (مقدمة في تعلم الآله للمبرمجين ، التعلم العملي العميق للمبرمجين ، التعلم المتطور العميق للمبرمجين) مع فلسفة تعليمية ملهمة وتركيز أكثر عملياً، تم إنشاؤها بواسطة مشاهير تعلم الآله جيريمي هوارد والدكتورة راشيل توماس (Jeremy Howard and Dr Rachel Thoma).
- تشارك جامعة ستانفورد بمواد تعليمية من فصول الذكاء الاصطناعى، على سبيل المثال لا الحصر التي أحببتها شخصيًا: cs224n الشبكات العصبية الترشيحية للتعرف البصري و cs231n معالجة اللغة الطبيعية باستخدام التعلم العميق.
الهدف هنا هو عدم حفظ المعادلات والمشتقات أو قراءة كل صفحة من هذه الكتب والمحاضرات. يجب أن تهدف إلى التقاط المفاهيم الأساسية التي تتناولها معظم النماذج والخوارزميات بطرق مختلفة، على سبيل المثال طبقات الاسقاط في الشبكات العصبية و مشتقة متلاشية وعلاقات الإشارة/الضوضاء. اكتساب القدرة على ربط المشاكل مرة أخرى بهذه الأساسيات سيجعلك عالماً جيدًا في مجال البيانات التطبيقية، والذي يريد الكثير من أصحاب العمل الحصول عليه.
البحث من أجل العلم
نصيحة 3: اختر المنهجية الصحيحة لإعداد عملك ومشكلتك.
تكمن المهارة الحقيقية لعالم البيانات في معرفة التكنولوجيا ومنهجيات تعلم الآله اللازمة للإجابة على أسئلة العمل المتناولة. ازدهار الحقل خلال العقد الماضي والتعطش المستمر للمعرفة مطلوب للتألق كمحترف في علم البيانات. أوصي بشدة بقراءة كل من الأوراق الأكاديمية المنشورة ومدونات تعلم الآلة والذكاء الاصطناعي لشركات التكنولوجيا المختلفة والشخصيات المهمه في هذا المجال. قد يكون هذا مفيدًا عندما يُطلب منك تقديم حلول لعروض مشكلات مجردة والتي لا توفر حلاً فوريًا. العثور على الحل الصحيح من خلال البحث في ما هو هناك يعتبر انجاز 80% من المهمة. قال أندريه كارباثي ( Andrej Karpathy) كلاماً جيدًا في فصل جامعة ستانفورد cs231n “لا تكن بطلاً”. في فريقي ، لا نقلل من الجهد والوقت الذي بذله الآخرون في العثور على البنية التي تعمل حاليًا بشكل أفضل. بدلاً من تدوير بنيتنا الخاصة لمشكلة شائعة، فإننا نستورد المكتبات ونقوم بتنزيل النماذج المدربة مسبقًا وضبطها على بياناتنا. يتوقع منك عالم الأعمال أن تقدم (وتفشل) بسرعة ، وبالتالي، إذا كان ذلك ممكنًا فلا ينبغي عليك إعادة اختراع العجلة ولكن بالوقوف على أكتاف العمالقة.
” إن كنت أنا قد نظرت أبعد من غيري، فهو لأني أقف على أكتاف العمالقة” ، إسحاق نيوتن (1675)
العمل على مهارات البرمجة الخاصة بك
يستخدم محللو البيانات البيانات بطريقة تساعد الشركات على اتخاذ قرارات بناء على المعلومة. هم أساتذة في لغة الاستعلام الهيكلية (SQL) وبرامج إكسل وأدوات التصوير مثل Tableau أو Power BI. من ناحية أخرى، يحتاج علماء البيانات إلى بناء نماذج قوية لاستقراء وحل المشكلات التجارية على نطاق واسع. وبالتالي، فهي مطلوبة لتطوير مهارات البرمجة الخاصة بهم. لم أكن ابرمج من سن 10 سنوات، ولكن لم يفوت الأوان بالنسبة لي لبدء تعلم كيف تبرمج. في الجامعة، تعلمت التعلم الآلي باستخدام الماتلاب وبرمجت بجافا سكريبت لمشاريع العمل المختلفة، ولكن كان من المهم ممارسة الطرق البايثونية.
أصبحت لغة البايثون أكثر لغات البرمجة شعبية في العالم ولديها عدد لا يحصى من المكتبات المختبرة جيدًا لعلوم البيانات التي يتم تحديثها باستمرار. مما لا يثير الدهشة أن معظم فرق علوم البيانات، بما في ذلك فريقي، تبحث عن مستخدمي بايثون، لذا إذا كنت لا تعرف البايثون فقم بالتسجيل في دورة عبر الإنترنت وتعلم الأساسيات لتتمكن من اللحاق. يجب ألا تتجاهل أدلة الأنماط مثل PEP8 وأن تظهر الصبر لأن الممارسة ستحقق النتائج المرجوة. أيضًا، سيكون تعلم كيفية استخدام Jupyter هو مفتاح سير العمل واستكشاف البيانات/النماذج بشكل أسرع.
نصيحة 4: تدرب وتدرب وتدرب على مهارات البرمجة الأسرع والأقوى والأفضل.
لأن البرمجة تمنحك قوى سحرية
دخول هاكثون، والمشاركة في مسابقات كاقيل (kaggle)، والعمل على مشاريع برمجة شخصية، كلها طرق مختلفة لتحسين مهارات البرمجة لديك. تحديد أو المشاركة في فرص علوم البيانات التي تأتي من نتائج تحليلك يمكن أن يكون وسيلة لاكتساب الخبرة في دورك الحالي. ويمكن أن تكون الخوارزميات للتنبؤ والكشف عن المشروعات الاستثنائية الأخرى التي يمكنك أن تطلب بالعمل عليها ولو كجزء من التحسين كمحلل. أتذكر أن أول مشروع لي في علم البيانات في عالم الشركات كان عبارة عن خوارزمية للإكمال التلقائي لاستعلامات البحث في موقع للتجارة الإلكترونية. بدأ هذا المشروع من خلال بعض الأفكار التحليلية المثيرة للاهتمام حول البحث و سلال التسوق التي قدمت تقريراً عنها بينما لا زلت محللًا صغيرًا.
اكتساب مهارات هندسة البرمجيات
أصبحت مهارات هندسة البرمجيات ضرورية عندما تريد أن ترى نماذجك ضوء الإنتاج. يعد استنباط سلوك البرمجة بهدف إعادة إنتاج المشاريع والنتائج عبر التشغيل الآلي أمرًا بالغ الأهمية لأسباب منهجية وقانونية. ففي شركة تتمتع بثقافة ناضجة لعلم البيانات قد ينشئ شخص ما النموذج الأولي، وقد يكتب شخص آخر برنامج الإنتاج وقد ينشره شخص آخر. في الواقع، وبغض النظر عن حجم الشركة، فمن غير المرجح أن تحصل على كل الدعم اللازم وأن تعرف بأن الإحصائيات لن تكون كافية لتقديم مشروع علم البيانات.
نصيحة 5: أتمتة الخطوات في مشروعك في أقرب وقت ممكن.
وبالتالي ، قد تبدو قائمة مجموعة علم البيانات الأولية كما يلي:
- خطوط عمليات البيانات القابلة للتكرار (Reproducible data pipelines) (على سبيل المثال كما في سبارك والبيثون): هل سبق لك أن أعدت إنتاج تحليل قمت به من قبل؟ إنشاء تدفق بيانات منطقي (على سبيل المثال. الخام (بيانات غير قابلة للتغيير)- وسيط (العمل قيد التقدم) – مُعالج (الميزات النهائية)) واستخدام Makefiles سيوفر لك وزملائك الكثير من الوقت. فريقي وأنا من المعجبين الهائلين بـ “cookiecutter“، الذين يقدمون هيكل مشروع منطقي مثل هذا الهيكل.
- أتمتة التدريب والاختبار بالكامل (End-to-end automation of training and scoring): النموذج هو في معظم الأحيان كائن حي، وهناك حاجة إلى تنبؤات جديدة وقد تتغير البيانات. هذا يترجم إلى إعادة التدريب، والحساب والتنقية. من الضروري إذن وضع مدخلات النموذج والمتغيرات السرية والعشوائية في ملفات التكوين، وتقسيم مشروع علم البيانات إلى عناصر مختلفة وتطبيق modularity كمثال، إنشاء مكتبة المعالم المشتركة التي يمكن استخدامها أثناء التدريب والاختبار.
- تغطية اختبار الوحدة (Unit test coverage): أراهن أنك ترغب في الحصول على نوم متواصل وعطلة دون انقطاع. لذلك، من المهم كتابة اختبارات لمشاريعك لضمان متانتها.
- بناء واجهة برمجة التطبيقات (API) لتوفير تنبؤات (Building an API to provide predictions): لعرض الأفكار والنماذج الخاصة بك، يجب أن يكون لديك إثبات للمفهوم، وفي كثير من الحالات يكون هذا مكافئًا لـ REST API إذا لم يكن بإمكانك استخدام لغة أخرى غير بايثون، فيمكنك استخدام Flask و Flasgger الذي يأتي مع Swagger UI. سوف يكون Swagger مفيدًا في توثيق وتصور خدمات الويب RESTful الخاصة بك.
- تحوية لحلول علم البيانات لنشر خدمة الحاوية المرنة أو بيئة الإنتاج (Containerisation of a data science solution for ECS deployment or production environment) : يتيح لك Docker عزل المشاريع وتوابعها، ونقل النماذج بين البيئات وتشغيل الكود بنفس الطريقة تمامًا في كل مرة لتحقيق قابلية استنساخ 100٪. سيساعد هذا في تعاونك مع DevOps والمهندسين، حيث يمكنهم استخدام الحاويات الخاصة بك كصندوق أسود دون الحاجة إلى معرفة علم البيانات.
بعض العناصر المحددة في قائمة برمجة علم البيانات.
ترجمة العلم إلى لغة المجال
كشخص بيانات وخبير في الموضوع، يمكنك التغلب على برامج حظر البيانات مثل العمل المفقود أو تعريف KPI من خلال البحث عن وكلاء في البيانات أو جعله عاملًا كامنًا تتعلمه باستخدام تعلم الآلة. عادةً ما يؤدي علم البيانات إلى تعطيل العمل التجاري، وكنتيجة لذلك، ستحتاج إلى عرض أفكارك على القيادة العليا من أجل الحصول على الدعم والموارد المناسبة. قد يقول شخص ما أن جعل الخوارزمية مفهومة لجميع أصحاب المصلحة في العمل هو شكل من أشكال الفن. تعلم كيفية ترجمة ما قمت ببنائه لإظهار أهميته للآخرين هو أمر أحتاج إليه باستمرار للتعلم وإعادة التعلم. كما أكدت ريبيكا بوب (Rebecca Pope)، الرئيسة الحالية لعلوم وهندسة البيانات في KPMG، في مؤتمر سيدات السيليكون “تذكر دائمًا أنك أنت (وليس برنامجك) المؤثر. لا يشتري الأشخاص الخوارزميات، فهم يثقون بك وقدراتك.” وبالتالي، تأكد من أنك تولي الاهتمام والوقت لقدرة ترجمة الرياضيات إلى سرد مرئي خاص بمجال السوق الأفقي الخاص بك.
نصيحة 6: واصل عملك مع مصطلحات السوق الأفقي الخاص بك.
عالم بيانات يشرح التعلم العميق.
حان الوقت لأنمو
التواجد في مهنة حديثة الشكل أكثر إثارة من الصعب. لقد منحتني Zoopla الفرصة للعمل في فريق علم بيانات موهوب وأن اعمل مع أشخاص يمكنني التعلم منهم وهذا يساعدني على تحقيق أهدافي المهنية بشكل أسرع. العثور على فريق يتيح لك النمو ويجعل عقلك سريع التعلم كالإسفنج سيعجل رحلتك إلى النجاح. لقد كنت محظوظًا لأن مديري المباشر، جان تيشمان (Jan Teichmann)، لديه الخبرة اللازمة لتوجيهي لكي أصبح عالِمًا في مجال البيانات ذو مهارات عالية. من الناحية المثالية، يفهم مديرك وظيفتك اليومية والمكان الذي تريد الوصول إليه. خلاف ذلك، ابحث عن الإرشادات الإضافية التي قد تحتاجها خارج فريقك أو شركتك، على سبيل المثال من طالب خريج أو أستاذ من جامعتك أو اللقاءات بشبكة علماء البيانات في المحافل والمؤتمرات لتكون ملهمة وتساعدك في هذه المهمة.
نصيحة 7: تذكر أنه لا يوجد كتاب أو دورة تدريبية مهمة مثل التوجيه.
مذكرات مخصصة ( اقرأها بصوت Don Corleone)
خلاصة القول، إن مجموعة المهارات التي يجب أن تركز عليها لإنطلاق في مهنة علم البيانات هي الإحصاء، حساب التفاضل والتكامل متعدد المتغيرات والجبر الخطي، تعلم الآلة، مهارات البرمجة، هندسة البرمجيات ومهارات تصوير البيانات.
مخطط علم بيانات لستيفن غيرنجر رالي، نورث كارولاينا (Steven Geringer Raleigh, NC).
أهم النصائح لتحقيق هدفك:
- ركز على قدراتك بدلاً من خلفيتك
- طبّق المنهجيات العلمية التي تعلمتها
- اختر المنهجية الصحيحة لإعداد عملك ومشكلتك
- تدرب وتدرب وتدرب على مهارات البرمجة الأسرع والأقوى والأفضل
- أتمتة الخطوات في مشروعك في أقرب وقت ممكن
- واصل عملك مع مصطلحات السوق الأفقي الخاص بك
- تذكر أنه لا يوجد كتاب أو دورة تدريبية ستكون مهمة مثل الإرشاد
ماذا تنتظر؟ استمتع بالفرصة وابذل الجهد لتصبح ما تحلم به.