Fintec - التكنولوجيا المالية

ترميز النصوص: مراجعة

يركز هذا المقال على جزئية التحليل الذي يحول الكلمات إلى أرقام والنصوص إلى متجهات رقمية: ترميز النص.

المؤلفون:Rosaria Silipo و Kathrin Melcher   ترجمة: د. محمد الحامد   مراجعة: سعد الشهراني

[ رابط المقال الأصلي هنا ]

العامل الرئيس لتنفيذ أي عملية لاستخراج النص، مثل اكتشاف الموضوع أو تحليل المشاعر، هو تحويل الكلمات إلى أرقام، وتحويل سلسلة الكلمات إلى تسلسل رقمي. بمجرد حصولنا على الأرقام، نعود إلى لعبة تحليل البيانات المعروفة، حيث يمكن أن تساعدنا خوارزميات تعلم الآلة في التصنيف والتجميع.

سنركز هنا بالتحديد على ذلك الجزء من التحليل الذي يحول الكلمات إلى أرقام، والنصوص إلى متجهات رقمية بما يعرف بترميز النص (text encoding).

لترميز النصوص، هناك عدد قليل من التقنيات المتاحة، كل واحدة منها لها إيجابياتها وسلبياتها الخاصة بها والتي تناسب مهمة معينة. أبسط تقنيات الترميز لا تحتفظ بترتيب الكلمات، في حين أن البعض الآخر يحتفظ بالترتيب. بعض تقنيات الترميز سريعة وبديهية، ولكن حجم متجهات الكلمات الناتجة ينمو بسرعة مع حجم القاموس المستخدم. تقنيات الترميز الأخرى تعمل على تحسين البعد للمتجهات لكنها صعبة التفسير. دعونا نتحقق من تقنيات الترميز الأكثر استخداماً.

١- الترميز الساخن أو المتجهات الترددية للمستند (غير المرتب)

إحدى تقنيات ترميز النصوص الأكثر شيوعاً هي متجهات المستند (document vectorization). في هذه التقنية، يتم إنشاء قاموس من جميع الكلمات المتوفرة في المستند، وتصبح كل كلمة عموداً في فضاء المتجه. يحتوي كل متجه نصي على قيم صفرية أو أحادية. كل جزء نصي يُشفر برقم واحد عند وجود الكلمة وبصفر في غيابها. يسمى هذا التمثيل العددي للمستند الترميز الساخن للمستند (one-hot document vectorization).

في طريقة مشابهة للترميز الساخن، استخدام تكرار كل كلمة في المستند بدلاً من ترميز وجودها أو غيابها. تسمى هذه الطريقة بالمتجهات القائمة على التردد (frequency-based vectorization).

في حين أن هذا الترميز سهل التفسير وإعادة الإنتاج، إلا أن له عيبان رئيسيان: لا يحتفظ بترتيب الكلمات في النص، وينمو أبعاد فضاء المتجه بتسارع مع حجم قاموس الكلمات.

ترتيب الكلمات في النص أمر مهم، على سبيل المثال، لنأخذ في الاعتبار عبارات النفي أو القواعد اللغوية. من ناحية أخرى، هناك تقنيات لمعالجة اللغات الطبيعية وخوارزميات لتعلم الآلة لا تستخدم ترتيب الكلمات على أي حال.

أيضًا، يعد الحجم المتنامي بسرعة لفضاء المتجه مشكلة في القواميس الكبيرة فقط. وحتى في هذه الحالة، يمكن أن يقتصر عدد الكلمات على حد معين -على سبيل المثال – عن طريق تنظيف و/أو استخراج الكلمات الرئيسية من نص المستند.

٢- الترميز الساخن (المرتب)

يمكن لبعض خوارزميات تعلم الآلة إنشاء تمثيل داخلي للعناصر في شكل تسلسلي، مثل الكلمات المرتبة في جملة. على سبيل المثال، يمكن لطبقات الشبكات العصبية التكرارية (RNN) و LSTM استغلال ترتيب التسلسل للحصول على نتائج تصنيف أفضل.

في هذه الحالة، نحتاج إلى الانتقال من متجهات الترميز الساخن للمستند إلى الترميز الساخن (one-hot encoding)، حيث يتم الاحتفاظ بترتيب الكلمات. في هذه الحالة، يتم تمثيل نص المستند مرة أخرى بمتجهات الوجود/عدم الوجود للكلمات، ولكن يتم تغذية الكلمات بشكل تسلسلي للنموذج.

عند استخدام تقنية الترميز الساخن، يتم تمثيل كل مستند بواسطة متجهات. يتكون كل متجه للمستند من سلسلة طويلة جدًا من متسلسلات صفرية وأحادية مما يؤدي إلى تمثيل كبير جدًا ومتناثر لجسم المستند.

٣. الترميز القائم على الفهرس

الترميز الآخر الذي يحافظ على ترتيب الكلمات كما في سياقها في الجملة هو الترميز المستند إلى الفهرس (Index-Based Encoding). تتمثل الفكرة وراء هذه الطريقة إلى تمثيل كل كلمة بفهرسة واحدة، أي برقم.

تتمثل الخطوة الأولى في انشاء قاموس يمثل الكلمات بالفهرس. بناءً على هذا الفهرس، يتم تمثيل كل مستند من خلال سلسلة من (الأرقام)، وكل رقم يرمز لكلمة واحدة. العيب الرئيسي لهذا الترميز هو بناؤه لمسافة رقمية ضمنية بين النصوص غير موجودة فعلياً.

من الملاحظ أن الترميز المستند إلى الفهرس يسمح ببناء متجهات للمستند ذات أطوال مختلفة. في الواقع، يكون تسلسل الفهارس بطول متغير، في حين أن متجهات المستند لها أطوال ثابتة.

٤. تضمين الكلمة

آخر تقنيات الترميز التي نريد استكشافها هي تضمين الكلمات (word embedding). تمثل تضمين الكلمات مجموعة من تقنيات معالجة اللغة الطبيعية تهدف إلى تمثيل معنى دلالي للكلمة في مساحة هندسية. يتم ذلك عن طريق ربط متجه رقمي بكل كلمة في القاموس، بحيث تأخذ المسافة بين أي متجهين جزءاً من دلالة العلاقة الضمنية بينهما. يطلق على الفضاء الهندسي المتكون من هذه المتجهات مسمى فضاء التضمين. أشهر تقنيات تضمين الكلمات هي Word2Vec و GloVe.

عملياً، نتنبأ بكل كلمة في مساحة مستمرة من المتجهات، تنتجها شبكة عصبية مخصصة لذلك. تتعلم طبقة هذه الشبكة العصبية ربط تمثيل المتجهات لكل كلمة يفيد المهمة العامة، كالتنبؤ بالكلمات المحيطة.

٥- تقنيات ما قبل المعالجة المساعدة

تتطلب العديد من خوارزميات تعلم الآلة أطوالاً ثابتة للمتجهات المدخلة. عادة، يتم تعريف الحد الأقصى لطول التسلسل على أنه الحد الأقصى لعدد الكلمات المسموح به في المستند. المستندات التي تكون أقصر من هذا الطول تبطن بالقيمة صفر. يتم اقتطاع المستندات التي يكون طولها أكبر من الحد الأعلى. التبطين الصفري (zero-padding) والاقتطاع (truncation) هما خطوتان مساعدتان مفيدتان لتحليل النصوص.

التبطين الصفري يعني إضافة أكبر عدد ممكن من الأصفار حسب الحاجة للوصول إلى الحد الأقصى المسموح لعدد الكلمات.

الاقتطاع يعني قطع جميع الكلمات بعد الوصول إلى الحد الأقصى عددياً.

الملخص

لقد استطلعنا أربع تقنيات لترميز النصوص شائعة الاستخدام:

  • المتجهات الترددية للمستند
  • الترميز الساخن
  • الترميز القائم على الفهرس
  • تضمين الكلمة

تعد المتجهات للمستند الأسلوب الوحيد الذي لا يحتفظ بترتيب الكلمات في النص المدخل. ومع ذلك، تعتبر ذات سهولة للتفسير والتوليد.

يعد الترميز الساخن بمثابة حل وسط بين الحفاظ على ترتيب الكلمات في التسلسل والحفاظ على سهولة تفسير النتيجة. الثمن الذي يجب دفعه هو التعامل مع متجهات كبيرة الحجم ومتناثرة.

يهدف الترميز المستند إلى الفهرس لمعالجة حجم بيانات الادخال والحفاظ على ترتيب التسلسل عن طريق تمثيل كل كلمة بفهرسة رقمية وتجميع تسلسلها في عمود يمثل المجموعة.

أخيراً، يقوم تضمين الكلمات بالاستناد إلى الفهرس أو الترميز الساخن في متجه رقمي في فضاء جديد ذو أبعاد أصغر. يتم تعريف الفضاء الجديد من خلال المخرجات الرقمية لطبقة التضمين في شبكة عصبية للتعلم العميق. الميزة الإضافية لهذا النهج تتمثل في التقريب الدقيق للكلمات ذات الدور المماثل. العيب، بطبيعة الحال، أنه يمثل درجة أعلى من التعقيد.

نأمل أن نكون قد قدمنا وصفاً عاماً وشاملاً بشكل كاف لتقنيات ترميز النصوص المتوفرة حالياً لتختار منها الطريقة التي تناسب مشكلة تحليل النص لديك.

المراجع

  1. Chollet, Francois “Using pre-trained word embeddings in a Keras model”, The Keras Blog, 2016
  2. Brownlee, Jason “How to Use Word Embedding Layers for Deep Learning with Keras”, Machine Learning Mystery, 2017

Copyright 2023 Kantakji.com - Developed by Kantakji-tech