أساسيات المحول
المحول هو نموذج تعلم عميق يتبنى آلية الانتباه الذاتي، حيث يوزن بشكل تفاضلي أهمية كل جزء من بيانات المدخل. يستخدم بشكل رئيسي في مجالات معالجة اللغة الطبيعية (NLP)[1] ورؤية الحاسوب (CV). [2]
مثل الشبكات العصبية المتكررة (RNNs)، تم تصميم المحولات لمعالجة بيانات الإدخال المتتابعة، مثل اللغة الطبيعية، مع تطبيقات لمهام مثل الترجمة وتلخيص النصوص. ومع ذلك، على عكس شبكات RNN، تعالج المحولات المدخلات بالكامل دفعة واحدة. توفر آلية الانتباه سياقا لأي موقع في تسلسل الإدخال. على سبيل المثال، إذا كانت بيانات الإدخال عبارة عن جملة لغة طبيعية، فلا يحتاج المحول إلى معالجة كلمة واحدة في كل مرة. هذا يسمح بمزيد من التوازي مقارنة بشبكات RNN وبالتالي يقلل من أوقات التدريب. [1]
تم تقديم المحولات في عام 2017 بواسطة فريق في Google Brain[1] وأصبحت بشكل متزايد النموذج المفضل لمشاكل معالجة اللغة الطبيعية،[3] لتحل محل نماذج RNN مثل الذاكرة طويلة المدى قصيرة المدى (LSTM). يسمح التوازي الإضافي بالتدريب على مجموعات بيانات أكبر. أدى ذلك إلى تطوير أنظمة مدربة مسبقا مثل BERT (تمثيلات الترميز ثنائي الاتجاه من المحولات) وGPT (المحول التوليدي المدرب مسبقا)، والتي تم تدريبها باستخدام مجموعات بيانات لغوية كبيرة مثل مجموعة ويكيبيديا وCommon Crawl، ويمكن ضبطها لمهام محددة. [4][5]
مثل الشبكات العصبية المتكررة (RNNs)، تم تصميم المحولات لمعالجة بيانات الإدخال المتتابعة، مثل اللغة الطبيعية، مع تطبيقات لمهام مثل الترجمة وتلخيص النصوص. ومع ذلك، على عكس شبكات RNN، تعالج المحولات المدخلات بالكامل دفعة واحدة. توفر آلية الانتباه سياقا لأي موقع في تسلسل الإدخال. على سبيل المثال، إذا كانت بيانات الإدخال عبارة عن جملة لغة طبيعية، فلا يحتاج المحول إلى معالجة كلمة واحدة في كل مرة. هذا يسمح بمزيد من التوازي مقارنة بشبكات RNN وبالتالي يقلل من أوقات التدريب. [1]
تم تقديم المحولات في عام 2017 بواسطة فريق في Google Brain[1] وأصبحت بشكل متزايد النموذج المفضل لمشاكل معالجة اللغة الطبيعية،[3] لتحل محل نماذج RNN مثل الذاكرة طويلة المدى قصيرة المدى (LSTM). يسمح التوازي الإضافي بالتدريب على مجموعات بيانات أكبر. أدى ذلك إلى تطوير أنظمة مدربة مسبقا مثل BERT (تمثيلات الترميز ثنائي الاتجاه من المحولات) وGPT (المحول التوليدي المدرب مسبقا)، والتي تم تدريبها باستخدام مجموعات بيانات لغوية كبيرة مثل مجموعة ويكيبيديا وCommon Crawl، ويمكن ضبطها لمهام محددة. [4][5]



