10 مرفق
الجيل الثالث الشبكات العصبية: شبكات عميقة للكاتب فلاديمير بيرفنكو
محتويات
-1 الجيل الثاني من الشبكات العصبية
1.1. هندسة الاتصالات
2.1. أنواع الشبكات العصبية الرئيسية
1.2.1. الشبكات متعددة الطبقات المتصلة بالكامل (MLF) متعددة اللغات (Perceptron متعددة الطبقات)
2.2.1. شبكة الاردن
3.2.1. شبكة علمان
4.2.1. الشبكة الوظيفية القاعدة القاعدية (RBF)
5.2.1. تكميم المتعلم الديناميكي ، شبكات DLVQ
6.2.1. شبكة هوبفيلد
3.1. أساليب التدريب
1.3.1. القواعد الرئيسية لتعلم الشبكات العصبية
1.1.3.1. تصحيح الاخطاء
2.1.3.1. حكم بولتزمان
3.1.3.1. حكم هب
4.1.3.1. التعلم التنافسي
4.1. سلبيات
-2 تعلم عميق
1.2. خلفية
2.2. Autoencoders. Autoencoder وتقييد آلة بولتزمان. الاختلافات والميزات
1.2.2. Autoencoder
2.2.2. آلة بولتزمان المقيدة ، RBM
3.2. مكدسة الأوتاسيكوسيرس الشبكات. Stackеd Autoencoder SAE، مكدسة آلة بولتزمان المقيدة (مكدسة الإدارة القائمة على النتائج)
4.2. تدريب الشبكات العميقة (DN). مراحل. خصوصيات
-3 محتويات
1.3. لغة R
2.3. تنويعات التنفيذ والقضايا الموجهة
3.3. تحضير البيانات للتجربة
1.3.3. مصدر معلومات
2.3.3. بيانات المدخلات (Predictors)
1.2.3.3. مؤشر حركة الاتجاه Welles Wilder - ADX (HLC) ، n
2.2.3.3. aroon (HL، n)
3.2.3.3. مؤشر قناة السلع - (CCI (HLC، n
4.2.3.3. (chaikinVolatility (HLC، n
5.2.3.3. مذبذب زاود مومنتوم - CMO (ميد ، ن)
6.2.3.3. مؤشر MACD
7.2.3.3.( OsMA (Med، nFast، nSlow، nSig
8.2.3.3. مؤشر القوة النسبية -( RSI (Med، n
9.2.3.3. (Stochastic Oscillator - stoch (HLC، nFastK = 14، nFastD = 3، nSlowD = 3
10.2.3.3. مؤشر الزخم العشوائي - (SMI (HLC، n = 13، nFast = 2، nSlow = 25، nSig = 9
11.2.3.3. التقلب (يانغ وتشانغ) - التقلب (OHLC ، n ، calc = "yang.zhang" ، N = 96)
3.3.3. بيانات المخرجات (الهدف)
4.3.3. بيانات المقاصة
5.3.3. تدريب واختبار تشكيل عينة
6.3.3. موازنة الطبقة
7.3.3. تجهيزها
4.3. نماذج البناء والتدريب والاختبار
1.4.3. الحسابات المتوازية
-4 التنفيذ (المؤشر والمستشار الخبير)
1.4. التدريب وحفظ النموذج
2.4. تركيب وإطلاق النظام
3.4. طرق وطرق تحسين الخصائص النوعية
المقدمة
ستنظر هذه المقالة في الأفكار الرئيسية لهذا الموضوع مثل Deep Learning و Deep Network دون عمليات حسابية معقدة في شروط المواطن العادي.
تؤكد التجارب مع البيانات الحقيقية (أو لا) المزايا النظرية للشبكات العصبية العميقة على الشبكات الضحلة عن طريق التعريف المتري والمقارنة. المهمة في متناول اليد هي التصنيف. يجب علينا إنشاء مؤشر ومستشار خبير يستند إلى نموذج الشبكة العصبية العميقة والعمل بالتزامن وفقا لخطة العميل / الخادم ومن ثم اختبارها.
يفترض القارئ أن يكون لديه فكرة عادلة عن المفاهيم الأساسية المستخدمة في الشبكات العصبية.
1. شبكات الجيل الثاني العصبية
تم تصميم الشبكات العصبية لمعالجة مجموعة واسعة من المشاكل المرتبطة بمعالجة الصور.
فيما يلي قائمة بالمشاكل التي يتم حلها عادةً عن طريق الشبكات العصبية:
- تقريب الوظائف بمجموعة من النقاط (الانحدار) ؛
- تصنيف البيانات حسب المجموعة المحددة من الفئات ؛
- تجميع البيانات مع تحديد فئات النموذج الأولي غير المعروفة ؛
- ضغط المعلومات
- استعادة البيانات المفقودة
- الذاكرة الترابطية
- الأمثل ، والتحكم الأمثل الخ
- من القائمة أعلاه سيتم مناقشة "تصنيف" فقط في هذه المقالة.
1.1. هندسة الاتصالات
تتأثر طريقة معالجة المعلومات بشكل كبير بسبب غياب أو وجود حلقات ردود الفعل في الشبكة. إذا لم تكن هناك ردود فعل مرتجعة بين العصبونات (أي أن الشبكة تحتوي على بنية من الطبقات المتسلسلة حيث يتلقى كل عصبون معلومات فقط من الطبقة السابقة) ، فإن معالجة المعلومات في الشبكة تكون أحادية الاتجاه. تتم معالجة إشارة الإدخال عن طريق تسلسل من الطبقات ويتم تلقي الاستجابة في عدد من براغي مساوية لعدد الطبقات.
وجود حلقات ردود الفعل يمكن أن تجعل ديناميكية الشبكة العصبية (في هذه الحالة تسمى المتكررة) غير متوقعة. في الواقع ، يمكن للشبكة "التكرار للأبد" ولا تنتج استجابة أبدًا. في الوقت نفسه ، وفقا ل Turing ، لا توجد خوارزمية لشبكة متكررة تعسفية لتحديد ما إذا كانت عناصرها ستدخل في حالة توازن (مشكلة التوقف).
بشكل عام ، فإن حقيقة أن الخلايا العصبية في الشبكات المتكررة تشارك في معالجة المعلومات مرات عديدة ، تسمح لهذه الشبكات بمعالجة المعلومات على مستوى أعمق بطرق مختلفة. في هذه الحالة ، يجب اتخاذ تدابير خاصة حتى لا تتكرر الشبكة إلى الأبد. على سبيل المثال ، استخدم اتصالات متناظرة ، كما هو الحال في شبكة Hopfield أو حدّد عدد التكرار بالقوة.
الملف المرفق 493141
1.2. أنواع الشبكات العصبية الرئيسية
بعد أن بدأت مع الشبكات العصبية ، قطعت الشبكات العصبية شوطا طويلا في تطورها. اليوم ، هناك عدد كبير من الشبكات العصبية تتنوع في البنية وتستخدم أساليب التدريب.
الاكثر شهرة هي:
1.2.1. الشبكات متعددة الطبقات المتصلة بالكامل (MLF) متعددة اللغات (Perceptron متعددة الطبقات)
الملف المرفق 493142
1.2.2. الشبكات الأردنية هي شبكات متكررة جزئياً ومماثلة لشبكات "ألمان".
يمكن معالجته كشبكة موجّهة مع عصبونات سياق إضافية في طبقة الإدخال.
يتم تغذية هذه الخلايا العصبية السياق من قبل أنفسهم (ردود فعل مباشرة) ومن الخلايا العصبية المدخلات. الخلايا العصبية السياق الحفاظ على الحالة الراهنة للشبكة. في شبكة الأردن ، يجب أن يكون عدد السياق والخلايا العصبية المدخلة هو نفسه.
الملف المرفق 493144
1.2.3. شبكات Elman
هي شبكات متكررة جزئياً ومماثلة لشبكات الأردن. الفرق بين شبكتين Elman والأردن هو أن الخلايا العصبية في سياق شبكة إلمان لا تغذيها الخلايا العصبية الخرجية ، بل الخلايا الخفية. الى جانب ذلك ، لا توجد ردود فعل مباشرة في الخلايا العصبية السياق.
في شبكة إلمان ، يجب أن يكون عدد السياق والخلايا العصبية المخفية هو نفسه. الميزة الرئيسية لشبكات Elman هي أن عدد الخلايا العصبية السياقية لا يتم تحديده من خلال عدد المخرجات كما هو الحال في الشبكة الأردنية ولكن عدد الخلايا العصبية المخفية ، مما يجعل الشبكة أكثر مرونة. يمكن بسهولة إضافة الخلايا العصبية المخفية أو اتخاذها على عكس عدد من المخرجات.
الملف المرفق 493146
1.2.4. شبكة دالة الأساس الشعاعي (RBF) -
هي شبكة عصبية متقدمة إلى الأمام تحتوي على طبقة وسيطة (مخفية) من الخلايا العصبية المتناظرة شعاعيًا. يقوم مثل هذا العصبون بتحويل المسافة من ناقل مدخلات محدد إلى مركز المراسلة الخاص به عن طريق بعض القوانين غير الخطية التي اعتُبِرت غوسيًا.
تتميز شبكات RBF بالعديد من المزايا على الشبكات المتقدمة للتغذية متعددة الطبقات. بادئ ذي بدء ، فإنها تحاكي (غير متأكد من كلمة) وظيفة غير خطية عشوائية مع طبقة وسيطة واحدة فقط ، مما يوفر على المطور ضرورة اتخاذ قرار بشأن عدد الطبقات. بعد ذلك ، يمكن تحسين المعلمات في المجموعة الخطية في طبقة المخرجات بمساعدة طرق معروفة على نطاق واسع للتحسين الخطي. هذا الأخير يعمل بسرعة وليس لديهم صعوبات مع الحد الأدنى المحلي الذي يتداخل بشكل كبير في backpropagation. هذا هو السبب في أن شبكة RBF تتعلم أسرع بكثير من استخدام backpropagation.
عيوب RBF: هذه الشبكات لها خصائص استنتاجية ضعيفة وتبين أنها مرهقة عندما يكون متجه الإدخال كبيرًا.
الملف المرفق 493148
1.2.5. دينامية التعلم المتجه الكمي DLVQ
الشبكات تشبه إلى حد بعيد خرائط التنظيم الذاتي (SOM). على عكس SOM ، DLVO قادرة على التعلم تحت إشراف وتفتقر إلى علاقة الجوار بين النماذج. تكاثر المتجه استخدام أوسع من التجميع.
1.2.6. Hopfield Network
هي شبكة متصلة بالكامل مع مصفوفة اتصال متناظرة. أثناء التشغيل ، تتلاقى ديناميكيات هذه الشبكات مع إحدى حالات التوازن. حالات الاتزان هذه هي الحد الأدنى المحلي للوظائف المعروفة باسم طاقة الشبكة. يمكن استخدام مثل هذه الشبكة كنظام ذاكرة ترابطية للمحتوى ، كعامل تصفية وللتصدي لبعض تحديات التحسين.
على عكس العديد من الشبكات العصبية التي تعمل حتى تحصل على استجابة في عدد معين من البراعة ، تعمل شبكات Hopfield حتى تصل إلى حالة التوازن عندما تكون الحالة التالية للشبكة هي نفسها تمامًا كالشبكة السابقة. في هذه الحالة ، تكون الحالة الأولية عبارة عن نمط مدخلات وفي حالة التوازن يتم استلام صورة المخرجات. يتطلب تدريب شبكة Hopfield نمط تدريب ليتم عرضه على طبقات الإدخال والإخراج في وقت واحد.
الملف المرفق 493150
على الرغم من الخصائص الجذابة ، إلا أن شبكة Hopfield الكلاسيكية بعيدة عن كونها مثالية. لديه ذاكرة محدودة ، حوالي 15 ٪ من عدد الخلايا العصبية في الشبكة N ، في حين أن أنظمة الذاكرة المعنونة يمكن تخزين ما يصل إلى 2N من الصور المختلفة ، وذلك باستخدام N بت.
إلى جانب ذلك ، فإن شبكات Hopfield غير قادرة على التعرف على ما إذا كانت الصورة قد تشردت أو تحولت فيما يتعلق بموقعها المخزن الأولي. هذه العوائق الأخرى تحدد إدراك شبكة Hopfield كنموذج نظري مناسب للدراسة بدلاً من أداة عملية لاستخدام كل يوم.
العديد من الآخرين (شبكة Hemming المتكررة ، شبكة Grossberg ، شبكات نظرية الرنين التكيفي (ART-1 ، ART-2) الخ) لم تذكر في هذه المقالة لأنها خارج نطاق اهتمامنا.
1.3. أساليب التدريب
القدرة على تعلم أشياء جديدة هي السمة الرئيسية للدماغ البشري. في حالة الشبكات العصبية الاصطناعية ، فإن التعلم هو عملية تكوين بنية الشبكة (بنية الروابط بين العصبونات) وأوزان الروابط المشبكية (التي تؤثر على إشارات المعامل) للحصول على حل فعال للمهمة الموجودة. يتم عادة تدريب الشبكة العصبية على عينة بيانات. تتبع عملية التدريب خوارزمية معينة وعندما تستمر ، يجب أن يتحسن تفاعل الشبكة مع إشارات الدخل.
هناك ثلاثة نماذج تعليمية رئيسية: تحت إشراف ، بدون إشراف ، ومجتمعة. في الحالة الأولى ، تُعرف الإجابات الصحيحة لكل مثال إدخال وتحاول الأوزان تقليل الخطأ. التعلم بدون إشراف يسمح بتصنيف العينات من خلال شرح البنية الداخلية وطبيعة البيانات. في التدريب المشترك يتم استخدام كل من الأساليب المذكورة أعلاه.
1.3.1. القواعد الرئيسية لتعلم الشبكات العصبية
هناك أربعة قواعد تعليمية أساسية تعتمد على بنية الشبكة المرتبطة بها: تصحيح الأخطاء ، قانون بولتزمان ، حكم هب والتعلم التنافسي.
1.3.1.1. تصحيح الاخطاء
يحتوي كل مثال إدخال على قيمة إخراج مرغوبة محددة (قيمة الهدف) ، والتي قد لا تتطابق مع القيمة الحقيقية (المتوقعة). تستخدم قاعدة تعلم تصحيح الأخطاء الفرق بين الهدف والقيم المتوقعة للتكيف المباشر للأوزان من أجل تقليل الخطأ. يتم التدريب فقط في حالة وجود نتيجة خاطئة. هذه القاعدة التعليمية لديها العديد من التعديلات.
1.3.1.2. قاعدة بولتزمان
قاعدة بولتزمان هو قاعدة تعلم عشوائية قياسا على مبادئ الديناميكا الحرارية. وينتج عن ذلك تعديل معاملات وزن الخلايا العصبية وفقا للتوزيع الاحتمالي المرغوب. يمكن اعتبار قاعدة بولتزمان كحالة معزولة للتصحيح عن طريق الخطأ حيث يشير الخطأ إلى وجود اختلاف في الارتباط بين الحالات في وضعين.
1.3.1.3. قاعدة هب
قاعدةهب هي أشهر خوارزمية تعليم الشبكات العصبية. فكرة هذه الطريقة هي أنه إذا كانت الخلايا العصبية على جانبي المشبك تنشط بشكل متزامن ومنتظم ، فإن قوة الوصلة المشبكية تزداد. من الخصائص المهمة هنا أن تغير الوزن المشبكي يعتمد فقط على نشاط العصبونات المرتبطة بهذا المشبك. هناك العديد من الاختلافات في هذه القاعدة التي تختلف في خصوصيات في تعديل الوزن متشابك.
1.3.1.4. التعلم التنافسي
على عكس قاعدة هب للتعلم ، حيث يمكن أن ينشط عدد من الخلايا العصبية في وقت واحد ، هنا تتنافس الخلايا العصبية الخراجية مع بعضها البعض. إن الخلايا العصبية المخرجة ذات القيمة القصوى للمبلغ الموزون هي "الفائز" و "الفائز يأخذ كل شيء". يتم تعيين نواتج الخلايا العصبية الخرج الأخرى إلى غير نشطة. عند التعلُّم ، يتم فقط تعديل قيم أوزان "الفائز" التي تستهدف استهداف القرب من مثيل الإدخال الحالي.
هناك الكثير من خوارزميات التعلم التي تعالج مشاكل مختلفة. واحدة من أكثر الخوارزميات الحديثة فاعلية ، هي واحدة منها. المبدأ وراء ذلك هو أن تغير الوزن متشابك يحدث مع النظر في التدرج المحلي للوظيفة الخطأ.
الفرق بين الاستجابات الحقيقية والصحيحة للشبكة العصبية التي تم تقييمها في طبقة الخرج تم نشرها - نحو تيار الإشارات (الشكل 5). وبهذه الطريقة يمكن لكل عصبون تحديد مساهمة وزنها في الخطأ التراكمي للشبكة. أبسط قواعد التعلم هي أشد طرق النسب ، وهي تغير الوزن المشبكي بالتناسب مع مساهمتها في الخطأ التراكمي.
الملف المرفق 493151
من المؤكد أن هذا النوع من التعلم العصبي الشبكي لا يضمن أفضل نتيجة تعلم حيث أن هناك دائما احتمال أن الخوارزمية قد وصلت إلى الحد الأدنى المحلي. هناك تقنيات خاصة تسمح بإزالة الحل الموجود من نقطة متطرفة محلية. إذا كانت الشبكة العصبية بعد عدة تطبيقات من هذه التقنية لها نفس القرار ، فيمكن استنتاج أن الحل الموجود هو الأكثر احتمالا.
1.4. سلبيات
الصعوبة الرئيسية لاستخدام الشبكات العصبية هي ما يسمى بـ "لعنة البعدية". عندما يتم زيادة أبعاد المدخلات وعدد الطبقات ، فإن تعقيد الشبكة ووقت التعلم يتزايدان بشكل مضاعف والنتيجة المستلمة ليست دائماً مثالية.
صعوبة أخرى لاستخدام الشبكات العصبية هي أن الشبكات العصبية التقليدية غير قادرة على شرح كيفية حلها للمهام. في بعض مجالات التطبيق مثل الطب هذا التفسير هو أكثر أهمية من النتيجة نفسها. غالباً ما يكون التمثيل الداخلي للنتائج معقداً لدرجة أنه من المستحيل تحليله باستثناء الحالات الأبسط التي لا تهم في العادة.
2. التعلم العميق
تمر اليوم نظرية وممارسة التعلم الآلي "بثورة عميقة" ، ناجمة عن التنفيذ الناجح لأساليب التعلم العميق ، التي تمثل الشبكات العصبية من الجيل الثالث. على عكس شبكات الجيل الثاني الكلاسيكية المستخدمة في 80s-90s من القرن الماضي ، تحل نماذج التعلم الجديدة عددا من المشاكل التي تقيد التوسع والتنفيذ الناجح للشبكات العصبية التقليدية.
الشبكات التي تم تدريبها باستخدام خوارزميات التعلم العميق لم تفرق ببساطة أفضل الطرق البديلة في الدقة ولكن في بعض الحالات كشفت عن أساسيات فهم معلومات المدخلات. إن التعرف على الصور ونص تحليل المعلومات هي ألمع الأمثلة.
اليوم ، تعتمد الطرق الصناعية الأكثر تقدمًا لرؤية الكمبيوتر والاعتراف بالكلام على الشبكات العميقة. عمالقة صناعة تكنولوجيا المعلومات مثل Apple و Google و Facebook يستخدمون الباحثين لتطوير الشبكات العصبية العميقة.
2.1. خلفية
فاز فريق من طلاب الدراسات العليا الذين يدرسون في جامعة تورنتو بقيادة الأستاذ جيفري هينتون بالجائزة الأولى في مسابقة برعاية ميرك. باستخدام مجموعة بيانات محدودة ، تصف التركيب الكيميائي لـ 15 جزيء ، تمكنت مجموعة G. Hinton من إنشاء وتطبيق نظام برنامج خاص يحدد أي من هذه الجزيئات من المرجح أن يكون دواء فعال.
كانت خصوصية هذا العمل أن المطورين استخدموا شبكة عصبية اصطناعية تعتمد على التعلم العميق. ونتيجة لذلك ، تمكن النظام من إجراء عمليات حسابية وبحوث تستند إلى مجموعة محدودة للغاية من بيانات المصدر ، في حين يتطلب تدريب الشبكة العصبية عادة كمية كبيرة من المعلومات التي يتم وضعها في النظام.
كان انجاز فريق هينتون مثير للإعجاب بشكل خاص لأن الفريق قرر الدخول في المسابقة في الدقيقة الأخيرة. إضافة إلى ذلك ، تم تطوير نظام التعلم العميق دون معرفة محددة حول كيفية ارتباط الجزيئات بأهدافها. كان التنفيذ الناجح للتعلم العميق إنجازًا آخر في تطوير الذكاء الاصطناعي للأحداث 2012 الحافل بالأحداث.
لذلك في صيف عام 2012 ، قدم جيف دين وأندرو ي. نغ من Google نظامًا جديدًا للتعرف على الصور بمعدل دقة يبلغ 15،8٪ ، حيث تم تدريب نظام مجموعة من 16000 عقدة استخدموا شبكة ImageNet تحتوي على مكتبة تضم 14 مليون صورة 20000 كائن مختلف. في العام الماضي ، تفوق برنامج وضعه علماء سويسريون على الإنسان في التعرف على صور إشارات المرور. حدد البرنامج الفائز بدقة 99.46 في المئة من الصور في مجموعة من 50،000 ؛ وكانت أعلى درجة في مجموعة من 32 مشاركًا بشريًا 99.22 بالمائة ، وكان متوسط البشر 98.84 بالمائة. في تشرين الأول / أكتوبر 2012 ، قام ريتشارد ف. رشيد ، منسق برامج مايكروسوفت العلمية في مؤتمر عُقد في تيانجين بالصين بتكنولوجيا الترجمة الفورية من الإنجليزية إلى لغة الماندارين مصحوبة بمحاكاة لصوته الخاص.
وتستند جميع هذه التقنيات التي تظهر اختراقاً في مجال الذكاء الاصطناعي إلى أسلوب التعلم العميق إلى حد معين. إن الإسهام الرئيسي في نظرية التعلم العميق يقوم به البروفيسور هينتون ، وهو حفيد جورج بول الكبير ، وهو عالم إنجليزي ، مؤسس جبر بول الذي يكمن وراء الحواسيب المعاصرة.
تستكمل نظرية التعلم العميق الطرق العادية لتعلم الآلة باستخدام خوارزميات خاصة لتحليل معلومات المدخلات في العديد من مستويات العرض التقديمي. تكمن خصوصية الأسلوب الجديد في أن التعلم العميق يدرس الموضوع حتى يجد مستويات عرض معلومات كافية كافية لمراعاة جميع العوامل التي يمكن أن تؤثر على معايير الكائن موضع البحث.
بهذه الطريقة ، تتطلب الشبكة العصبية القائمة على مثل هذا النهج معلومات مدخلات أقل للتعلم ، وتكون الشبكة المدربة قادرة على تحليل المعلومات بدقة أعلى من الشبكات العصبية المعتادة. ويذكر البروفيسور هينتون وزملاؤه أن تقنيتهم مفيدة بشكل خاص للبحث عن الخصائص المميزة في مصفوفة المعلومات متعددة الأبعاد والمصممة بشكل جيد.
تستخدم تقنيات الذكاء الاصطناعي (AI) ، وخاصة التعلم العميق ، على نطاق واسع في أنظمة مختلفة ، بما في ذلك المساعد الشخصي الذكي Apple Siri استنادًا إلى تقنيات الاتصالات Nuance وعناوين التعرف في Google Street View. ومع ذلك ، يقدر العلماء النجاح في هذا المجال بعناية شديدة لأن تاريخ إنشاء الذكاء الاصطناعي مليء بالوعود وخيبات الأمل المتفائلة.
في الستينيات ، اعتقد العلماء أن الأمر سيستغرق 10 سنوات فقط لإنشاء ذكاء اصطناعي متميز بالكامل. ثم في ثمانينيات القرن العشرين ، كانت هناك موجة من الشركات الشابة تقدم "ذكاءً اصطناعياً جاهزاً" يليه "العصر الجليدي" في هذا المجال ، والذي استمر حتى وقت قريب. توفر القدرات الحسابية الواسعة المتاحة حاليًا في الخدمات السحابية مستوى جديدًا من تنفيذ الشبكات العصبية القوية باستخدام قاعدة نظريّة وخوارزميّة جديدة.
تجدر الإشارة إلى أن الشبكات العصبية ، حتى الجيل الثالث منها مثل الشبكات العصبية التلافيفية ، autassociators ، آلات بولتزمان ، ليس لها أي شيء مشترك مع الخلايا العصبية البيولوجية باستثناء الاسم.
ينفّذ نموذج التعلم الجديد فكرة التعلم على مرحلتين. في المرحلة الأولى ، يتم استخراج معلومات حول البنية الداخلية للبيانات المدخلة من مجموعة كبيرة من البيانات غير المنسقة باستخدام autoassociator من خلال التدريب غير المدروس على طبقة تلو الأخرى. بعد ذلك ، وباستخدام هذه المعلومات في شبكة عصبية متعددة الطبقات ، فإنه يمر عبر التدريب الخاضع للإشراف بطرق معروفة باستخدام البيانات المنسقة. في الوقت نفسه ، يجب أن يكون حجم البيانات غير المنسقة أكبر حجم ممكن. يمكن أن تكون البيانات المنسقة أصغر حجمًا بكثير. في حالتنا ليس من الأهمية الفورية.
2.2. Autoencoders. Autoencoder وتقييد آلة بولتزمان. الاختلافات والميزات
2.2.1. Autoencoder
كان autassociator الأول (АА) هو Fukushima neocognitron .
يتم تقديم هيكلها في Fig.7.
الملف المرفق 493152
الغرض من (autassociator (АА هو استلام عند الإخراج كصورة دقيقة من الإدخال قدر الإمكان.
هناك نوعان من توليد وتوليف. تنتمي آلة بولتزمان المقيدة إلى النوع الأول ويمثل autoencoder النوع الثاني.
Autoencoder هو شبكة عصبية ذات طبقة واحدة مفتوحة. باستخدام خوارزمية تعلم غير خاضعة للرقابة ونشر مرة أخرى ، يقوم بتعيين قيمة مستهدفة تساوي متجه الإدخال ، أي y = x.
ويرد مثال على autoencoder على Fig.8.
الملف المرفق 493153
يحاول Autoencoder إنشاء الدالة h (x) = x. وبعبارة أخرى ، تحاول أن تجد تقريبًا لوظيفة تضمن أن التغذية المرتدة للشبكة العصبية تساوي تقريبًا قيم معلمات الدخل. ولكي يكون حل المشكلة غير بديهي ، يجب أن يكون عدد الخلايا العصبية في الطبقة المفتوحة أقل من بُعد بيانات المدخلات (كما في الصورة).
يسمح بضغط البيانات عندما يتم تمرير إشارة الدخل إلى خرج الشبكة. على سبيل المثال ، إذا كان متجه الإدخال عبارة عن مجموعة من مستويات السطوع لصورة بحجم 10 × 10 بكسل (100 سمة) ، فإن عدد الخلايا العصبية للطبقة المخفية هو 50 ، فإن الشبكة تضطر إلى تعلم ضغط الصورة. يعني المتطلب h (x) = x أنه بناءً على مستويات تنشيط خمسين خلية عصبية من الطبقة المخفية ، فإن طبقة الخرج هي استعادة 100 بيكسل من الصورة الأولية. مثل هذا الانضغاط ممكن إذا كانت هناك ترابط مخفي أو ارتباط مميز أو أي بنية على الإطلاق. بهذه الطريقة يذكّر تشغيل autoencoder طريقة تحليل المكون الأساسي (PCA) بمعنى أنه يتم تقليل بيانات الإدخال.
والمثير للدهشة أن التجارب التي أجراها Bengio et al. (2007) ، أظهرت أنه عند التدريب مع أصل الانحدار العشوائي ، فإن شبكات التزويد الذاتي غير الخطية مع عدد الخلايا العصبية المخفية أكبر من عدد المدخلات (وتسمى أيضا "superabundant") كان لها عرض مفيد في ضوء خطأ المطابقة للشبكة التي أخذ هذا العرض من المدخلات.
في وقت لاحق ، عندما ظهرت فكرة التفاوت ، تم استخدام autoencoder المتناثر على نطاق واسع.
إن autoencoder المتناثر هو autoencoder يحتوي على عدد من الخلايا العصبية المخفية أكبر بكثير من البعد المدخلات ولكن لديهم تنشيط متفرق. التنشيط المتقطع هو عندما يكون عدد الخلايا العصبية غير النشطة في الطبقة المخفية أكبر بكثير من عدد الخلايا النشطة. إذا وصفنا الندرة بشكل غير رسمي ، فيمكن اعتبار العصبون نشطًا إذا كانت قيمة وظيفته قريبة من 1. إذا كانت هناك دالة سينيّة قيد الاستخدام ، فعندئذ بالنسبة للخلايا العصبية الخاملة ، يجب أن تكون قيمتها قريبة من الصفر (للوظيفة الزائدية يجب أن تكون القيمة قريبة من -1).
هناك اختلاف من autocoder يسمى denoising autoencoder (فنسنت وآخرون ، 2008). هذا هو نفس autoencoder ولكن تدريبها لديه بعض الخصائص. عند تدريب هذه الشبكة ، يتم إدخال البيانات "التالفة" (يتم استبدال بعض القيم بـ 0). في نفس الوقت ، هناك بيانات "صحيحة" للمقارنة مع بيانات الإخراج. بهذه الطريقة يستطيع autoencoder استعادة البيانات التالفة.
2.2.2. آلة بولتزمان المقيدة ، RBM.
لن نركز على تاريخ آلة بولتزمان المقيدة (RBM). كل ما نحتاج إلى معرفته هو أنها بدأت مع الشبكات العصبية المتكررة مع ردود الفعل التي كان من الصعب جدا تدريبها. بسبب صعوبة التعلم هذه ، ظهرت نماذج متكررة أكثر تقييدًا بحيث يمكن تطبيق خوارزميات التعلم البسيطة. كانت الشبكة العصبية Hopfield واحدة من هذه النماذج. كان جون هوبفيلد الشخص الذي قدم مفهوم طاقة الشبكة بعد مقارنة ديناميات الشبكة العصبية بالديناميكا الحرارية.
وكانت الخطوة التالية على الطريق إلى الإدارة القائمة على النتائج هي آلات بولتزمان العادية. وهي تختلف عن شبكة هوبفيلد في الطبيعة العشوائية وتنقسم عصبوناتها إلى مجموعتين تصف الحالات المرئية والخفية (على غرار نموذج ماركوف المخفي). تختلف ماكينة بولتزمان المقيدة عن الماكينة العادية في غياب الاتصالات بين الخلايا العصبية لطبقة واحدة.
يمثل الشكل 9 هيكل الإدارة القائمة على النتائج.
الملف المرفق 493154
خصوصية هذا النموذج هو أنه في الحالات الحالية من الخلايا العصبية لمجموعة واحدة ، فإن حالات الخلايا العصبية لمجموعة أخرى ستكون مستقلة عن بعضها البعض. الآن يمكننا الانتقال إلى بعض النظريات حيث يكون لهذه الخاصية الدور الرئيسي.