شبکه های عصبی مصنوعی یکی از ابزارهای هوش مصنوعی به حساب می آید که بسیار مود توجه محققان این حوزه قرار دارد. شبکه های عصبی چند لایه پیش خور back prognation (BP) کاربردهای زیادی در حوزه های مهندسی داشته است از جمله پردازش تصاویر، تقریب توابع و پیش بینی ها الگوریتم یادگیری پس انتشار خطا2، یکی از پرکاربردترین الگوریتم ها جهت آموزش شبکه های عصبی پرسپترون می باشد. این الگوریتم، تقریبی از الگوریتم بیشترین کاهش می باشد و در چارچوب یادگیری کارکردی قرار می گیرد. عمومیت یافتن الگوریتمBP ، بخاطر سادگی و کاربردهای موفقیت آمیزش در حل مسائل فنی- مهندسی می باشد.
شبکه تأخیر زمانی اولین بار در سال 1988 توسط ویبل استفاده شد و تا کنون نیز کماکان به همان صورت باقیمانده است، شامل سه لایه است که وزن های آن با سلول های تأخیر زمانی جفت شده اند .تابع محرک هرسلول تابع سیگموئی است .ساختار نرون ها در این شبکه در طراحی شبکه های عصبی و بخصوص شبکه عصبی تأخیر زمانی، طراح با مسئله انتخاب شبکه ای مناسب برای طرح خود مواجه است .به طور کلی شبکه ای که با کمترین پیچیدگی و حداقل پارامتر، بیشترین دقت را در شناسایی الگو های ورودی داشته باشد شبکه مناسب نامیده می شود .در تئوری اگر مسئله ای توسط شبکه ای خاص قابل حل باشد، توسط شبکه های با اندازه بزرگتر نیزقابل حل است. ولی به خاطر عدم وجود جواب یگانه برای وزن های بهجینه الگوریتم های یادگیری برای شبکه بزرگتر معمولاً وزنهای مخالف را نتیجه می دهند، از اینرو برای تشخیص آن یک شبکه با اندازه کوچکتر برای حل مسئله مورد نظر وجود دارد با اشکال مواجه می کند .
اگر تعداد نرون های لایه های شبکه مورد استفاده در یک مسئله خاص را کم بگیریم شبکه قادر به یادگیری نخواهد بود زیرا تعداد فوق صفحات و در نتیجه فوق حجم های لازم برای تقسیم بندی فضای ورودی به کلاس های مختل کافی نخواهد بود از طرف دیگر تعداد زیاد نرون های لایه های پنهان نیز به خاطر بالا رفتن حجم محاسبات ودر نتیجه طولانی شدن زمان تربیت شبکه مناسب نمی باشد علاوه بر این با توجه به آنکه تربیت شبکه بر اساس مجموعه محدودی از الگو های تربیتی صورت می گیرد اگر شبکه خیلی بزرگ باشد سعی در حفظ کردن دقیق الگو های تربیتی می نماید و این امر موجب کاسته شدن از قدرت تعمیم و درون یابی شبکه جهت تشخصی الگوهای جدید و خارج از مجموعه تربیتی می گردد، از اینرو یک تعداد بحرانی برای لایه های پنهان وجود دارد که برای هر کاربرد خاص باید پیدا شود .تعداد نرون های لایه پنهانی شبیه سازی شبکه های مختل و اندازه گیری میزان دقت و درون یابی این شبکه ها روی الگو هایی که در مجموعه تربیتی آنها نبوده است. تعداد نرون های لایه خروجی شبکه ویا به عبارت دیگر نوع کدینگ در خروجی نیز بایستی برای حل یک مسئله خاص مناسب باشند. بهترین روش کدینگ کردن کلاس های خروجی استفاده از بردار های مقدماتی است
روش یادگیری پس انتشار خطا (BP)، برای آموزش شبکه های عصبی چند لایه پیش خور که عموماً شبکه های چند لایه پرسپترون 5 (MLP) هم عنوان می شود، استفاده می شود، استفاده می کنند.
به عبارتی ساختا شبکه های پرتسپترون چند لایه ، با قانون یادگیری پس انتشار خطا تکمیل می شود. این قانون تقریبی از الگوریتم بیشترین نزول است و در چارچوب یادگیری عملکردی قرار می گیرد.
به عنوان مثال، فرض می کنیم مقدار اولیه پارامترهای شبکه خیلی بزرگ باشند، در حالی که می دانیم توابع تبدیل نرونها مخصوصاً درلایه های میانی از نوع زیگموئید هستند. در این حالت برای نرون i ام، اندازه ورودی تابع تبدیل (ni) خیلی بزرگ می باشد و خروجی نرون (ai) به مقدار 1± میل می کند.
لذا مشتق بردار خروجی شبکه، a ، خیلی کوچک می باشد. فرض کنیم که باید مقدار واقعی ai، 1 باشد یعنی ti = 1، لیکن به خاطر انتخاب بر مقادیر اولیه، ai = -1 گردد. در این حالت خطای حداکثر را داریم در حالی که چون ai ≈ 0 می باشد.
تغییرات ناچیزی در پارامترهای متناظر با نرون i ام داریم. این چیزی است که بیانگر رسیدن زودتر از معمول نرونها به حد اشباع خود می باشند، جایی که پاسخ واقعی با پاسخ شبکه کاملاً فرق دارد. زمان زیادی طول خواهد کشید که نرون از این حالت خارج شود. از این رو با پیشرفت پروسه یادگیری، پارامترهای منتسب به نرورنهایی که به مرز اشباع نرسیده اند، سریعتر تنظیم می شوند.
در شبکه های عصبی چند لایه پیش خور سیگنال خطار گرادیانهای محلی از مقدار از اندازه بزرگتری برخوردار می باشند. این عمل منجر به کاهش در مجموع مربعات خطای لحظه ای می گردد و اگر در این مرحله، نرونهای به حد اشباع رسیده تغییری در وضعیت تحریکشان رخ ندهد، شبکه برای مدتی طولانی از یک شکل هموار منحنی خطا برخوردار خواهدبود.
مقادیر α و c، بایستی مثبت باشند تا سیستم یاد بگیرد. بنابراین آن شرط کافی است که همه مقادیر ویژه E، مثبت باشند تا نتیجه بگیریم که m، یک نقطه مینیمم محلی است.
همچنین از آنجایی که F(0)، یک نقطه مینیمم محلی دارد، ماتریس هسیان2 A، ماتریسی مثبت معین3 است.
نشان داده شده است که اگر ضرایب الگوریتم BP دارای سه ترم، در شرایط (46), (44), (43) صدق کنند، پایداری سیستم تضمین می شود و سیستم به یک نقطه مینیمم محلی، همگرا خواهد شد. اگر مقادیر ویژه ماتریس E، نسبتاً بزرگ باشندف ممکن است شرط (46)، نقض شود ولی در اکثر موارد E محدود است، بنابراین اگر α و c، به اندازه کافی کوچک باشند، تمامی نقاط، مینیمم محلی پایدار هستند.