دستور زبان مستقل از متن

از ویکی‌پدیا، دانشنامهٔ آزاد
(تغییرمسیر از گرامرهای مستقل از متن)

دستور زبان مستقل از متن به گرامری به صورت (G=(V,T،S,P گفته می‌شود که قانون‌های تولید آن به شکل زیر باشند: A→x که A € V و *(x € (V∪T

زبان L یک زبان مستقل از متن است اگر و تنها اگر گرامر مستقل از متنی مانند G وجود داشته باشد که رابطه (L=L(G برقرار باشد. همه گرامرهای منظم مستقل از متن هستند؛ بنابراین یک زبان منظم مستقل از متن نیز می‌باشد اما زبان‌های نامنظمی مانند{a^n b^n}(^ توان) نیز وجود دارند که مستقل از متن باشند. برای این مثال یک گرامر مستقل از متن وجود دارد؛ بنابراین خانوادهٔ زبان‌های منظم زیر مجموعه سره‌ای از خوانده زبان‌های مستقل از متن می‌باشند. نام گرامرهای مستقل از متن از این حقیقت آمده که جانشینی متغیرهای سمت چپ قانون تولید، هرزمان که یکی از آن‌ها در یک فرم جمله‌ای ظاهر شود امکان‌پذیر است. بدین معنی که این جانشینی به دیگر نشانه‌های فرم جمله‌ای (متن) وابسته نیست. این ویژگی از این ناشی می‌شود که تنها یک متغیر در سمت چپ قانون‌های تولید قرار می‌گیرد.

مثال‌های از زبان‌های مستقل از متن مثال یک: گرامر (S},{a،b},S،P}) با قانون‌های تولید s→aSa s→bSb s→Y مستقل از متن است. نمونه‌ای از یک اشتقاق در این گرامر به صورت s→aSa→aaSaa→aabSbaa→aabbaa می‌باشد. این اشتقاق و دیگر اشتقاق‌های مشابه نشان می‌دهند که زبان {L(G)={wwR:w€{a,b یک زبان مستقل از متن است؛ اما این زبان منظم نیست. مثال دو: s→abB A→aaBb B→bbAa A→Y مستقل از متن است. زبان متناظر با این گرامر {L(G)={ab(bbaa)^nbba(ba)^n:n>=۰ می‌باشد. هر دوی این مثال‌ها گرامرهایی را نشان می‌دهند که علاوه بر مستقل از متن بودن، خطی نیز هستند. گرامرهای منظم و خطی مطمئناً مستقل از متن نیز می‌باشند. اما یک گرامر مستقل از متن لزوماً خطی نیست.[۱]

پیشینه[ویرایش]

حداقل از زمان پانی، کسی که یک زبان‌شناس هندی مربوط به دوران قبل از میلاد مسیح بود، زبان شناسان گرامرهای زبان‌ها را بر اساس ساختار بلوکی آن‌ها و همین‌طور چگونگی تشکیل جملات از عبارت‌های کوچکتر و در نهایت از کلمه و حرف توصیف کرده‌اند. قسمت با اهمیت این ساختارهای بلوکی این است که هیچ وقت واحدهای منطقی با یکدیگر تداخل ندارند. برای مثال:

احمد، کسی که ماشین قرمزش داخل گاراژ بود، رفت به سبزی فروشی.

می‌توان به‌طور منطقی عبارت بالا را پرانتز بندی کرد به صورت:

(احمد، ((کسی که ماشین قرمزش)((داخل گاراژ) بود)))، (رفت (به (سبزی فروشی)))).

برای توصیف متدهایی که به وسیله آن‌ها در برخی از زبان‌های طبیعی که عبارت‌ها از بلوک‌های کوچکتری ساخته شده‌اند، گرامر مستقل از متن روشی ساده و در عین حال از لحاظ ریاضی دقیق را به وسیله گرفتن ساختارهای بلوکی جملات از راه طبیعی ایجاد می‌کند. سادگی آن باعث می‌شود تا برای رسمی‌سازی مطالعه ریاضیات سخت جوابگو باشد. نوام چامسکی رسمی‌سازی گرامر مستقل از متن و همین‌طور کلاس بندی نوع خاصی از گرامر رسمی آن را (که وی آن را گرامرهای ساختار عبارت[۲] نامید) در اواسط ۱۹۵۰ به وجود آورد.[۳] چیزی که چامسکی آن را گرامر ساختار عبارت نامید به گرامر حوزه انتخاباتی مشهور است، که به موجب آن در مقابل گرامر وابسته است.

تعریف رسمی[ویرایش]

گرامر مستقل از متن با ۴عنصر مشخص می‌شود.

که

  1. :یک مجموعه محدود است: هر عضو را یک متغیر گویند. هر متغیر نشاندهنده یک متن یا یک عبارت متفاوت در متن است. متغیرها را در بعضی اوقات دسته نحوی نیز می‌گویند. هر متغیر یک زیر زبان از زبان‌های تعریف شده با را تعریف می‌کند.
  2. مجموعه محدودی از ترمینال‌هاست که جدا از محتوای واقعی جمله را تشکیل می‌دهند. مجموعه ترمینال‌ها مجموعه‌ای از حروف الفبا است که با گرامر تعریف می‌شود.
  3. یک رابطه محدود از به ، که در آن ستاره نشان‌دهندهٔ عملیات ستاره کلین است. اعضای را قاعده یا محصول گرامر گوییم.
  4. را متغیر ابتدایی گوییم؛ و برای نمایش کل جمله (برنامه) استفاده می‌شود؛ و باید عضو باشد.

قاعده نمادسازی[ویرایش]

قاعده تولید در یعنی فرموله کردن ریاضی به شکل ، که و که رشته از متغیرها است. به جای نوشتن به شکل زوج مرتب، قاعده تولید را به شکل: می‌نویسند.

همچنین می‌تواند رشته‌ای خالی باشد (رشته با طول صفر)، که در این زمان با ε نمایش می‌دهند. شکل را ε-ساخت گویند.

قوانین استفاده[ویرایش]

برای هر رشته ، که گفته می‌شود نتیجه می‌دهد و به صورت روبرو نوشته می‌شود : if with and such that and .

کاربرد قاعده تکراری[ویرایش]

برای هر (or in some textbooks)، اگر به‌طوری‌که .

گرامر مستقل از متن[ویرایش]

گرامر زبان بدین شکل است که:

زبان را گرامر مستقل از متن می‌گویند که وجود داشته باشد ای، به‌طوری‌که .

CFSهای مناسب[ویرایش]

یک گرامر مستقل از متن را مناسب می‌گوییم هرگاه شرایط زیر را داشته باشد:

  • نمادهای دسترسی ناپذیر نداشته باشد: .
  • نمادهای عقیم (خاصیت تولید نکردن) نداشته باشد: .
  • ε-ساخت نداشته باشد: ε
    .
  • لوپ نداشته باشد:.

مثال[ویرایش]

گرامر ، fh ساخت‌های:

S → aSa,
S → bSb,
S → ε،

یک گرامر مستقل از متن است. چون یک ε-ساخت دارد، مناسب نیست. اشتقاق معمولی در این دستور زبان:

S → aSa → aaSaa → aabSbaa → aabbaa.

بدین شکل است؛ و واضح است که . زبان مستقل از متن است حتی با اینکه زبان منظم نیست.

شکل معمولی[ویرایش]

تمام گرامر مستقل از متن که رشته خالی تولید نمی‌کند را نمی‌توان تبدیل کردن به قانونی که رشته خالی تولید نمی‌کند. اگر که رشته خالی تولید می‌کند لازم است قانون را داشته باشد ولی لازم نیست قانون ε را داشته باشد. تمام گرامرهای مستقل از متن که ε-ساخت را دارند با گرامرهای شکل نرمال چامسکی[۴] و همچنین گرامر شکل نرمال گریباخ[۵] معادلند."معادل بودن " در اینجا به معنای آن است که در هر گرامر زبان یکسانی تولید می‌کند.

به دلیل شکل به خصوص قوانین ساخت در شکل نرمال چامسکی، این شکل نرمال هم مفهوم نظری و هم عملی دارد. برای مثال، با توجه به یک گرامر مستقل از متن، می‌توان از فرم نرمال چامسکی برای ساخت چندجمله‌ای زمانی که آیا رشته داده شده در زبان توسط گرامر نشان داده شده یا خیر.

مشکلات تصمیم ناپذیر[ویرایش]

برخی از سولات که تصمیم ناپذیرند در کلاس‌های وسیع تر گرامر، در گرامر مستقل از متن تصمیم پذیر شده‌اند. مانند: مسئله پوچی که در گرامر وابسته به متن[۶] تصمیم ناپذیر است ولی در گرامر مستقل از متن تصمیم پذیر است.

اما هنوز بسیاری از مسائل تصمیم ناپذیرند، مانند:

عمومیت[ویرایش]

با توجه به CFG، آیا زبانی از تمام رشته‌ها ی الفبای ترمینال استفاده شده در این قوانین را به وجود می‌آورد؟[۷][۸]

برابری زبان[ویرایش]

با داشتن دو CFG، آیا آن دو یک زبان را تولید می‌کنند.[۹]

گنجاندن زبان[ویرایش]

با داشتن دو CFG، آیا اولی تمام رشته‌هایی را تولید می‌کند که دومی تولید می‌کند.[۹]

زمینه‌ها[ویرایش]

یک راه برای گسترش گرامر مستقل از متن این است که اجازه دهیم غیر پایانی ها(nonterminals) که بحث می‌شوند، مقدار و ارزش آن‌ها همراه با قوانین اثبات شوند. این اجازه می‌دهد تا ویژگی‌های زبان‌های طبیعی از قبیل توافق و مراجع، و آنالوگ به زبان‌های برنامه‌نویسی مانند استفاده درست و تعریف شناسه، در یک راه طبیعی بیان می‌شود؛ مثلاً: ما یه راحتی می‌توانیم بیان کنیم که فعل وفاعل در جمع و منفرد بودن باید با هم تطابق داشته باشند. در علوم کامپیوتر مثال‌های این گرایش در افیکس گرامر و صفت گرامر و گرامر ایندکس است.

گرامر مستقل از متن گسترش یافته آن است که در طرف راست ساختارش عبارت با قاعده بیش از گرامرهای پایان پذیر و پایان ناپذیرش می‌تواند باشد. گرامر مستقل از متن گسترش یافته دقیقاً گرامر مستقل از متن را توصیف می‌کند.[۱۰]

فرم نرمال چامسکی[ویرایش]

برای هر زبان مستقل از متن L، یک گرامر برای L-{ε} وجود دارد که هر قانون تولید آن به یکی از دو صورت زیر است: A → a , A → BC به یک روند تمیزکاری برای گرامر نیاز داریم که: - متغیرهای بدون استفاده را حذف کند. - قوانین تولید ε را حذف کند. - قوانین تولید واحد را حذف کند.

متغیر X برای گرامر G=(V, T, P, S) مفید نامیده می‌شود اگر یک اشتقاق به صورت زیر وجود داشته باشد: S⇒αXβ⇒w که در آن: w عضو Tاستار می‌باشد؛ و αوβ عضو (اجتماع T,V)استار می‌باشند.

متغیر X مولد نامیده می‌شود اگر: X⇒w

متغیر X قابل دسترس نامیده می‌شود اگر رشته‌های αوβ عضو (اجتماع T,V)استار وجود داشته باشد که: S⇒αXβ

الگوریتم کشف متغیر مولد: مجموعه متغیرهای مولد را به صورت g(G) نمایش می‌دهیم.

  • پایه:

اگر A → w یک قانون تولید باشد، آنگاه A یک متغیر مولد است. پس خواهیم داشت: A∈g(G)

اگر A → α یکی از قوانین تولید باشد و همهٔ متغیرهای رشتهٔ α مولد باشند، A نیز مولد است.

الگوریتم کشف متغیرهای قابل دسترس:

  • پایه:

S قابل دسترس است.

  • استقرا:

اگر A قابل دسترس باشد و A → α یک قانون تولید باشد، تمام متغیرهای α نیز قابل دسترس هستند.

  • قضیه:

فرض کنید G یک گرامر مستقل از متن باشد، گرامری که پس از انجام دو مرحلهٔ زیر به دست می‌آید، همان زبان را تعریف می‌کند و دارای متغیر بی‌استفاده نیست.

  1. حذف همهٔ متغیرهای غیرمولد و تمام قوانینی که در آن‌ها ظاهر می‌شوند.
  2. حذف همهٔ متغیرهای غیرقابل دسترس و تمام قوانینی که در آن‌ها ظاهر می‌شوند.

زیر شاخه‌ها[ویرایش]

گرامر مستقل از متن چندین شاخه و دسته مهم دارد:

  • گرامر (LR(kتجزیه کردن را اجازه می‌دهند. اما آن‌ها تنها می‌توانند گرامرهای مستقل از متن قطعی را توصیف کنند.
  • گرامرهای LR ساده و پیش‌بینی LR که به ساده‌تر شدن تجزیه شدن کمک می‌کنند.
  • گرامر ( LL(k اجازه به تجزیه‌ای می‌دهند که ساخت آن به‌طور مستقیم از یک اشتقاق چپ همان‌طور که در بالا توضیح داده شده‌است باشد.
  • گرامر ساده که شاخه‌ای از شاخه گرامر(LL(1 که بیشتر به خاطر خاصیت تئوری مورد توجه قرار گرفته‌است.
  • گرامر براکتی که دارای این خاصیت است که سمبل‌های ترمینالی که به چپ و راست تقسیم می‌شوند، هر دو دارای قوانین یکسانی است.
  • گرامر خطی که در هیچ‌کدام از قانون‌های آن، متغیرهای غیر پایانه‌ای (Non-Terminalها) در سمت راست، بیش از یک بار نیامده‌اند.
  • گرامر منظم که شاخه‌ای از گرامر خطی است و زبان منظم را مشخص می‌کند.

تجزیه LR تجزیه LL را برای حمایت از تعداد زیادی گرامر گسترش می‌دهند.

کاربرد زبان‌شناسی[ویرایش]

نوآم چامسکی ابتدا امید داشت که بتواند محدودیت گرامر مستقل از زبان را با تغییر قوانین بهبود بخشد.[۱۱]

همچنین قوانین کمک دیگری برای زبان‌شناسی سنتی است. بخش عمده‌ای از دستور زایشی برای پیدا کردن راه‌های پالایش مکانیسم توصیفی عبارت ساختار دستور زبان و تحول قوانین به‌طوری‌که دقیقاً انواع چیزهایی را که توسط زبان طبیعی اجازه داده شده‌است را که می‌توان بیان کند، اختصاص داده‌است.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. نظریه زبان‌ها و ماشین‌ها پیتر لینز
  2. Chomsky, Noam (Sep 1956), "Three models for the description of language" (PDF), Information Theory, IEEE Transactions, 2 (3): 113–124, doi:10.1109/TIT.1956.1056813, retrieved 2007-06-18
  3. (Hopcroft و Ullman 1979), p.  106.
  4. Chomsky normal form
  5. Greibach normal form
  6. Context-sensitive grammar
  7. ^ Sipser (1997), Theorem 5.10, p. 181.
  8. ^ a b c d Hopcroft & Ullman (1979), p. 281.
  9. ۹٫۰ ۹٫۱ ^ a b c Hazewinkel, Michiel (1994), Encyclopaedia of mathematics: an updated and annotated translation of the Soviet "Mathematical Encyclopaedia", Springer, Vol. IV, p. 56, ISBN 978-1-55608-003-6.
  10. ^ Norvell, Theodore. "A Short Introduction to Regular Expressions and Context-Free Grammars". pp. 4. Retrieved August 24, 2012.
  11. ^ a b Chomsky, Noam (Sep 1956), "Three models for the description of language", Information Theory, IEEE Transactions 2 (3): 113–124, doi:10.1109/TIT.1956.1056813, retrieved 2007-06-18
  • Hopcroft, John E.; Ullman, Jeffrey D. (1979), Introduction to Automata Theory, Languages, and Computation, Addison-Wesley. Chapter 4: Context-Free Grammars, pp. 77–106; Chapter 6: Properties of Context-Free Languages, pp. 125–137.
  • Sipser, Michael (1997), Introduction to the Theory of Computation, PWS Publishing, ISBN 0-534-94728-X. Chapter 2: Context-Free Grammars, pp. 91–122; Section 4.1.2: Decidable problems concerning context-free languages, pp. 156–159; Section 5.1.1: Reductions via computation histories: pp. 176–183.