اسمایلز

از ویکی‌پدیا، دانشنامهٔ آزاد
اسمایلز
پسوند(های) نام پرونده
.smi
نوع رسانهٔ اینترنتی
chemical/x-daylight-smiles
گونهchemical file format
نحوه نگارش فرمول اسمایلز برای سیپروفلوکساسین: شکستن حلقه، سپس نوشتن شاخه‌ها از روی ستون اصلی

سیستم خطی ساده‌شدهٔ درون‌دهی مولکولی (انگلیسی: Simplified molecular-input line-entry system) که به اختصار به آن «اسمایلز» (SMILES) می‌گویند نوعی فرمول خطی برای توصیف ساختار گونه‌های شیمیایی با استفاده از رشته‌های کوتاه ASCII است. بسیاری از برنامه‌های رایانه‌ایِ ویرایشِ مولکول، قادر به استفاده و درون‌ریزی رشته‌های اسمایلز برای تبدیل مجدد آنها به نقشه‌های دو بعدی یا مدل‌های سه بعدی مولکولی هستند.

جزئیات اولیه اسمایلز در دهه ۱۹۸۰ در آزمایشگاهی در دانشگاه مینه‌سوتا در دلوث تعریف و ارائه شد و از آن زمان تغییراتی یافته و توسعه پیدا کرده است.[۱][۲][۳][۴] در سال ۲۰۰۷، یک استاندارد باز به نام «اوپن‌مایلز» در جامعه علمی متن‌باز شیمی توسعه یافت. تأمین بودجه و حمایت مالی برای آغاز و توسعه این پروژه به عهدهٔ آژانس حفاظت محیط زیست ایالات متحده آمریکا بود.[۵][۶]

در ژوئیهٔ ۲۰۰۶، «آیوپاک» شناسه شیمیایی بین‌المللی (InChI) را به عنوان استانداردی برای نمایش فرمول‌های شیمیایی معرفی کرد. اسمایلز عموماً خوانایی آسان‌تری نسبت به شناسه شیمیایی بین‌المللی برای انسان دارد. اسمایلز همچنین پایگاه گسترده‌ای از پشتیبانی نرم‌افزاری با پشتوانه نظری گسترده (مانند نظریه گراف) دارد.

توصیف[ویرایش]

اتم‌ها[ویرایش]

اتم‌ها با علامت اختصاری استاندارد عناصر شیمیایی، در قلاب (کروشه) نشان داده می‌شوند، مانند [Au] برای طلا. ممکن است براکت‌ها در حالت معمول حذف شوند؛ برای اتم‌هایی که:

  1. اتم‌های اصلی زیستی-حیاتی B، C، N، O، P، S، F، Cl، Br یا I، و
  2. بار قراردادی ندارند، و
  3. تعداد هیدروژن‌های متصل‌شده توسط مدل ظرفیتی اسمایلز مشخص شده است (معمولاً ظرفیت طبیعی آنها، اما برای نیتروژن و فسفر ۳ یا ۵ است، و برای گوگرد ۲، ۴ یا ۶ است)، و
  4. ایزوتوپ معمولی هستند، و
  5. مراکز دستوارگی نیستند.

تمام عناصر دیگر باید در قلاب (کروشه) قرار گیرند و بار الکتریکی و هیدروژن‌ها هم نمایش داده شوند. برای مثال، اسمایلز برای آب ممکن است به صورت O یا [OH2] نوشته شود. هیدروژن همچنین ممکن است به عنوان یک اتم جداگانه نوشته شود. آب را می‌توان به‌صورت [H]O[H] هم نمایش داد.

هنگامی که از قلاب (کروشه) استفاده می‌شود، اگر اتم داخل کروشه به یک یا چند هیدروژن پیوند داشته باشد، نماد H اضافه می‌شود، به دنبال آن؛ تعداد اتم‌های هیدروژن اگر بیشتر از ۱ باشد و سپس علامت + برای بار الکتریکی مثبت یا - برای بار الکتریکی منفی افزوده می‌شود. به عنوان مثال، [NH4+] برای آمونیوم (NH+
4
). اگر بیش از یک بار الکتریکی وجود داشته باشد، معمولاً به صورت عددی نوشته می‌شود. با این حال، می‌توان علامت مثبت یا منفی را به تعداد دفعاتی که یون بار الکتریکی دارد تکرار کرد: برای تیتانیم(IV) Ti4+ می‌توان نوشت [Ti+4] یا [Ti++++]. بنابراین، آنیون هیدروکسید (OH) با [OH-]، کاتیون هیدرونیوم (H
3
O+
) با [OH3+] و کاتیون کبالت (III) (Co3+) هم یا [Co+3] یا [Co+++] است.

پیوندها[ویرایش]

پیوند شیمیایی با یکی از این علائم نشان داده می‌شود: . - = # $ : / \.

پیوندهای بین اتم‌های ترکیبات آلیفاتیک منفرد فرض می‌شوند، مگر اینکه طور دیگری در فرمول‌نویسی خطی اسمایلز مشخص شده باشد. اگرچه پیوندهای منفرد ممکن است به صورت - نوشته شوند، این معمولاً این علامت را حذف می‌کنند. برای مثال، اسمایلز برای الکل طبی ممکن است به صورت C-C-O، CC-O یا C-CO نوشته شود، اما معمولاً CCO نوشته می‌شود.

پیوندهای شیمیایی دوگانه، سه‌گانه و چهارگانه را به‌ترتیب با علائم =، #، و $ نمایش می‌دهند؛ مثلا: O=C=O (کربن دی‌اکسید CO2C#N (هیدروژن سیانید HCN) و [Ga+]$[As-] (گالیم آرسنید)

یک نوع دیگر از پیوند، «غیر-پیوند» است که با . نشان داده شده است، تا نشان دهد که دو قسمت به هم متصل نیستند. برای مثال، سدیم کلرید آبی را به صورت [Na+].[Cl-] می‌نویسند تا این عدم اتصال را نشان داده باشند.

یک پیوند آروماتیک «یکی و نصفی» را می‌توان با : نشان داد.

پیوندهای منفرد مجاور با پیوندهای دوگانه ممکن است با استفاده از / یا \ برای نشان دادن پیکربندی استریوشیمیایی مولکول نشان داده شوند.

حلقه‌ها[ویرایش]

ساختارهای حلقه با شکستن هر حلقه در یک نقطه دلخواه نوشته می‌شوند (اگرچه برخی از انتخاب‌ها منجر به خوانایی بهتر اسمایلز نسبت به سایر فرمول‌ها می‌شود) تا یک ساختار غیر چرخه‌ای ایجاد شود و برچسب‌های عددی بسته شدن حلقه برای نشان دادن اتصال بین اتم‌های غیر همجوار اضافه شود.

به عنوان نمونه، سیکلوهگزان و دی‌اُکسان ممکن است به ترتیب به صورت C1CCCCC1 و O1CCOCC1 نوشته شوند. برای حلقه دوم، برچسب ۲ خواهد بود. برای مثال، دکالین (دکاهیدرونافتالین) ممکن است به صورت C1CCCC2C1CCCC2 نوشته شود.

خصلت آروماتیکی[ویرایش]

حلقه‌های آروماتیک همچون بنزن به یکی از سه صورت زیر نوشته می‌شود:

  1. به صورت ککوله با پیوندهای منفرد و دوتایی متناوب، به عنوان مثال: C1=CC=CC=C1
  2. با استفاده از نماد پیوند آروماتیک :. مثلا: C:1:C:C:C:C:C1، یا
  3. معمولاً با نوشتن اتم‌های تشکیل دهنده بور، کربن، نیتروژن، اکسیژن، فسفر و گوگرد به ترتیب با حروف کوچک b، c، n، o، p و s

در مورد آخری، پیوندهای بین دو اتم آروماتیک (اگر به صراحت نشان داده نشده باشد) به عنوان پیوندهای آروماتیک فرض می‌شوند؛ بنابراین، بنزن، پیریدین و فوران را می‌توان به ترتیب با c1ccccc1, n1ccccc1 and o1cccc1. نشان داد.

نیتروژن آروماتیک متصل به هیدروژن، که مثلا در پیرول یافت می شود، باید حتما به صورت [nH] نشان داده شود. بنابراین ایمیدازول با نماد اسمایلز به صورت n1c[nH]cc1 نوشته می‌شود.

هنگامی که اتم‌های آروماتیک به صورت مجزا به یکدیگر پیوند می‌خورند، مانند بی‌فنیل، یک پیوند منفرد باید به وضوح ارائه شود: c1ccccc1-c2ccccc2. این یکی از معدود مواردی است که نماد پیوند منفرد - مورد نیاز است. (در واقع، اکثر نرم‌افزارهای اسمایلز می‌توانند به درستی استنباط کنند که پیوند بین دو حلقه نمی‌تواند آروماتیک باشد و بنابراین فرم غیر استاندارد c1ccccc1c2ccccc2 را می‌پذیرد).

شاخه‌ها[ویرایش]

شاخه‌ها با کمان (پرانتز) نمایش داده می‌شوند، مانند CCC(=O)O برای پروپانوئیک اسید و FC(F)F برای فلوئوروفرم. نخستین اتم داخل پرانتز و نخستین اتم بعد از گروه پرانتزشده، هر دو به یک اتم نقطه شاخه‌ای متصل هستند. نماد پیوند باید در داخل پرانتز ظاهر شود و خارج آن (به عنوان مثال: CCC=(O)O) پذیرفته نیست.

حلقه‌های جایگزین را می‌توان با نقطه انشعاب در حلقه نوشت، همان‌طور که در COc(c1)cccc1C#N (تصویر) و COc(cc1)ccc1C#N (تصویر) دیده می‌شوند که ایزومرهای ۳ و ۴-سیانوآنیزول را کد می‌کنند. نوشتن اسمایلز برای حلقه‌های جایگزین به این روش می‌تواند آنها را برای انسان خواناتر می‌کند.

یکی از شاخه‌هایی که نیازی به استفاده از پرانتز در فرمول‌نویسی ندارد، پیوندهای حلقه بسته هستند. انتخاب مناسب پیوندهای تکمیل حلقه می‌تواند تعداد پرانتزهای مورد نیاز را کاهش دهد. به عنوان مثال، تولوئن معمولاً به صورت Cc1ccccc1 or c1ccccc1C نوشته می‌شود تا از به‌کارگیری پرانتزهای مورد نیاز در روش c1cc(C)ccc1 یا c1cc(ccc1)C اجتناب شود.

ایزوتوپ[ویرایش]

ایزوتوپ‌ها با عددی برابر با جرم ایزوتوپی عدد صحیح قبل از نماد اتمی مشخص می‌شوند. بنزن که یک اتم آن کربن-۱۴ است به‌صورت [14c]1ccccc1 و دئوتراتد کلروفرم به‌صورت [2H]C(Cl)(Cl)Cl نوشته می‌شود.

مثال‌ها[ویرایش]

مولکول ساختار فرمول اسمایلز
دی‌نیتروژن N≡N N#N
متیل ایزوسیانات (MIC) CH3−N=C=O CN=C=O
مس(II) سولفات Cu2+SO2−
4
[Cu+2].[O-]S(=O)(=O)[O-]
وانیلین Molecular structure of vanillin O=Cc1ccc(O)c(OC)c1
COc1cc(C=O)ccc1O
ملاتونین (C13H16N2O2) Molecular structure of melatonin CC(=O)NCCC1=CNc2c1cc(OC)cc2
CC(=O)NCCc1c[nH]c2ccc(OC)cc12
فلاووپررئین (C17H15N2) Molecular structure of flavopereirin CCc(c1)ccc2[n+]1ccc3c2[nH]c4c3cccc4
CCc1c[n+]2ccc3c4ccccc4[nH]c3c2cc1
نیکوتین (C10H14N2) Molecular structure of nicotine CN1CCC[C@H]1c2cccnc2
اوئنانتوتوکسین (C17H22O2) Molecular structure of oenanthotoxin CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
CCC[C@@H](O)CC/C=C/C=C/C#CC#C/C=C/CO
پیرترین II (C22H28O5) Molecular structure of pyrethrin II CC1=C(C(=O)C[C@@H]1OC(=O)[C@@H]2[C@H](C2(C)C)/C=C(\C)/C(=O)OC)C/C=C\C=C
آفلاتوکسین B1 (C17H12O6) Molecular structure of aflatoxin B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
گلوکز (β-D-گلوکوپیرانوز) (C6H12O6) Molecular structure of glucopyranose OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)[C@H](O)1
برژنین (کاسکاتین، نوعی صمغ) (C14H16O9) Molecular structure of cuscutine (bergenin) OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H]2[C@@H]1c3c(O)c(OC)c(O)cc3C(=O)O2
یک فرومون شپشک کالیفرنیایی (3Z,6R)-3-methyl-6-(prop-1-en-2-yl)deca-3,9-dien-1-yl acetate CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
(2S،5R)-کالکوگران: یک فرومون در سوسک‌های پوسته‌نشین «پیتیوجنس کالکوگرافوس»[۷] (2S,5R)-2-ethyl-1,6-dioxaspiro[4.4]nonane CC[C@H](O1)CC[C@@]12CCCO2
آلفا-توژون (C10H16O) Molecular structure of thujone CC(C)[C@@]12C[C@@H]1[C@@H](C)C(=O)C2
تیامین (ویتامین ب۱, C12H17N4OS+) Molecular structure of thiamin OCCc1c(C)[n+](cs1)Cc2cnc(C)nc2N

برای نشان دادن یک مولکول با بیش از ۹ حلقه، مولکول «سفالوستاتین-۱» را در نظر بگیرید[۸] یک پیرازین استروئیدی ۱۳ حلقه‌ای با فرمول تجربیC54H74N2O10 که از یکی از نیم‌طنابداران اقیانوس هند به نام «سفالودیسکوس گیلکریستی» به‌دست آمد:

Molecular structure of cephalostatin-1

با گروه متیل در منتهی‌الیه سمت چپ شکل شروع کنید:

CC(C)(O1)C[C@@H](O)[C@@]1(O2)[C@@H](C)[C@@H]3CC=C4[C@]3(C2)C(=O)C[C@H]5[C@H]4CC[C@@H](C6)[C@]5(C)Cc(n7)c6nc(C[C@@]89(C))c7C[C@@H]8CC[C@@H]%10[C@@H]9C[C@@H](O)[C@@]%11(C)C%10=C[C@H](O%12)[C@]%11(O)[C@H](C)[C@]%12(O%13)[C@H](O)C[C@@]%13(C)CO

% در جلوی شاخص برچسب‌هایِ تکمیلِ حلقه (بیش از ۹ حلقه) ظاهر می‌شود.

جستارهای وابسته[ویرایش]

منابع[ویرایش]

  1. Weininger D (February 1988). "SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules". Journal of Chemical Information and Computer Sciences. 28 (1): 31–6. doi:10.1021/ci00057a005.
  2. Weininger D, Weininger A, Weininger JL (May 1989). "SMILES. 2. Algorithm for generation of unique SMILES notation". Journal of Chemical Information and Modeling. 29 (2): 97–101. doi:10.1021/ci00062a008.
  3. Weininger D (August 1990). "SMILES. 3. DEPICT. Graphical depiction of chemical structures". Journal of Chemical Information and Modeling. 30 (3): 237–43. doi:10.1021/ci00067a005.
  4. Swanson RP (2004). "The Entrance of Informatics into Combinatorial Chemistry" (PDF). In Rayward WB, Bowden ME (eds.). The History and Heritage of Scientific and Technological Information Systems: Proceedings of the 2002 Conference of the American Society of Information Science and Technology and the Chemical Heritage Foundation. Medford, NJ: Information Today. p. 205. ISBN 978-1-57387-229-4.
  5. Anderson E, Veith GD, Weininger D (1987). SMILES: A line notation and computerized interpreter for chemical structures (PDF). Duluth, MN: U.S. EPA, Environmental Research Laboratory-Duluth. Report No. EPA/600/M-87/021.
  6. "SMILES Tutorial: What is SMILES?". U.S. EPA. Archived from the original on 28 March 2008. Retrieved 2012-09-23.
  7. Byers JA, Birgersson G, Löfqvist J, Appelgren M, Bergström G (March 1990). "Isolation of pheromone synergists of bark beetle, Pityogenes chalcographus, from complex insect-plant odors by fractionation and subtractive-combination bioassay". Journal of Chemical Ecology. 16 (3): 861–876. doi:10.1007/BF01016496. PMID 24263601. S2CID 226090.
  8. "CID 183413". PubChem (به انگلیسی). Retrieved May 12, 2012.