SMILES言語 (Simplified Molecular Input Line Entry System) は、
Daylight C.I.S.社の創立者である Dr. David Weininger が考案した分子記述言語です。
簡便でわかりやすく、定評ある分子記述法として広く普及しています。
- 分子の二次元構造を文字列として記述
- 情報をコンパクトに保存
- 原子座標の羅列と違い、ユーザーにも理解しやすい
SMILESには、以下の種類があります。
- generic SMILES
- 原子とそれらの間の結合のみを記述したSMILESは「generic SMILES」です。
どの原子を先頭にして、どの向きに原子を辿り、分岐でどちらを側鎖とみなすかによって、同一の構造に対して複数通りのgeneric SMILESを記述できることがあります。
- isomeric SMILES
- 同位体や不斉中心についての記述を含むSMILESを「isomeric SMILES」といいます。Generic SMILESと同様、isomeric SMILESも複数通り存在することがあります。
- canonical SMILES
- 一定のルールに基づいて先頭の原子・そこから辿る向き・側鎖の選択などを行うことで、一つの構造に対して唯一となるgeneric SMILESを定めることができます。
この唯一のgeneric SMILESを「canonical SMILES」あるいは「unique SMILES」といいます。
また、generic SMILESをcanonical SMILESに変換することを、SMILESの正規化(canonicalization)と呼びます。
Canonical SMILESは分子構造と1対1で対応するため、THOR/Merlinデータベースのキー項目としても利用されます。
- absolute SMILES
- 正規化されたisomeric SMILESを、「absolute SMILES」と呼びます。