Nothing Special   »   [go: up one dir, main page]

JP2021117798A - 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム - Google Patents

分子設計支援システム、分子特性値予測方法、分子設計支援プログラム Download PDF

Info

Publication number
JP2021117798A
JP2021117798A JP2020011340A JP2020011340A JP2021117798A JP 2021117798 A JP2021117798 A JP 2021117798A JP 2020011340 A JP2020011340 A JP 2020011340A JP 2020011340 A JP2020011340 A JP 2020011340A JP 2021117798 A JP2021117798 A JP 2021117798A
Authority
JP
Japan
Prior art keywords
molecular
characteristic value
structural formula
molecular structural
molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020011340A
Other languages
English (en)
Inventor
弘之 松井
Hiroyuki Matsui
弘之 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamagata University NUC
Original Assignee
Yamagata University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamagata University NUC filed Critical Yamagata University NUC
Priority to JP2020011340A priority Critical patent/JP2021117798A/ja
Publication of JP2021117798A publication Critical patent/JP2021117798A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】分子構造から求められる特性値を速やかに出力して、所望の特性値を得るための分子設計を効率的に行う。【解決手段】分子設計支援システムは、設計対象の分子の分子構造式を入力する分子構造式入力部と、分子構造式入力部により入力された分子構造式から所望の特性値を予測する特性値予測部と、特性値予測部が予測した特性値を表示する表示部とを備え、特性値予測部は、所望の特性値が既知の分子を多数選択して、各分子の分子構造式の特徴量を並べた数列と各分子の真の特性値とを対応させて構築したデータテーブルを用い、データテーブルを機械学習することで得られる、前記数列から特性値を予測する機械学習モデルを備え、分子構造式入力部にて入力された分子構造式から特徴量を抽出して数列化し、得られた数列を機械学習モデルに入力することで、入力された分子構造式の分子の特性値を予測する。【選択図】図1

Description

本発明は、分子設計支援システム、分子特性値予測方法、分子設計支援プログラムに関するものである。
分子設計を支援するシステムとしては、その目的に応じて各種のシステムが提案されている。例えば、下記特許文献1に記載された従来技術は、分子軌道の描画処理を高速で行うことを目的としており、基底関数と分子軌道計算によって得られる展開係数とで表現される、分子軌道関数における展開係数の係数しきい値を用いて、基底関数の個数を削減し、分子軌道の描画処理を高速化することが示されている。
特開2013−161137号公報
分子設計の目的は様々であるが、所望の特性値を得るための分子構造の設計は、その物質を用いたデバイスの開発において有用である。例えば、有機半導体分子の設計においては、電子キャリヤや正孔キャリヤの注入性や安定性に関わる最高占有分子軌道(HOMO:Highest Occupied Molecular Orbital)エネルギーや最低非占有分子軌道(LUMO:Lowest Unoccupied Molecular Orbital)エネルギーを求めることが重要であり、このような特性値は、有機半導体デバイスにおける光の吸収波長や発光波長を決める重要な設計因子になっている。
このような特性値は、分子構造が決まれば、分子軌道(MO)計算や密度汎関数理論(DFT)計算によって求めることができる。しかしながら、MO計算やDFT計算は、分子サイズに依存するが、一般に1分〜1時間程度の時間を要する。このため、計算結果を分子設計に反映させるフィードバックが遅くなり、効率的な分子設計を行うことができない問題があった。
本発明は、このような問題に対処することを課題としている。すなわち、分子構造から求められる特性値を速やかに出力して、所望の特性値を得るための分子設計を効率的に行えるようにすること、が本発明の課題である。
このような課題を解決するために、本発明による分子設計支援システムは、以下の構成を具備するものである。
所望の特性値を有する分子を設計する分子設計支援システムであって、設計対象の分子の分子構造式を入力する分子構造式入力部と、前記分子構造式入力部により入力された分子構造式から所望の特性値を予測する特性値予測部と、前記特性値予測部が予測した特性値を表示する表示部とを備え、前記特性値予測部は、所望の特性値が既知の分子を多数選択して、各分子の分子構造式の特徴量を並べた数列と各分子の真の特性値とを対応させて構築したデータテーブルを用い、前記データテーブルを機械学習することで得られる、前記数列から前記特性値を予測する機械学習モデルを備え、前記分子構造式入力部にて入力された分子構造式から前記特徴量を抽出して数列化し、得られた数列を前記機械学習モデルに入力することで、入力された分子構造式の分子の前記特性値を予測することを特徴とする分子設計支援システム。
このような特徴を有する本発明によると、分子構造から求められる特性値を速やかに出力して、所望の特性値を得るための分子設計を効率的に行うことができる。
分子設計支援システムのシステム構成を示した説明図。 特性値予測値に関連するシステム構成を示した説明図。 部分構造パターンを説明する説明図。 機械学習に用いられるデータテーブルの構成例を示した説明図。 機械学習モデルの例(ラッソ回帰)を説明する説明図。 分子設計支援システムの表示例を示した説明図。
以下、図面を参照して本発明の実施形態を説明する。図1に示すように、本発明の実施形態に係る分子設計支援システム1は、所望の特性値を有する分子を設計するためのものであり、ハードウエアとして演算処理装置(コンピュータ)10を主要なシステム構成としており、演算処理装置10には、実行可能なソフトウエア(プログラム)として、分子構造式入力部11、特性値予測部12、表示部13が格納されている。
また、演算処理装置10には、分子構造式入力部11によるデータ入力操作などを行うため入力装置(マウス、タッチパット、キーボード、タッチペンなど)2と、分子構造式入力部11或いは表示部13からの出力を表示するための表示装置(ディスプレイ)3が接続されている。
分子構造式入力部11は、設計対象の分子の分子構造式を入力する分子構造式入力処理を演算処理装置10に実行させるものであり、例えば、図6に示すように、表示装置3の画面3Aにエディタ機能部30を表示させて、入力装置2を操作することで画面3A上にて分子構造式を描画入力する処理を実行させる。
分子構造式入力部11は、前述した例に限定されるものではなく、紙等の媒体に描画された分子構造式を光学的に読み取るものや、予め電子媒体に記録されている分子構造式のデータを取り込むものなど、各種の入力形態で実施することができる。
特性値予測部12は、入力された分子構造式の分子の所望の特性値を予測する処理を演算処理装置10に実行させるものであり、例えば、図2に示すように、特徴量抽出部12Aと機械学習モデル12Bを備えている。特徴量抽出部12Aは、入力された分子構造式から複数の特徴量を抽出して数列化(ベクトル化)するものである。入力された一つの分子構造式から、一つの数列が抽出される。機械学習モデル12Bは、特徴量抽出部12Aによって抽出された特徴量の数列から、入力された分子構造式の分子における所望の特性値を予測するものである。
ここで、分子構造式の特徴量の抽出及び数列化について説明する。機械学習モデル12Bを利用するためには、分子構造式をベクトル(数字の列)で表すことが必要になる。ここでは、分子構造式から部分構造パターンを取り出し、分子構造式に存在する同じ部分構造パターンの個数をカウントして特徴量とし、この特徴量を部分構造パターン毎に並べることによって、一つの分子構造式を表現する数列とする。
この数列について、更に具体的に説明する。図3には、「トルエン」の分子構造式を例にして、特徴量の抽出例を示している。ここでは、特徴量の抽出形態として、より詳しく分子構造式の特徴を表現できるかによって、レベル0,レベル1,レベル2,…を設定している。レベル0では、元素単体の「C」と「H」が部分構造パターンになり、各部分構造パターンの個数は、「C」が7個、「H」が8個になる。このレベル0では、「トルエン」の分子構造式を(7,8)の数列で表すことができるが、これは、分子構造の特徴を大まかに表現したものになる。
これに対して、レベル1では、分子構造式の構成元素の一つ一つを中心元素として、その中心元素とそれに繋がる元素の組み合わせを部分構造パターンとしている。この例では、「C−CCH」,「C−CCC」,「C−CHHH」,「H−C」がそれぞれ部分構造パターンになり、各部分構造パターンの個数は、「C−CCH」が5個,「C−CCC」が1個,「C−CHHH」が1個,「H−C」が8個になり、それぞれの個数が特徴量になる。この際の特徴量を並べると(5,1,1,8)の数列になるが、この数列は、レベル0に比べると、かなり詳細に分子構造式の特徴を表現していると言える。
更に、レベル2では、レベル1で中心元素に繋がっている元素、これを更に中心元素として、それに繋がる元素の組み合わせを抽出して、部分構造パターンとしている。この際の部分構造パターンは、「C−(C−CCH)(C−CCH)(H−C)」,「C−(C−CCC)(C−CCC)(H−C)(H−C)(H−C)」など多数の部分構造パターンが抽出されるので、分子構造式に存在する同じ部分構造パターンの個数を並べた数列も多次元になり、この数列でより詳細に分子構造式の特徴を表現することができる。同様の考え方で、レベル3,レベル4,…を設定すれば、分子構造を数列で表現する精度を高めることができる。
図2に示すように、機械学習モデル12Bは、多数の実在する分子の分子構造から抽出される特徴量の数列と、その分子の真の(既知の)特性値とからなるデータテーブル4を機械学習することで、精度の高い特性値の予測が可能になる。
機械学習に用いられるデータテーブル4を構築するには、実在する分子の中から数十万個の分子を選択し、分子毎の特徴量を数百〜数千個抽出し、各分子の真の特性値を例えば密度汎関数理論(DFT)計算を利用するなどして予め求める。そして、所望の特性値が既知の各分子の分子構造式の特徴量を並べた数列と各分子の真の特性値とを対応させて、データテーブルを構築する。実在する分子の選択は、ケンブリッジ結晶構造データーベース(CSD)など既存のデーターベースを活用する。データテーブル4の構成例を図4に示す。ここでは、約220,000個の分子から約400個の特徴量xjiを抽出して、220,000行×400列の行列データを得て、行の数列毎(分子毎)に真の特性値yを対応させることで、データテーブル4を構築している。
機械学習モデル12Bは、予め構築したデータテーブル4を事前に機械学習することで、入力された特徴量の数列に対して、即座に予測特性値が出力できるようになっている。機械学習モデルの例としては、線形回帰モデルなどを採用することができる。図5は、線形回帰モデルの一種であるラッソ回帰のモデルを示している。ラッソ回帰では、目的変数である「Z」の値を最小にするように、j番目の部分構造パターンに対する係数wを決定する。係数wは、部分構造パターン1個当たりの特性値の変化量を表している。
機械学習モデル12Bの例としては、前述したラッソ回帰に限らず、他の線形回帰モデルであっても良いし、線形回帰以外のモデル(例えば、人工ニューラルネットワーク、畳み込みニューラルネットワーク、サポートベクタマシンなど)であっても良い。
機械学習モデル12Bから出力される予測特性値は、表示部13によって、表示装置3の画面3Aに出力される。図6に示した例では、画面3Aに、分子構造式を入力するためのエディタ機能部30と、機械学習モデル12Bからの出力を表示する予測特性値表示部31が同一画面に表示されている。図示の例では、予測特性値表示部31において、入力された分子構造式から予測される最高被占軌道(HOMO)エネルギーと最低空軌道(LUMO)エネルギーを同時に表示し、合わせてレベル入力部32に入力された特徴量のレベルを表示している。予測特性値は分子構造式の描画とほぼ同時に表示され、ユーザによる分子描画以外の特別な操作(特定のボタンのクリックなど)を不要にしている。
前述した分子設計支援システム1(或いは分子構造支援プログラム、分子特性値予測方法)によると、エディタ機能部30に描画入力された分子構造式から即座に(例えば、1秒以内で)所望の特性値を予測して、予測特性表示部31に表示させることができる。これによると、特性値が所望の値になるように、次々と分子構造式を変更入力して、所望の特性値を得るための分子設計を行うことができる。
特に、エディタ機能部30と予測特性表示部31を同一画面に表示し、予測特性値表示のための特別な操作を不要とすることで、快適且つ効率的な分子設計を行うことが可能になる。この分子設計支援システム1は、設計対象の分子が有機化合物又は有機金属化合物であり、所望の特性値が、最高被占軌道(HOMO)エネルギー又は最低空軌道(LUMO)エネルギーである場合に有用であるが、それに限定されず、様々な分子の特性値を効率的に予測するツールとして有用である。
以上、本発明の実施の形態について図面を参照して詳述してきたが、具体的な構成はこれらの実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計の変更等があっても本発明に含まれる。
1:分子設計支援システム,2:入力装置,3:表示装置,3A:画面,
4:データテーブル,10:演算処理装置(コンピュータ),
11:分子構造式入力部,12:特性値予測部,13:表示部,
12A:特徴量抽出部,12B:機械学習モデル,
30:エディタ機能部,31:予測特性値表示部,32:レベル入力部

Claims (7)

  1. 所望の特性値を有する分子を設計する分子設計支援システムであって、
    設計対象の分子の分子構造式を入力する分子構造式入力部と、
    前記分子構造式入力部により入力された分子構造式から所望の特性値を予測する特性値予測部と、
    前記特性値予測部が予測した特性値を表示する表示部とを備え、
    前記特性値予測部は、
    所望の特性値が既知の分子を多数選択して、各分子の分子構造式の特徴量を並べた数列と各分子の真の特性値とを対応させて構築したデータテーブルを用い、前記データテーブルを機械学習することで得られる、前記数列から前記特性値を予測する機械学習モデルを備え、
    前記分子構造式入力部にて入力された分子構造式から前記特徴量を抽出して数列化し、得られた数列を前記機械学習モデルに入力することで、入力された分子構造式の分子の前記特性値を予測することを特徴とする分子設計支援システム。
  2. 前記数列は、分子構造式を構成する各元素を中心元素として、前記中心元素とそれに繋がる元素の組み合わせを部分構造パターンとし、分子構造式に存在する同じ部分構造パターンの個数を、部分構造パターン毎に並べることによって構成されることを特徴とする請求項1記載の分子設計支援システム。
  3. 前記部分構造パターンは、前記中心元素に繋がる各元素を更に前記中心元素とし、それらに繋がる元素の組み合わせからなることを特徴とする請求項2記載の分子設計支援システム。
  4. 設計対象の分子が有機化合物又は有機金属化合物であり、前記特性値が、最高被占軌道(HOMO:Highest Occupied Molecular Orbital)エネルギー又は最低空軌道(LUMO:Lowest Unoccupied Molecular Orbital)エネルギーであることを特徴とする請求項1〜3のいずれか1項記載の分子設計支援システム。
  5. 前記分子構造式入力部は、前記表示部の画面上で分子構造式を描画入力するエディタ機能部を有し、
    前記分子構造式入力部の入力結果と前記表示部の出力結果が同一画面に表示される表示装置を備え、
    前記描画入力以外の操作を行うことなく、前記表示装置に予測特性値が表示されることを特徴とする請求項1〜4のいずれか1項記載の分子設計支援システム。
  6. 設計対象の分子の分子構造式を入力し、入力された分子構造式から当該分子における所望の特性値を予測する分子特性値予測方法であって、
    前記特性値が既知の分子を多数選択して、各分子の分子構造式の特徴量を並べた数列と各分子の真の前記特性値とを対応させて構築したデータテーブルを用い、前記データテーブルを機械学習することで得られる、前記数列から前記特性値を予測する機械学習モデルを使用し、
    入力された分子構造式から前記特徴量を抽出して数列化し、得られた数列を前記機械学習モデルに入力することで、入力された分子構造式の分子の前記特性値を予測することを特徴とする分子特性値予測方法。
  7. コンピュータに、
    設計対象の分子の分子構造式を入力する分子構造式入力処理と、
    入力された分子構造式から所望の特性値を予測する特性値予測処理と、
    予測した前記特性値を表示する表示処理とを実行させるプログラムであって、
    前記特性値予測処理は、
    前記特性値が既知の分子を多数選択して、各分子の分子構造式の特徴量を並べた数列と各分子の真の前記特性値とを対応させて構築したデータテーブルを用い、前記データテーブルを機械学習することで得られる、前記数列から前記特性値を予測する機械学習モデルを使用し、
    入力された分子構造式から前記特徴量を抽出して数列化し、得られた数列を前記機械学習モデルに入力することで、入力された分子構造式の分子の前記特性値を予測することを特徴とする分子設計支援プログラム。
JP2020011340A 2020-01-28 2020-01-28 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム Pending JP2021117798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020011340A JP2021117798A (ja) 2020-01-28 2020-01-28 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020011340A JP2021117798A (ja) 2020-01-28 2020-01-28 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム

Publications (1)

Publication Number Publication Date
JP2021117798A true JP2021117798A (ja) 2021-08-10

Family

ID=77174988

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020011340A Pending JP2021117798A (ja) 2020-01-28 2020-01-28 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム

Country Status (1)

Country Link
JP (1) JP2021117798A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022163629A1 (ja) * 2021-01-28 2022-08-04 株式会社 Preferred Networks 推定装置、訓練装置、推定方法、生成方法及びプログラム
WO2023123021A1 (zh) * 2021-12-29 2023-07-06 深圳晶泰科技有限公司 获取分子特征描述的方法、装置及存储介质
WO2023176901A1 (ja) * 2022-03-15 2023-09-21 株式会社 Preferred Networks 情報処理装置、モデル生成方法及び情報処理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004303186A (ja) * 2003-03-20 2004-10-28 Sumitomo Pharmaceut Co Ltd 蛋白結合率の予測に関する装置およびその方法
WO2009025045A1 (ja) * 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
CN109461475A (zh) * 2018-10-26 2019-03-12 中国科学技术大学 一种基于人工神经网络的分子属性预测方法
JP2019086817A (ja) * 2017-11-01 2019-06-06 株式会社日立製作所 設計支援装置及び設計支援方法
WO2019172280A1 (ja) * 2018-03-09 2019-09-12 昭和電工株式会社 ポリマーの物性予測装置、記憶媒体、及びポリマーの物性予測方法
JP6624533B1 (ja) * 2018-11-08 2019-12-25 ジャパンモード株式会社 材料物性推定プログラム、材料生成機構推定プログラム
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004303186A (ja) * 2003-03-20 2004-10-28 Sumitomo Pharmaceut Co Ltd 蛋白結合率の予測に関する装置およびその方法
WO2009025045A1 (ja) * 2007-08-22 2009-02-26 Fujitsu Limited 化合物の物性予測装置、物性予測方法およびその方法を実施するためのプログラム
JP2019086817A (ja) * 2017-11-01 2019-06-06 株式会社日立製作所 設計支援装置及び設計支援方法
WO2019172280A1 (ja) * 2018-03-09 2019-09-12 昭和電工株式会社 ポリマーの物性予測装置、記憶媒体、及びポリマーの物性予測方法
WO2020016579A2 (en) * 2018-07-17 2020-01-23 Gtn Ltd Machine learning based methods of analysing drug-like molecules
CN109461475A (zh) * 2018-10-26 2019-03-12 中国科学技术大学 一种基于人工神经网络的分子属性预测方法
JP6624533B1 (ja) * 2018-11-08 2019-12-25 ジャパンモード株式会社 材料物性推定プログラム、材料生成機構推定プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022163629A1 (ja) * 2021-01-28 2022-08-04 株式会社 Preferred Networks 推定装置、訓練装置、推定方法、生成方法及びプログラム
WO2023123021A1 (zh) * 2021-12-29 2023-07-06 深圳晶泰科技有限公司 获取分子特征描述的方法、装置及存储介质
WO2023176901A1 (ja) * 2022-03-15 2023-09-21 株式会社 Preferred Networks 情報処理装置、モデル生成方法及び情報処理方法

Similar Documents

Publication Publication Date Title
Mining Introduction to data mining
JP6580737B2 (ja) データ検索装置、データ検索方法、データ検索プログラム、及び記録媒体
Heer et al. Interactive analysis of big data
CN110168518A (zh) 准备和整理用于后续分析的数据的用户界面
JP2021117798A (ja) 分子設計支援システム、分子特性値予測方法、分子設計支援プログラム
Khan et al. Data tweening: incremental visualization of data transforms
KR20110113629A (ko) 요약 테이블을 디스플레이하는 컴퓨터 구현방법 및 시스템과 컴퓨터 판독가능매체
Liu et al. A heuristic algorithm combining Pareto optimization and niche technology for multi-objective unequal area facility layout problem
KR20110120908A (ko) 대화식 요약 테이블의 다중 조건 필터링
JP2008511935A (ja) データ統合システムのためのユーザ・インターフェース
US10489266B2 (en) Generating a visualization of a metric at one or multiple levels of execution of a database workload
CN102915237A (zh) 根据用户应用程序要求改写数据质量规则的方法和系统
JP2014106611A (ja) データ分析支援処理システム及び方法
Edmunds et al. Using constraint-satisfaction to optimise disassembly sequences generated from AND/OR information
US12118006B2 (en) Automated code generation for computer software
Vinnik et al. From analysis to interactive exploration: Building visual hierarchies from OLAP cubes
JP2005056022A (ja) データ抽出装置、データ抽出方法およびデータ抽出プログラム
JP5555238B2 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
Sivaganesh et al. Optimization of ETL work flow in data warehouse
Jin et al. An integration methodology for automated recurring cost prediction using digital manufacturing technology
JPH11184687A (ja) ソフトウェア文書の階層構造及び関係を用いるソフトウエア文書作成システムとその運用方法
KR101985014B1 (ko) 탐색적 데이터 시각화 시스템 및 그 방법
Lin et al. Updating high-utility pattern trees with transaction modification
JP5332443B2 (ja) 部品統合管理装置、部品統合管理方法および部品統合管理プログラム
CN110599039B (zh) 产品管理方法及装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230123

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240215

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240611