明 細 書 処理結果の予測方法および処理装置 技術分野 本発明は, 例えば半導体製造装置で処理するウェハなどの被処理 体や装置状態の処理結果の予測方法および処理装置に関する。 背景技術 半導体製造工程では種々の処理装置が用いられている。 例えば半 導体ウェハやガラス基板等の被処理体の成膜工程やエッチング工程 ではプラズマ処理装置等の処理装置が広く使用されている。 個々の 処理装置はそれぞれ被処理体に対する固有のプロセス特性を有して いる。 そのため, 個々の処理装置を用いて被処理体 (例えば, 半導 体ウェハ) に例えばエッチング処理を施す場合には例えばテス トウ ェハを予め作製し, テス 卜ウェハに対して定期的にエッチング処理 を行い, その処理結果 (例えば, テス トウェハの削れ量等) に基づ いてその時々の処理装置の状態を判断している。 しかしながら, テス 卜ウェハに基づいてその時々の処理装置の状 態を判断する方法では,多くのテス トウェハを作製する必要がある。 しかも処理装置を用いて多くのテス トウェハを処理し, その都度そ れぞれの処理結果を測定する必要があるため, テス トウェハの作製 及び処理結果の測定に多くの工数と時間を割かなくてはならないと
いう問題があった。 また, 特開平 1 0— 1 2 5 6 6 0号公報にはプラズマ処理装置の プロセスモニタ方法が提案されている。 この方法は, 処理前に試用 ウェハを用いてプラズマ状態を反映する電気的信号とプラズマ処理 特性を関連づけるモデル式を作成し, 実ウェハを処理する時に得ら れる電気的信号の検出値をモデル式に代入してプラズマ処理特性を 予測している。 この方法はプラズマ処理特性を予測することができる点で優れて いるものの, 経時的なロッ ト変動と高周波電力の印加状態の突発的 変動を含むような実際のウェハ処理では高精度の予測を行うには十 分ではなく, 更なる改善が必要である。 本発明は, 従来の技術が有する上記問題点に鑑みて成されたもの であり, 少数の試料を処理して得られる少数の運転データ及びプロ セス特性データを収集するだけでプロセス特性の予測式 (モデル) を求めることができ, その後は被処理体を処理した時の運転データ を予測式に当てはめるだけでプロセス特性を簡単且つ高精度に予測 することができる処理結果の予測方法および処理装置を提供するこ とを目的としている。 発明の開示 上記課題を解決するために, 本発明の第 1 の観点によれば, 例え ばプラズマ処理装置などの処理装置の処理室内で複数の被処理体
(例えば半導体ウェハ) を一枚ずつ処理 (例えばエッチング処理) する過程で, 上記処理装置の運転データと処理結果データに基づい て処理結果を予測する方法であって, 上記運転データ及び上記処理 結果データを収集する工程と, 収集した上記運転データ及び上記処 理結果データ (データ群に基づいて多変量解析を行う工程と, 上記 多変量解析を介して上記運転データと上記処理結果データの相関関 係を求める工程と, 上記相関関係に基づいて上記相関関係を得た被 処理体以外の上記被処理体を処理した時の運転データを用いて処理 結果を予測する工程とを有すること特徴とする処理結果の予測方法 が提供される。 上記課題を解決するために, 本発明の第 2の観点によれば, 処理 室内で複数の被処理体 (例えば半導体ウェハ) を一枚ずつ処理 (例 えばエッチング処理) する過程で, 運転データと処理結果データに 基づいて処理結果を予測する例えばプラズマ処理装置などの処理装 置であって, 上記運転データを記憶する手段と, 上記処理結果デー タを記憶する手段と, 記憶した上記運転データ及び上記処理結果デ ータに基づいて多変量解析を行う手段と, 上記多変量解析を介して 上記運転データと上記処理結果データの相関関係を求める手段と, 求めた上記相関関係を記憶する手段と, 記憶した上記相関関係に基 づいて上記相関関係を得た被処理体以外の上記被処理体を処理した 時の運転データを用いて処理結果を予測する手段とを備えたこと特 徴とする処理装置。 本発明の第 1 の観点及び第 2の観点によれば, 例えば少数の試料 を処理して得られる少数の運転データ及び処理結果データを収集す
るだけで, 多変量解析により運転データと処理結果データとの相関 関係 (例えば回帰式などの予測式) を求めることができる。 その後 は被処理体を処理した時の運転データを相関関係に当てはめるだけ で,被処理体の処理結果を簡単且つ高精度に予測することができる。 また, 上記多変量解析と して重回帰分析を行う如く構成すれば, 重回帰分析によって多数の変量データであっても運転データと処理 結果データの相関関係である回帰式を容易に求めることができる。 また, 上記多変量解析を行う際に P L S法を用いる如く構成すれ ば, 多数の変量データであっても運転データと処理結果データの相 関関係である関係式を容易に求めることができる。 また, 上記運転データは上記被処理体を載置する載置台の温度の データを含んでもよく, さらにバックガス圧力のデータを含んでも よい。 運転データは処理結果データに影響し易い (相関がある), 載 置台の温度データ, バックガス圧力のデータを含むので, 処理結果 の予測精度を向上させることができる。 また, 上記運転データは, バックガス圧力 (例えば H eガスなど のバックサイ ドガス圧力) の標準偏差のデータを含んでもよく, バ ックガス圧力の被処理体の面内圧力差(例えばバックガスをセンタ, ミ ドル, エッジの 3系統にしたときのその圧力差など) のデータを 含んでもよい。 これらのバックガス圧力の標準偏差などはバックガ ス圧力の安定性を表すので, 特に被処理体の処理結果データとして ウェハ Wの削れ量の面内均一性を予測するのに有用性が高く, 予測
精度も向上できる。 また, 上記運転データは少なく とも, 上記被処理体を処理する際 に印加する高周波電源の電圧のデータを含むようにしてもよく, 少 なく とも上記高周波電源の積算動作時間のデータを含むようにして もよい。 また高周波電源の電圧のデータと高周波電源の積算動作時 間のデータを両方含むようにしてもよい。 これらの高周波電源の電 圧のデータ, 高周波電源の積算動作時間のデータは, 特に被処理体 の処理結果データとしてウェハ Wの削れ量 (例えばェツチングレ一 卜) を予測するのに有用性が高 予測精度も向上できる。 また, 上記高周波電源の積算動作時間は, 上記処理室のメンテナ ンスを行うごとにゼロにリセッ 卜されるようにしてもよい。 トレ一 スデータの高周波電力の印加積算時間については, 例えばゥエツ 卜 クリーニングなどのメンテナンスを行うごとに印加積算時間をゼロ にすることから, ウエッ トク リーニングサイクルごとの印加積算時 間のデータを得ることができる。 このため高周波電力の印加積算時 間を運転データと して用いると, ウエッ トク リーニングを行うこと によって傾向が変るような処理結果データであっても高い精度で予 測をすることができる。 また, 上記処理結果データは, 上記被処理体の削れ量のデータま たは削れ量の面内均一性のデータを含むエッチングに関する被処理 体の処理結果データとし, 上記処理結果は, 上記被処理体の削れ量 のデータまたは削れ量の面内均一性のデータを含むェツチングに関 する被処理体の処理結果と してもよい。 これによれば, 例えば少数
の試料を処理して得られる少数の運転データ及び処理結果データを 収集するだけで, 上記被処理体の削れ量のデータまたは削れ量の面 内均一性のデータのようなエッチングに関する被処理体の処理結果 についても簡単且つ高精度に予測することができる。 図面の簡単な説明 図 1 は本発明における予測方法を適用する第 1の実施の形態にか かる処理装置を示す断面図である。 図 2は同実施形態にかかる多変量解析装置の一例を示すプロック 図である。 図 3は図 2に示す多変量解析装置で得られた上部電極温度の経時 変化を示すグラフである。 図 4は図 2に示す多変量解析装置で得られた処理室の壁面温度の 経時変化を示すグラフである。 図 5は図 2に示す多変量解析装置で得られた下部電極温度の経時 変化を示すグラフである。 図 6は図 2に示す多変量解析装置で得られた H eガス圧力の標準 偏差値の経時変化を示すグラフである。 図 7は図 2に示す多変量解析装置で得られた高周波電源の電圧の
経時変化を示すグラフである。 図 8は図 2に示す多変量解析装置で得られたウェハ Wのシリコン 酸化膜の削れ量の面内均一性の経時変化を示すグラフである。 図 9は図 3〜図 8の運転データ及びプロセス特性データを用いて 図 2に多変量解析装置で得られたプロセス特性データの予測値及び 実測値を示すグラフである。 図 1 0は同実施形態により得られた予測値と実測値の相関関係を 示すグラフである。 図 1 1 は本発明における予測方法を適用する第 2の実施の形態に かかる処理装置を示す断面図である。 図 1 2は同実施形態にかかる多変量解析装置の一例を示すプロッ ク図である。 図 1 3は図 1 2に示す多変量解析装置で得られたウェハ Wの C V D酸化膜のエッチングレートとウェハ処理枚数との関係を示すグラ フである。 図 1 4 ( a ) は運転データとして光学データを用い, 前処理をし ない場合のエッチングレー卜の予測値及び実測値を示すグラフであ リ, 図 1 4 ( b )は予測値と実測値の相関関係を示すグラフである。
図 1 5 ( a ) は運転データと して光学データと トレースデータを 用い, 前処理をしない場合のエッチングレー卜の予測値及び実測値 を示すグラフであり, 図 1 5 ( b ) は予測値と実測値の相関関係を 示すグラフである。 図 1 6 ( a ) は運転データと して トレースデータを用い, 前処理 をしない場合のエッチングレー卜の予測値及び実測値を示すグラフ であり, 図 1 6 ( b ) は予測値と実測値の相関関係を示すグラフで ある。 図 1 7 ( a ) は運転データと して V I プローブデータを用い, 前 処理をしない場合のエッチングレー卜の予測値及び実測値を示すグ ラフであり, 図 1 7 ( b) は予測値と実測値の相関関係を示すグラ フである。 図 1 8 ( a ) は運転データとして光学データを用い, O S Cによ る前処理をした場合のエッチングレー卜の予測値及び実測値を示す グラフであり, 図 1 8 ( b ) は予測値と実測値の相関関係を示すグ ラフである。 図 1 9 ( a ) は運転データと して光学データと トレースデータを 用い, O S Cによる前処理をした場合のエッチングレ一卜の予測値 及び実測値を示すグラフであり, 図 1 9 ( b ) は予測値と実測値の 相関関係を示すグラフである。 図 20 ( a ) は運転データと して トレースデータを用い, O C S
による前処理をした場合のエッチングレー卜の予測値及び実測値を 示すグラフであり, 図 20 ( b) は予測値と実測値の相関関係を示 すグラフである。 図 2 1 ( a ) は運転データとして V I プローブデータを用い, O c Sによる前処理をした場合のエッチングレー卜の予測値及び実測 値を示すグラフであり, 図 2 1 ( b ) は予測値と実測値の相関関係 を示すグラフである。 図 22 ( a ) は運転データとして光学データを用い, S N Vによ る前処理をした場合のエッチングレー卜の予測値及び実測値を示す グラフであり, 図 22 ( b) は予測値と実測値の相関関係を示すグ ラフである。 図 23 ( a ) は運転データとして光学データと トレースデータを 用い, S N Vによる前処理をした場合のエッチングレー卜の予測値 及び実測値を示すグラフであり, 図 2 3 ( b ) は予測値と実測値の 相関関係を示すグラフである。 図 24 ( a ) は運転データとして トレースデータを用い, S N V による前処理をした場合のエッチングレー卜の予測値及び実測値を 示すグラフであり, 図 24 ( b) は予測値と実測値の相関関係を示 すグラフである。 図 25 ( a ) は運転データとして V I プローブデータを用い, S N Vによる前処理をした場合のエッチングレー卜の予測値及び実測
値を示すグラフであり, 図 2 5 ( b ) は予測値と実測値の相関関係 を示すグラフである。 図 26 (a ) は運転データとして光学データを用い, MS Cによ る前処理をした場合のエッチングレー卜の予測値及び実測値を示す グラフであり, 図 26 ( b ) は予測値と実測値の相関関係を示すグ ラフである。 図 27 ( a ) は運転データとして光学データと トレースデータを 用い, M S Cによる前処理をした場合のエッチングレートの予測値 及び実測値を示すグラフであり, 図 27 ( b) は予測値と実測値の 相関関係を示すグラフである。 図 28 ( a ) は運転データとして トレースデータを用い, MS C による前処理をした場合のエッチングレートの予測値及び実測値を 示すグラフであり, 図 28 ( b) は予測値と実測値の相関関係を示 すグラフである。 図 29 (a ) は運転データとして V I プローブデータを用い, M S Cによる前処理をした場合のエッチングレー卜の予測値及び実測 値を示すグラフであり, 図 29 ( b) は予測値と実測値の相関関係 を示すグラフである。 図 3 0は図 1 4〜図 29の各図 ( a ) における実験結果から予測 誤差 P Eをまとめた表である。
図 3 1 は図 1 4〜図 29の各図 ( b) における実験結果から相関 係数 Rをまとめた表である。 図 3 2はトレースデータにおける各種類のデータについて予測結 果への影響変数 V I Pをまとめた表である。 図 3 3 ( a ) はトレースデータから高周波電圧 V p pのみを除い たデータを用いた場合のエッチングレー卜の予測値及び実測値を示 すグラフであり, 図 33 ( b) は予測値と実測値の相関関係を示す グラフである。 図 3 4 ( a ) はトレースデータから高周波電力の印加積算時間の みを除いたデータを用いた場合のエッチングレー卜の予測値及び実 測値を示すグラフであり, 図 34 ( b) は予測値と実測値の相関関 係を示すグラフである。 図 3 5 ( a ) はトレースデータから高周波電圧 V p pと高周波電 力の印加積算時間を除いたデータを用いた場合のエッチングレート の予測値及び実測値を示すグラフであり, 図 3 5 ( b) は予測値と 実測値の相関関係を示すグラフである。 発明を実施するための最良の形態 以下, 添付図面を参照しながら本発明をプラズマエッチング装置 の処理結果の予測方法に適用した場合の第 1の実施形態について詳 細に説明する。
先ず, 第 1の実施形態のプラズマエッチング装置としてマグネ ト ロン反応性エッチング処理装置 (以下, 「処理装置 1 0」 と称す。) について説明する。 この処理装置 1 0は例えば図 1 に示すように, アルミニウム製の処理室 1 と, この処理室 1 内に配置された下部電 極 2を絶縁材 2 Aを介して支持する昇降可能なアルミニウム製の支 持体 3と, この支持体 3の上方に配置され且つプロセスガスを供給 し且つ上部電極を兼ねるシャワーヘッ ド (以下では, 必要に応じて 「上部電極」 とも称す。) 4とを備えている。 上記処理室 1 は上部が小径の上室 1 Aとして形成され, 下部が大 径の下室 1 Bとして形成されている。 上室 1 Aはダイポールリング 磁石 5によって包囲されている。 このダイポールリング磁石 5は複 数の異方性セグメン ト柱状磁石がリング状の磁性体からなるケ一シ , ング内に収納されて配置され, 上室 1 A内で全体として一方向に向 かう一様な水平磁界を形成する。 下室 1 Bの上部にはウェハ Wを搬 出入するための出入口が形成され, この出入口にはゲートバルブ 6 が取り付けられている。 下部電極 2には整合器 7 Aを介して高周波電源 7が接続され, こ の高周波電源 7から下部電極 2に対して 1 3 . 5 6 M H zの高周波 電力を印加し, 上室 1 A内で上部電極 4との間で垂直方向の電界を 形成する。 整合器 7 A内には下部電極 3側 (高周波電圧の出力側) の高周波 (R F ) 電圧 V p pを測定する測定器 (図示せず) を備え る。
整合器 7 Aと下部電極 2側 (高周波電力の出力側) には電力計 7 Bが接続されている。 この電力計 7 Bによリ高周波電源 7からの高 周波電力 Pが測定される。 上室 1 A内ではプロセスガスを介して高 周波電源 7による電界とダイポールリング磁石 5による水平磁界と でマグネトロン放電が生成され, 上室 1 A内に供給されるプロセス ガスのプラズマが生成される。 上記下部電極 2の上面には静電チャック 8が配置され, この静電 チャック 8の電極板 8 Aには直流電源 9が接続されている。従って, 高真空下で直流電源 9から電極板 8 Aに高電圧を印加することによ リ静電チャック 8によってウェハ Wを静電吸着する。 この下部電極 2の外周にはフォーカスリング 1 0 aが配置され, 上室 1 A内で生 成したプラズマをウェハ Wに集める。 フォーカスリング 1 O aの下 側には支持体 3の上部に取り付けられた排気リング 1 1が配置され ている。 この排気リング 1 1 には複数の孔が全周に渡って周方向等 間隔に形成され, これらの孔を介して上室 1 A内のガスを下室 1 B へ排気する。 上記支持体 3はボールネジ機構 1 2及びべローズ 1 3を介して上 室 1 Aと下室 1 B間で昇降可能になっている。 従って, ウェハ Wを 下部電極 2上に供給する場合には, 支持体 3を介して下部電極 2が 下室 1 Bまで下降し, ゲートバルブ 6を開放して図示しない搬送機 構を介してウェハ Wを下部電極 2上に供給する。 支持体 3の内部には冷媒配管 1 4に接続された冷媒流路 3 Aが形 成され, 冷媒配管 1 4を介して冷媒流路 3 A内で冷媒を循環させ,
ウェハ Wを所定の温度に調整する。 支持体 3 , 絶縁材 2 A, 下部電極 2及び静電チャック 8にはそれ ぞれガス流路 3 Bが形成され, ガス導入機構 1 5からガス配管 1 5 Aを介して静電チャック 8とウェハ W間の細隙に H eガスを所定の 圧力でパックサイ ドガスとして供給し, H eガスを介して静電チヤ ック 8とウェハ W間の熱伝導性を高めている。 バックサイ ドガスの 圧力は圧力センサ (図示せず) を検出し, その検出値を圧力計 1 5 Bに表示する。 尚, 1 6はべローズカバーである。 上記シャワーへッ ド 4の上面にはガス導入部 4 Aが形成され, こ のガス導入部 4 Aには配管 1 7を介してプロセスガス供給系 1 8が 接続されている。 プロセスガス供給系 1 8は, C4 F8ガス供給源 1 8 A, O 2ガス供給源 1 8 D, A rガス供給源 1 8 Gを有している。 これらのガス供給源 1 8 A, 1 8 D , 1 8 Gはそれぞれバルブ 1 8 B , 1 8 E , 1 8 H及びマスフ口一コン トローラ 1 8 C, 1 8 F, 1 8 I を介してそれぞれのガスを所定の流量でシャワーへッ ド 4へ 供給し,その内部で所定の配合比を持った混合ガスとして調整する。 シャワーへッ ド 4の下面には複数の孔 4 Bが全面に渡って均等に配 置され, これらの孔 4 Bを介してシャワーへッ ド 4から上室 1 A内 へ混合ガスをプロセスガスと して供給する。 尚, 図 1 において, 1 Cは排気管, 1 9は排気管 1 Cに接続された真空ポンプ等からなる 排気系である。 上記処理装置 1 0は, 例えば図 2に示すように, 運転データ及び
処理結果データを統計的に処理する多変量解析装置 5 0と, 処理結 果データを入力すると共に解析結果等の情報を出力する入出力装置 6 0とを備える。 処理装置 1 0は多変量解析装置 5 0を介して運転 データ及び処理結果データを多変量解析して両者の相関関係を求め た後, 必要に応じて解析結果等の情報を入出力装置 6 0から出力す る。 上記多変量解析装置 5 0は, 図 2に示すように, 運転データ記憶 部 5 1 , 処理結果データ記憶部 5 2 , 多変量解析プログラム記憶部 5 3 , 多変量解析処理部 5 4及び多変量解析結果記憶部 5 5を備え ている。 上記運転データ記憶部 5 1 は運転データを記憶する手段を構成し, 上記処理結果データ記憶部 5 2は処理結果データを記憶する手段を 構成する。 多変量解析処理部 5 4は運転データと処理結果データと の相関関係 (例えば予測式, 回帰式) を求める手段と相関関係に基 づいて処理結果を予測する手段を構成する。 多変量解析結果記憶部 5 5は多変量解析処理部 5 4により求めた相関関係を記憶する手段 を構成する。 上記多変量解析装置 5 0は例えば多変量解析プログラム記憶部 5 3からのプログラムに基づいて動作するマイク口プロセッサなどで 構成してもよい。 上記運転データ記憶部 5 1 , 処理結果データ記憶 部 5 2 , 多変量解析結果記憶部 5 5はそれぞれメモリなどの記録手 段で構成してもよく, またハ一ドディスクなどの記録手段にそれぞ れのメモリ領域を設けて構成してもよい。
多変量解析装置 5 0は, 運転データ及びプロセス特性データの入 力によリそれぞれのデータを運転データ記憶部 5 1及び処理結果デ ータ記憶部 5 2で記憶した後, これらのデータ及び多変量解析プロ グラム記憶部 5 3のプログラムを多変量解析処理部 5 4に取り出し, 多変量解析処理部 5 4において運転データ及びプロセス特性データ の多変量解析を行い, その処理結果を多変量解析結果記憶部 5 5でTECHNICAL FIELD The present invention relates to a method and a processing apparatus for predicting a processing result of an object to be processed such as a wafer to be processed in a semiconductor manufacturing apparatus or an apparatus state. BACKGROUND ART Various processing apparatuses are used in a semiconductor manufacturing process. For example, a processing apparatus such as a plasma processing apparatus is widely used in a film forming step and an etching step of an object to be processed such as a semiconductor wafer and a glass substrate. Each processing apparatus has its own process characteristics for the object to be processed. Therefore, when an object to be processed (for example, a semiconductor wafer) is subjected to, for example, an etching process using an individual processing apparatus, for example, a test wafer is prepared in advance, and the test wafer is periodically subjected to the etching process. Then, the state of the processing equipment at each time is determined based on the processing results (eg, the amount of test wafer scraping). However, the method of judging the state of the processing equipment at each time on the basis of test wafers requires the production of many test wafers. In addition, many test wafers must be processed using the processing equipment, and each processing result must be measured. Therefore, much man-hours and time are not required for producing test wafers and measuring the processing results. Must not There was a problem. Also, Japanese Patent Application Laid-Open No. 10-125660 proposes a process monitoring method for a plasma processing apparatus. This method uses a test wafer to create a model equation that correlates the electrical signal that reflects the plasma state with the plasma processing characteristics using a trial wafer, and then uses the model equation to detect the detected electrical signal obtained when the actual wafer is processed. To predict the plasma processing characteristics. Although this method is excellent in that it can predict the plasma processing characteristics, it performs high-precision prediction in actual wafer processing, which includes lot fluctuation over time and sudden changes in the state of application of high-frequency power. Is not enough, and further improvement is needed. The present invention has been made in view of the above-mentioned problems of the conventional technology, and a process characteristic prediction equation is obtained by collecting only a small number of operation data and process characteristic data obtained by processing a small number of samples. (Model) can be obtained, and then a processing result prediction method and processing device that can easily and accurately predict the process characteristics simply by applying the operation data when processing the object to be processed to the prediction formula. It is intended to provide. DISCLOSURE OF THE INVENTION In order to solve the above-mentioned problems, according to a first aspect of the present invention, for example, a plurality of objects to be processed are processed in a processing chamber of a processing apparatus such as a plasma processing apparatus. A method of predicting the processing result based on the operation data and the processing result data of the processing apparatus in the process of processing (for example, an etching processing) one by one (for example, a semiconductor wafer). Collecting the operation data and the processing result data (the step of performing a multivariate analysis based on the data group; and the correlation between the operation data and the processing result data through the multivariate analysis). And a step of predicting a processing result using operation data when processing the object other than the object for which the correlation has been obtained based on the correlation. According to a second aspect of the present invention, there is provided a method of estimating a result of a plurality of objects (eg, semiconductor wafers) in a processing chamber. A processing device, such as a plasma processing device, for predicting a processing result based on the operation data and the processing result data in a process of processing the data one by one (for example, an etching process). Means for storing the processing result data, means for performing a multivariate analysis based on the stored operation data and the processing result data, and means for performing the operation data and the processing result data via the multivariate analysis. Means for calculating the correlation of the above, means for storing the obtained correlation, and operation data when processing the above-mentioned processing objects other than the processing object which has obtained the above-mentioned correlation based on the stored above-mentioned correlation. A processing apparatus characterized by comprising means for predicting a processing result by using the method.According to the first and second aspects of the present invention, for example, the processing apparatus can be obtained by processing a small number of samples. To collect the number of operation data and processing result data The correlation between the operating data and the processing result data (for example, a prediction formula such as a regression formula) can be obtained by multivariate analysis. After that, the processing results of the object can be predicted simply and with high accuracy simply by applying the operating data when the object is processed to the correlation. If the multivariate analysis is configured to perform multiple regression analysis, the multiple regression analysis makes it easy to obtain a regression equation that is the correlation between operating data and processing result data even for a large number of variable data. it can. If the PLS method is used when performing the above multivariate analysis, the relational expression that is the correlation between the operation data and the processing result data can be easily obtained even for a large number of variable data. Further, the operation data may include data of a temperature of a mounting table on which the object is mounted, and may further include data of a back gas pressure. Since the operation data easily affects the processing result data (there is a correlation) and includes the mounting table temperature data and the back gas pressure data, the accuracy of the processing result prediction can be improved. In addition, the operation data may include standard deviation data of the back gas pressure (for example, the back side gas pressure of He gas or the like), and the in-plane pressure difference of the object to be processed with the back gas pressure (for example, the center of the back gas, Data such as the pressure difference between three systems, middle and edge). Since the standard deviation of the back gas pressure indicates the stability of the back gas pressure, it is highly useful for predicting the in-plane uniformity of the amount of wafer W scraped as processing result data of the workpiece. Accuracy can also be improved. Further, the operation data may include at least data of the voltage of the high frequency power supply applied when processing the object to be processed, and may include at least data of the integrated operation time of the high frequency power supply. Further, both the data of the voltage of the high frequency power supply and the data of the integration operation of the high frequency power supply may be included. These high-frequency power supply voltage data and high-frequency power supply integrated operation time data are highly useful especially for predicting the amount of wafer W scraping (eg, Etchingle net) as processing result data for the object to be processed. Accuracy can also be improved. Further, the integrated operation time of the high frequency power supply may be reset to zero every time the maintenance of the processing chamber is performed. Regarding the integration time of the high-frequency power applied to the trace data, for example, (1) the integration time of the application is set to zero each time maintenance such as jet cleaning is performed, so it is possible to obtain the integration time of the application for each wet cleaning cycle. it can. For this reason, if the integrated time of high-frequency power application is used as operation data, it is possible to predict with high accuracy even processing result data that tends to change due to wet cleaning. In addition, the processing result data is the processing amount data of the etching object including the shaving amount data of the processing object or the in-plane uniformity of the shaving amount data. The processing result of the target object related to the etching including the data of the shaving amount of the body or the data of the in-plane uniformity of the shaving amount may be used. According to this, for example, By collecting only a small number of operation data and processing result data obtained by processing the same sample, the data on the amount of abrasion of the object to be etched such as the data on the amount of abrasion of the object or the data on the in-plane uniformity of the amount of abrasion can be obtained. Processing results can also be predicted easily and with high accuracy. BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a sectional view showing a processing apparatus according to a first embodiment to which a prediction method according to the present invention is applied. FIG. 2 is a block diagram showing an example of the multivariate analysis device according to the embodiment. FIG. 3 is a graph showing the temporal change of the upper electrode temperature obtained by the multivariate analyzer shown in FIG. FIG. 4 is a graph showing the change over time of the wall temperature of the processing chamber obtained by the multivariate analyzer shown in FIG. FIG. 5 is a graph showing the change over time of the lower electrode temperature obtained by the multivariate analyzer shown in FIG. FIG. 6 is a graph showing the change over time of the standard deviation of the He gas pressure obtained by the multivariate analyzer shown in FIG. Fig. 7 shows the voltage of the high-frequency power source obtained with the multivariate analyzer shown in Fig. 2. It is a graph which shows a temporal change. FIG. 8 is a graph showing the change over time in the in-plane uniformity of the abrasion amount of the silicon oxide film of the wafer W obtained by the multivariate analyzer shown in FIG. FIG. 9 is a graph showing predicted values and measured values of the process characteristic data obtained by the multivariate analyzer using the operation data and the process characteristic data of FIGS. FIG. 10 is a graph showing a correlation between a predicted value and an actually measured value obtained by the same embodiment. FIG. 11 is a sectional view showing a processing apparatus according to a second embodiment to which the prediction method according to the present invention is applied. FIG. 12 is a block diagram showing an example of the multivariate analyzer according to the embodiment. FIG. 13 is a graph showing the relationship between the etching rate of the CVD oxide film on the wafer W and the number of processed wafers obtained by the multivariate analyzer shown in FIG. Fig. 14 (a) is a graph showing the predicted and measured values of the etching rate without pretreatment using optical data as the operation data. Fig. 14 (b) is the predicted and measured values. 6 is a graph showing the correlation of the above. Figure 15 (a) is a graph showing the predicted and measured values of the etching rate without pretreatment, using optical data and trace data as the operation data, and Figure 15 (b) is the predicted value. 6 is a graph showing the correlation between the measured values and the measured values. Figure 16 (a) is a graph showing the predicted and measured values of the etching rate without pre-processing, using trace data as the operation data. Figure 16 (b) is the predicted and measured values. It is a graph which shows the correlation of. Figure 17 (a) is a graph showing the predicted and measured values of the etching rate without pretreatment using VI probe data as the operation data, and Figure 17 (b) is the graph showing the predicted value and the measured value. This is a graph showing the correlation between the measured values. Figure 18 (a) is a graph showing the predicted and measured values of the etching rate when the optical data was used as the operating data and the pretreatment by OSC was performed, and Figure 18 (b) is the predicted value and the measured value. This is a graph showing the correlation between the measured values. Fig. 19 (a) is a graph showing the predicted and measured values of the etching rate when preprocessing by OSC is performed using optical data and trace data as operating data. Is a graph showing the correlation between predicted and measured values. Figure 20 (a) uses trace data as operating data, and the OCS Fig. 20 (b) is a graph showing the predicted value and the measured value of the etching rate when the pretreatment is performed by Fig. 20, and Fig. 20 (b) is a graph showing the correlation between the predicted value and the measured value. Figure 21 (a) is a graph showing the predicted and measured values of the etching rate when pre-treatment with OcS was performed using the VI probe data as the operation data, and Figure 21 (b) is the predicted value. 7 is a graph showing the correlation between the measured values and the measured values. Figure 22 (a) is a graph showing the predicted and measured values of the etching rate when preprocessing by SNV is performed using optical data as the operation data. Figure 22 (b) is the predicted and measured values. This is a graph showing the correlation between the two. Fig. 23 (a) is a graph showing the predicted and measured values of the etching rate when preprocessing by SNV is performed using optical data and trace data as the operation data. Fig. 23 (b) is the graph showing the predicted values and the measured values. It is a graph which shows the correlation of a measured value. Figure 24 (a) is a graph showing the predicted and measured values of the etching rate when preprocessing by SNV was performed using trace data as the operating data. Figure 24 (b) shows the correlation between the predicted and measured values. It is a graph showing the relationship. Figure 25 (a) shows the predicted and actual measured etching rates in the case of pretreatment by SNV using VI probe data as operation data. Fig. 25 (b) is a graph showing the correlation between the predicted value and the measured value. Figure 26 (a) is a graph showing the predicted and measured values of the etching rate when the optical data was used as the operating data and the pretreatment was performed by MSC, and Figure 26 (b) is the predicted and measured values. This is a graph showing the correlation between values. Figure 27 (a) is a graph showing the predicted and measured values of the etching rate when preprocessing by MSC is performed using optical data and trace data as the operation data. Figure 27 (b) is the predicted and measured values. 6 is a graph showing the correlation between the two. Figure 28 (a) is a graph showing the predicted and measured values of the etching rate when preprocessing by MSC was performed using trace data as the operation data. Figure 28 (b) shows the correlation between the predicted and measured values. It is a graph showing the relationship. Fig. 29 (a) is a graph showing the predicted and measured values of the etching rate when pretreatment by MSC was performed using VI probe data as the operation data, and Fig. 29 (b) is a graph of the predicted and measured values. It is a graph which shows a correlation. FIG. 30 is a table summarizing the prediction error PE from the experimental results in each of FIGS. 14 to 29 (a). Fig. 31 is a table summarizing the correlation coefficient R based on the experimental results in Figs. 14 to 29 (b). Figure 32 is a table summarizing the influence variables VIP on the prediction results for each type of data in the trace data. Figure 33 (a) is a graph showing the predicted and measured values of the etching rate when using data obtained by removing only the high-frequency voltage Vpp from the trace data, and Figure 33 (b) is the graph showing the predicted and measured values. It is a graph which shows the correlation of a value. Figure 34 (a) is a graph showing the predicted and measured values of the etching rate when using data obtained by removing only the integration time of high-frequency power from the trace data. Figure 34 (b) shows the predicted value. 6 is a graph showing a correlation between a value and an actually measured value. Figure 35 (a) is a graph showing the predicted and measured values of the etching rate when data excluding the high-frequency voltage Vpp and the high-frequency power application time from the trace data is used. ) Is a graph showing the correlation between the predicted value and the measured value. BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, a first embodiment in which the present invention is applied to a method for predicting a processing result of a plasma etching apparatus will be described in detail with reference to the accompanying drawings. First, a magnetron reactive etching apparatus (hereinafter, referred to as "processing apparatus 10") will be described as a plasma etching apparatus according to the first embodiment. As shown in FIG. 1, for example, this processing apparatus 10 is made of an aluminum processing chamber 1 and an ascending and descending aluminum supporting the lower electrode 2 disposed in the processing chamber 1 via an insulating material 2A. And a shower head (hereinafter, also referred to as an “upper electrode” as necessary) which is disposed above the support 3 and supplies a process gas and also serves as an upper electrode. ing. The upper part of the processing chamber 1 is formed as a small-diameter upper chamber 1A, and the lower part is formed as a large-diameter lower chamber 1B. The upper chamber 1A is surrounded by a dipole ring magnet 5. The dipole ring magnet 5 has a plurality of anisotropic segmented columnar magnets accommodated and arranged in a ring made of a ring-shaped magnetic material, and faces in one direction as a whole in the upper chamber 1A. Form a uniform horizontal magnetic field. An entrance for loading and unloading the wafer W is formed in the upper part of the lower chamber 1B, and a gate valve 6 is attached to this entrance. A high-frequency power source 7 is connected to the lower electrode 2 via a matching device 7A, and a high-frequency power of 13.56 MHz is applied from the high-frequency power source 7 to the lower electrode 2 to make the upper chamber 1A Thus, a vertical electric field is formed with the upper electrode 4. A matching device (not shown) for measuring the high frequency (RF) voltage V pp on the lower electrode 3 side (high frequency voltage output side) is provided in the matching device 7A. A power meter 7B is connected to the matching device 7A and the lower electrode 2 side (high-frequency power output side). The high frequency power P from the high frequency power supply 7 is measured by the power meter 7B. In the upper chamber 1A, a magnetron discharge is generated by the electric field from the high-frequency power supply 7 and the horizontal magnetic field by the dipole ring magnet 5 via the process gas, and a plasma of the process gas supplied into the upper chamber 1A is generated. . An electrostatic chuck 8 is arranged on the upper surface of the lower electrode 2, and a DC power supply 9 is connected to an electrode plate 8 A of the electrostatic chuck 8. Therefore, the wafer W is electrostatically attracted by the electrostatic chuck 8 by applying a high voltage to the electrode plate 8A from the DC power supply 9 under a high vacuum. A focus ring 10a is arranged on the outer periphery of the lower electrode 2, and the plasma generated in the upper chamber 1A is collected on the wafer W. An exhaust ring 11 attached to an upper portion of the support 3 is disposed below the focus ring 1 O a. A plurality of holes are formed in the exhaust ring 11 at regular intervals in the circumferential direction over the entire circumference, and the gas in the upper chamber 1A is exhausted to the lower chamber 1B through these holes. The support 3 can be moved up and down between the upper chamber 1A and the lower chamber 1B via the ball screw mechanism 12 and the bellows 13. Therefore, when the wafer W is supplied onto the lower electrode 2, the lower electrode 2 descends to the lower chamber 1 B via the support 3, opens the gate valve 6, and opens the wafer via a transfer mechanism (not shown). W is supplied onto the lower electrode 2. A refrigerant flow path 3 A connected to the refrigerant pipe 14 is formed inside the support 3, and the refrigerant is circulated in the refrigerant flow path 3 A via the refrigerant pipe 14. The wafer W is adjusted to a predetermined temperature. The support 3, the insulating material 2A, the lower electrode 2, and the electrostatic chuck 8 are each provided with a gas passage 3B, and the gas introduction mechanism 15 is connected to the electrostatic chuck 8 via a gas pipe 15A. He gas is supplied to the gap between the wafers W as a pack side gas at a predetermined pressure to increase the thermal conductivity between the electrostatic chuck 8 and the wafer W via the He gas. The backside gas pressure is detected by a pressure sensor (not shown), and the detected value is displayed on a pressure gauge 15B. 16 is a bellows cover. A gas inlet 4 A is formed on the upper surface of the shower head 4, and a process gas supply system 18 is connected to the gas inlet 4 A via a pipe 17. The process gas supply system 18 has a C 4 F 8 gas supply source 18 A, an O 2 gas supply source 18 D, and an Ar gas supply source 18 G. These gas supply sources 18 A, 18 D, 18 G are connected via valves 18 B, 18 E, 18 H and the mass flow controller 18 C, 18 F, 18 I, respectively. Each gas is supplied to the shower head 4 at a specified flow rate, and is adjusted inside as a mixed gas with a specified mixture ratio. A plurality of holes 4B are uniformly arranged on the lower surface of the shower head 4 over the entire surface, and the mixed gas is supplied from the shower head 4 into the upper chamber 1A through the holes 4B. Provided as In Fig. 1, 1C is an exhaust pipe, and 19 is an exhaust system consisting of a vacuum pump and the like connected to the exhaust pipe 1C. For example, as shown in FIG. A multivariate analyzer 50 for statistically processing the processing result data, and an input / output device 60 for inputting the processing result data and outputting information such as analysis results are provided. The processing unit 10 multivariately analyzes the operation data and the processing result data via the multivariate analysis unit 50 to obtain a correlation between the two, and then, if necessary, transmits information such as the analysis result to the input / output unit 60. Output from. As shown in FIG. 2, the multivariate analyzer 50 includes an operation data storage unit 51, a processing result data storage unit 52, a multivariate analysis program storage unit 53, a multivariate analysis processing unit 54, and a multivariate analysis unit 54. An analysis result storage unit 55 is provided. The operation data storage section 51 constitutes means for storing operation data, and the processing result data storage section 52 constitutes means for storing processing result data. The multivariate analysis processor 54 constitutes means for determining the correlation (eg, prediction formula, regression formula) between the operation data and the processing result data, and means for predicting the processing result based on the correlation. The multivariate analysis result storage unit 55 constitutes means for storing the correlation obtained by the multivariate analysis processing unit 54. The multivariate analysis device 50 may be constituted by, for example, a microphone port processor that operates based on a program from the multivariate analysis program storage unit 53. The operation data storage unit 51, the processing result data storage unit 52, and the multivariate analysis result storage unit 55 may each be constituted by a recording means such as a memory, or may be provided in a recording means such as a hard disk. Each memory area may be provided. The multivariate analyzer 50 stores the respective data in the operation data storage unit 51 and the processing result data storage unit 52 by inputting the operation data and the process characteristic data. The program of the variable analysis program storage unit 53 is taken out to the multivariate analysis processing unit 54, and the multivariate analysis processing unit 54 performs multivariate analysis of the operation data and process characteristic data. In storage unit 5 5
SC憶する。 ここで, 運転データとはウェハ Wを処理する際の処理装置 1 0に 付設された複数の測定器それぞれから得られる検出データを意味し, 処理結果データとはウェハ Wを処理した結果得られるウェハ Wに関 するプロセス特性データ, 処理室 1 内の状態に関する装置状態デー タを意味する。 運転データはウェハ Wを処理する間に間欠的に測定 し, 処理結果データはウェハの処理後に必要に応じて測定する。 こ れらの測定結果はそれぞれの記憶部 5 1 , 5 2に記憶される。 第 1 の実施形態では運転データと処理結果データの相関関係を求 める関係上, 運転データと して処理結果に影響し易いデータを用い ることが好ましい。 第 1 の実施形態では運転データとしては処理室 1 内の複数箇所の溫度, バックサイ ドガスの圧力, 処理装置 1 0の 電気的データを用いている。 第 1 の実施形態では処理結果データのうちプロセス特性データと しては例えば表面にシリコン酸化膜を有するウェハ Wのシリコン酸 化膜の削れ量またはこの削れ量の面内均一性を含むエッチングに関
するデータを用いている。 処理結果データのうち装置状態データとしては処理室 1 内の副生 成物の堆積膜厚, フォーカスリング 1 0 a等の部品の消耗量を含む 装置状態を示すデータ等を用いることができる。 第 1 の実施形態で は処理結果データのうちプロセス特性データを用いており, その中 でもウェハ Wの削れ量の面内均一性を用いている。 処理室 1 内の温度としては, 第 1 の実施形態では上部電極である シャワーヘッ ド 4の温度, 処理室 1 の内壁面の温度及び下部電極 2 の温度を用いている。 特に下部電極 2の温度の影響が大きい。 これ らの温度はそれぞれの部位に配置された熱電対等の従来公知の温度 センサ (図示せず) を介して測定することができる。 より具体的に は処理室 1 内の温度として, 上述したそれぞれの部位における一枚 のウェハを処理する間の平均温度を用いている。 処理室 1 内の圧力としては, 例えば処理室 1 内のプロセスガスの 圧力や H eガス等のバックサイ ドガスの圧力を用いるこどができる, 第 1 の実施形態では処理室 1 内の圧力としてバックサイ ドガスの圧 力を用いている。 処理装置 1 0の電気的データとしては, 例えば高周波電源 7から 印加する高周波電力の基本波, 高調波の電圧, 電流, 位相, インピ 一ダンス等を用いることができる。 第 1の実施形態では整合器 7 A 内の測定器 (図示せず) により測定される整合器 7 Aの出力側の高 周波電圧 (R F電圧) V p pを用いている。 高周波電圧 V p pが例
えば図 7に示すように 6 0時間付近で瞬間的に大きく変動すること があっても予測値に反映することができる。 プロセス特性データとして用いられるウェハ Wのシリコン酸化膜 の削れ量の面内均一性は, 例えば処理前後のウェハ Wの面内の 1 3 点におけるシリコン酸化膜の膜厚を測定してこれらの膜厚間の差の バラツキから得られる面内の均一性を示すデータを用いている。 面 内均一性は, (最大値一測定値の最小値) Z ( 2 X測定値の平均値) から求めたものを使用する。 第 1 の実施形態において上記多変量解析装置 5 0は, 複数種の運 転データを説明変量 (説明変数) と し, プロセス特性データを被説 明変量 (目的変量, 目的変数) とする下記①の関係式 (回帰式など の予測式, モデル) を多変量解析プログラムを用いて求める。 下記 ①の回帰式において, Xは説明変量の行列を意味し, Yは被説明変 量の行列を意味する。 また, Bは説明変量の係数 (重み) からなる 回帰行列であり, Eは残差行列である。 SC remember. Here, the operation data refers to detection data obtained from each of a plurality of measuring instruments attached to the processing apparatus 10 when processing the wafer W, and the processing result data refers to a wafer obtained as a result of processing the wafer W. Means process characteristic data related to W and equipment state data related to the state in processing room 1. The operation data is measured intermittently during the processing of the wafer W, and the processing result data is measured as necessary after the processing of the wafer. These measurement results are stored in the respective storage units 51 and 52. In the first embodiment, since the correlation between the operation data and the processing result data is determined, it is preferable to use data that easily affects the processing result as the operation data. In the first embodiment, the operating data includes the temperatures at a plurality of locations in the processing chamber 1, the pressure of the backside gas, and the electrical data of the processing apparatus 10. In the first embodiment, the processing characteristic data of the processing result data includes, for example, the amount of abrasion of the silicon oxide film of the wafer W having the silicon oxide film on the surface or the etching including the in-plane uniformity of the abrasion amount. Data to be used. Among the processing result data, as the apparatus state data, data indicating the apparatus state including the deposited film thickness of by-products in the processing chamber 1 and the consumption of parts such as the focus ring 10a can be used. In the first embodiment, the process characteristic data of the processing result data is used, and among them, the in-plane uniformity of the wafer W abrasion amount is used. In the first embodiment, the temperature of the shower head 4, which is the upper electrode, the temperature of the inner wall surface of the processing chamber 1, and the temperature of the lower electrode 2 are used as the temperature inside the processing chamber 1. In particular, the effect of the temperature of the lower electrode 2 is great. These temperatures can be measured via a conventionally known temperature sensor (not shown) such as a thermocouple disposed at each site. More specifically, as the temperature in the processing chamber 1, the average temperature during processing of a single wafer in each of the above-described portions is used. As the pressure in the processing chamber 1, for example, the pressure of the process gas in the processing chamber 1 or the pressure of a backside gas such as He gas can be used. In the first embodiment, the pressure in the processing chamber 1 is used as the pressure in the processing chamber 1. Gas pressure. As the electrical data of the processing device 10, for example, a fundamental wave, a harmonic voltage, a current, a phase, an impedance, and the like of the high-frequency power applied from the high-frequency power source 7 can be used. In the first embodiment, a high-frequency voltage (RF voltage) Vpp on the output side of the matching device 7A measured by a measuring device (not shown) in the matching device 7A is used. High frequency voltage V pp is an example For example, as shown in Fig. 7, even if it fluctuates greatly around 60 hours, it can be reflected in the predicted value. The in-plane uniformity of the abrasion amount of the silicon oxide film on the wafer W used as the process characteristic data can be determined by measuring the thickness of the silicon oxide film at 13 points on the surface of the wafer W before and after processing, for example. Data showing the in-plane uniformity obtained from the variation in the difference between them is used. For in-plane uniformity, use the value obtained from (maximum value-minimum value of measured values) Z (average value of 2X measured values). In the first embodiment, the multivariate analysis device 50 uses the following types of operation data as explanatory variables (explanatory variables) and process characteristic data as explained variables (object variables, objective variables). The relational expression (predictive expression such as regression equation, model) is obtained using a multivariate analysis program. In the regression equation (1) below, X means the matrix of the explanatory variables, and Y means the matrix of the dependent variables. B is a regression matrix consisting of the explanatory variables (weights), and E is a residual matrix.
Y = B X + E ■ · ■① 第 1 の実施形態において上記①を求める際には, 例えば JOURNAL OF CHEMOMETRICS,VOL.2(PP211-228)(1998)に掲 載されている P L S (Partial Least Squares)法を用いている。 この P L S法は, 行列 X , Yそれぞれに多数の説明変量及び被説明変量 があってもそれぞれの少数の実測値があれば Xと Yの関係式を求め ることができる。 しかも, 少ない実測値で得られた関係式であって
も安定性及び信頼性の高いものであることも P L S法の特徴である。 多変量解析プログラム記憶部 53には P L S法用のプログラムが 記憶され, 多変量解析処理部 54において運転データ及びプロセス 特性データをプログラムの手順に従って処理し, 上記①式を求め, この結果を多変量解析結果記憶部 5 5で記憶する。 従って, 第 1 の 実施形態では上記①式を求めれば, 後は運転データを説明変量と し て行列 Xに当てはめ ことによってプロセス特性を予測することが できる。 しかもこの予測値は信頼性の高いものになる。 例えば, XT Y行列に対して i 番目の固有値に対応する第 i 主成 分は t iで表される。行列 Xはこの第 i 主成分の得点 t ;とべク トル P i を用いると下記の②式で表され, 行列 Yはこの第 i 主成分の得 点 t とベク トル c ;を用いると下記の③式で表される。 なお, 下記 の②式, ③式において, X i + 1, Y i +,は X, Yの残差行列であり, X τは行列 Xの転置行列である。 以下では指数 Τは転置行列を意味 する。 Y = BX + E · ① ① に お い て に お い て に お い て に お い て に お い て に お い て に お い て に お い て に お い て ① に お い て に お い て に お い て 例 え ば 例 え ば に お い て 例 え ば 例 え ば 例 え ば 例 え ば 例 え ば 例 え ば 例 え ば 例 え ば , 例 え ば 例 え ば 例 え ば PLS (Partial Least Squares ) Method. This PLS method can obtain the relational expression between X and Y if there are a large number of explanatory variables and a large number of explanatory variables in each of the matrices X and Y, but only a small number of measured values. Moreover, it is a relational expression obtained with few actual measurements, Is also a feature of the PLS method in that it is highly stable and reliable. The multivariate analysis program storage unit 53 stores a program for the PLS method. The multivariate analysis processing unit 54 processes the operation data and the process characteristic data according to the program procedure, obtains the above equation (1), and obtains the multivariate result. The analysis result storage unit 55 stores it. Therefore, in the first embodiment, once the above equation (1) is obtained, the process characteristics can be predicted by applying the operating data to the matrix X as an explanatory variable. Moreover, the predicted value becomes highly reliable. For example, the i-th principal component corresponding to the i-th eigenvalue relative to X T Y matrix is represented by ti. The matrix X is expressed by the following formula using the score t of the i-th principal component and the vector P i, and the matrix Y is expressed by the following formula using the score t of the i-th principal component and the vector c; ③ expressed by the formula. In the following formulas (1) and (3), X i + 1 and Y i + are the residual matrices of X and Y, and Xτ is the transposed matrix of matrix X. In the following, the exponent Τ means the transposed matrix.
X= t l P l + t 2 p 2+ t 3 P 3 + - ■ + t ; p ; + Χ i + 1 - ■ '② X = t l P l + t 2 p 2 + t 3 P 3 +-■ + t; p; + Χ i + 1- ■ '②
Y = t l C l + t 2 C 2+ t 3 c 3+ ' ' + t i C i + Y i + 1 ' ' '③ 而して, 第 1 の実施形態で用いられる P L S法は, 上記式②, ③ を相関させた場合の複数の固有値及びそれぞれの固有べク トルを少 ない計算量で算出する手法である。 Y = t l C l + t 2 C 2 + t 3 c 3 + '' + t i C i + Y i + 1 '''③ Therefore, the PLS method used in the first embodiment is In this method, multiple eigenvalues and their respective eigenvectors when equations (1) and (3) are correlated are calculated with a small amount of computation.
P L S法は以下の手順で実施される。先ず第 1段階では,行列 X
Yのセンタ リング及びスケ一リングの操作を行う。 そして, i = 1 を設定し, χ, = χ, Υ, = Υとする。 また, として行列 Υ の第The PLS method is performed according to the following procedure. First, in the first stage, the matrix X Perform Y centering and scaling operations. Then, i = 1 is set, and χ, = χ, Υ, = Υ. Also, as
1列を設定する。 尚, センタ リングとは各行の個々の値からそれぞ れの行の平均値を差し引く操作であり, スケーリングとは各行の 個々の値をそれぞれの行の標準偏差で除する操作 (処理) である。 第 2段階では, W i = X i T U i Z ( u ; T u , ) を求めた後, w ;の 行列式を正規化し, t i = X i W iを求める。 また, 行列 Yについて も同様の処理を行って, C i Y i T t i Z t i T t i ) を求めた後, の行列式を正規化し, U i ^ Y i C i , ( c , T c , ) を求める。 第 3段階では Xローディング (負荷量) |3 ; =乂 ( 1 t i ), Y負荷量 ;ニ丫 ^^ ^! ^! ; ) を求める。 そして, u を tに回帰させた b i U i T t i Z C t i T t i ) を求める。 次いで, 残差行列 X; = X ;— t ; p ; T, 残差行列 Y , -Υ ,— b i t i C i Tを 求める。 そして, i をインクリメントして i = i + 1 を設定し, 第 2段階からの処理を繰り返す。 これら一連の処理を P L S法のプロ グラムに従って所定の停止条件を満たすまで, あるいは残差行列 X i + 1がゼロに収束するまで繰り返し, 残差行列の最大固有値及びそ の固有べク トルを求める。 Set one column. Note that centering is the operation of subtracting the average value of each row from the individual values of each row, and scaling is the operation (processing) of dividing the individual value of each row by the standard deviation of each row. . In the second stage, W i = X i T U i Z; After obtaining the (u T u,), w ; normalizes the determinant determines the ti = X i W i. Also, the same processing is performed on the matrix Y to obtain C i Y i T ti Z ti T ti), and then the determinant of is normalized, and U i ^ Y i C i, (c, T c, ). In the third stage, X loading (load) | 3; = ati (1 ti), Y load; d ^^ ^! ^!;) Then, bi U i T ti ZC ti T ti) is obtained by regressing u on t. Then, the residual matrix X; = X; —t; p; T , the residual matrix Y, -Υ, —bit i C i T are obtained. Then, i is incremented to set i = i + 1, and the processing from the second stage is repeated. This series of processing is repeated until a predetermined stopping condition is satisfied according to the program of the PLS method or until the residual matrix Xi + 1 converges to zero, and the maximum eigenvalue of the residual matrix and its eigenvector are obtained. .
P L S法は残差行列 X i + 1の停止条件またはゼロへの収束が速く , 1 0回程度の計算の繰り返すだけで残差行列が停止条件またはゼロ に収束する。 一般的には 4〜 5回の計算の繰り返しで残差行列が停 止条件またはゼロへの収束する。 この計算処理によって求められた 最大固有値及びその固有べク トルを用いて X T Y行列の第 1主成分
を求め, X行列と Y行列の最大の相関関係を知ることができる。 次に, 上記処理装置 1 0の動作を本発明方法の一実施形態と共に 説明する。 第 1の実施形態ではまず多変量解析によってプロセス特 性を予測するための上記①式を求めた後, 所定のウェハ Wを処理す る。 ウェハ Wの処理段階では任意の時点における運転データを①式 に当てはめることでその時のプロセス特性を予測することができる。 処理装置 1 0の運転を開始すると, 支持体 3がポールネジ機構 1 2を介して処理室 1の下室 1 Bまで下降すると共に, ゲートバルブ 6が開放した出入口からウェハ Wを搬入して下部電極 2上に載置す る。 ウェハ Wの搬入後, ゲートバルブ 6が閉じると共に排気系 1 9 が作動して処理室 1 内を所定の真空度に維持する。 この際, ガス導 入機構 1 5から H eガスをバックガスとして供給し, ウェハ Wと下 部電極 2 , 具体的には静電チャック 8とウェハ W間の熱伝導性を高 めてウェハ Wの冷却効率を高める。 In the PLS method, the convergence of the residual matrix X i + 1 to the stopping condition or zero is fast, and the residual matrix converges to the stopping condition or zero by repeating the calculation about 10 times. In general, the residual matrix converges to a stopping condition or zero by repeating the calculation four to five times. The first main component of X T Y matrix using the maximum eigenvalue and its specific base-vector obtained by the calculation process And find the maximum correlation between the X and Y matrices. Next, the operation of the processing apparatus 10 will be described together with an embodiment of the method of the present invention. In the first embodiment, first, the above equation (1) for predicting process characteristics is obtained by multivariate analysis, and then a predetermined wafer W is processed. In the processing stage of the wafer W, the process characteristics at that time can be predicted by applying the operation data at an arbitrary time to the equation (2). When the operation of the processing apparatus 10 is started, the support 3 descends to the lower chamber 1 B of the processing chamber 1 via the pole screw mechanism 12, and the wafer W is carried in from the opening and closing opening of the gate valve 6 and the lower electrode is moved. 2 Place on top. After the wafer W is loaded, the gate valve 6 is closed and the exhaust system 19 is activated to maintain the processing chamber 1 at a predetermined degree of vacuum. At this time, He gas is supplied as a back gas from the gas introduction mechanism 15 to increase the thermal conductivity between the wafer W and the lower electrode 2, specifically, the electrostatic chuck 8 and the wafer W to increase the wafer W. Improve the cooling efficiency.
—方, プロセスガス供給系 1 8から C 4 F eガスを 1 6 s c c mの 流量, 0 2ガスを 3 0 0 s c c mの流量で供給する。 また, A rガ スも 4 0 s c c mの流量で供給する。 この時の処理室 1 内の圧力は 例えば 5 3 m T o r 「である。 この状態で, 高周波電源 7から高周 波電力を 1 つ 0 0 Wで印加すると, ダイポールリング磁石 5の作用 と相俟ってマグネ卜口ン放電が発生し, プロセスガスのプラズマを 生成してウェハ Wの酸化膜をエッチングする。 エッチング終了後に は搬入時とは逆の操作で処理後のウェハ Wを処理室 1 内から搬出し, 後続のウェハ Wに対して同様の処理を繰り返し, 所定の枚数を処理
して一連の処理を終了する。 第 1の実施形態では実際のウェハ Wを処理する前に, 実際のゥェ ハ Wと同一の 6枚のウェハ Wと 1 9枚のダミーウェハを混ぜた 2 5 枚のウェハを 1 ロッ トとし 3 [分 Zウェハ] の処理時間で処理し, 1 1 ロッ ト分を 1 0時間毎あるいは 5時間毎に繰り返し処理し, 6 枚のウェハ Wに関する運転データ及びプロセス特性データを得て多 変量解析を行う。 第 1の実施形態ではデータ数が少なくて済む P L S法を用いるため, 例えば 2番目及び 1 1番目のロッ トにおけるゥ ェハ Wの運転データ及びプロセス特性データのみを使用し, P L S 法を用いてこれらのデータから上記①式を求める。 尚, 6枚のゥェ ハ Wは各ロッ トの 1枚目から 3枚目, 5枚目, 1 0枚目及び 2 5枚 目に挿入してある。 このようなウェハ Wの処理を行っている間, 運転データとしてシ ャヮーヘッ ド (上部電極) 4 , 処理室 1の上室 1 Aの壁面, 下部電 極 2それぞれの温度をそれぞれ間欠的に検出し, これらの検出信号 Τ , , T 2 , Τ 3を A Z D変換器を介して多変量解析装置 5 0へ逐次 入力し, 運転データ記憶部 5 1 で記憶する。 また他の運転データとして H eガスの圧力を間欠的に検出し, こ の検出信号 Pを A Z D変換器を介して多変量解析装置 5 0へ逐次入 力し, これらの入力値に基づいて多変量解析処理部 5 4を介して標 準偏差を算出し, 運転データ記憶部 5 1 で記憶する。 さらに他の運転データとして高周波電源 7の電圧を間欠的に検出
し, この検出信号 Vを A Z D変換器を介して多変量解析装置 5 0へ 逐次入力し, 運転データ記憶部 5 "1 で記憶する。 次いで, H eガス圧力以外に関してはそれぞれの運転データの各 ウェハ W毎の平均値を, H eガス圧力に関しては運転データの各ゥ ェハ W毎の標準偏差を多変量解析処理部 5 4を介して求める。 次に, 各ウェハ W毎のそれぞれの運転データの平均値及び標準偏 差を運転データ記憶部 5 1 で記憶し, あるいはそのまま次の処理に 備える。 ここで, 全てのウェハ Wの上部電極温度の検出信号 T,, 壁面温 度の検出信号 T 2 , 下部電極温度の検出信号 T 3それぞれの平均値の 経時変化を図示したものを図 3〜図 5に示す。 H eガスの検出信号 Pの標準偏差の経時変化を示したものを図 6に示し, 高周波電力の 検出信号 Vの平均値の経時変化を示したものを図 7に示す。 そして, 処理後のウェハ Wを取り出し, このウェハ Wのシリコン 酸化膜の面内の 1 3点の削れ量を入出力装置 6 0から多変量解析装 置 5 0へ入力し, この入力値に基づいて多変量解析処理部 5 4を介 して面内均一性を算出し, この算出値をプロセス特性データと して 処理結果データ記憶部 5 2で記憶する。 このようなプロセス特性デ ータ (面内均一性) の経時変化を示したものを図 8に示す。 図 3〜図 8に示す運転データ及びプロセス特性データのうち, 2 番目のロッ トと 1 1番目のロッ 卜の運転データ及びプロセス特性デ
ータに基づいて P L S法により上記①式の回帰行列 B及び残差行列 Eを求めた。 そして, この式を用いて上記ロッ ト及び上記口ッ 卜以 外の口ッ 卜におけるウェハ Wのプロセス特性データを予測し, X印 のグラフにしたものを図 9に示す。 また, 図 9の口印で示すグラフ はプロセス特性データの実測値である。 図 9において, 2番目のロッ トと 1 1番目のロッ 卜の予測値と実 測値が一致しているのは①式を求める際にこの時のウェハ Wを使用 したからである。 その他のウェハ Wのプロセス特性データの予測値 もロッ ト毎 ( 1 0時間毎) に変動する実測値に極めて近い値を示し ていることが判る。 特に, 6 0時間付近で大きな均一性の悪化が予 測値, 実測値とも確認することができる。 これは, 図 7において確 認される高周波(R F )電圧の突発的低下が反映されたものである。 つまり, 図 3〜図 6のように経時的なロッ 卜変動を検出することが でききる上部電極温度, 壁面温度, 下部電極温度及び H eガス圧力 等の処理室 1 内の状態を反映するデータと, 図 7のようにロッ ト変 動の検出は難しいが高周波電力の印加状態を反映するデータの両方 を用いると有効であることが判る。 図 1 0には, 図 9に示す予測値と実測値の関係をプロッ 卜して得 られた相関関係を示す。 この相関関係は図 1 0からも明らかなよう に相関係数 R = 0 . 9 0 5 3と相関性が高く予測値と実測値が概ね 一致していることが判る。 尚, 第 1の実施形態では予測値と実測値 を比較するために全てのウェハ Wに関する運転データ及びプロセス 特性データを実測したものを図 3〜図 9に示す。 なお, このような 実験の結果から第 1 の実施形態のプロセス特性データであるウェハ
Wの削れ量の面内均一性の予測に際しては, 特に下部電極温度の各 ウェハ W毎の平均値と H eガス圧力の各ウェハ毎の標準偏差を運転 データと して使用することが予測精度を高めるためには重要である ことがわかった。 このように本実施の形態においては, 実際のウェハ Wを処理する 前に, これと同一のウェハ Wを少数枚 (第 1の実施形態では 2番目 と 1 1番目のロッ トの 1 2枚) 使用して上述のように運転データ及 びプロセス特性データを求める。 これらの少数の運転データ及びプ ロセス特性データを用い, P L S法によって回帰式①を求めた後, 実際のウェハ Wを処理する場合には任意のウェハ Wの運転データを 検出する。 そして, それぞれの運転データを回帰式①に当てはめる だけで実際のウェハ Wの面内均一性をプロセス特性データとして予 測することができる。 しかも, 極めて精度の高いプロセス予測を行 うことができる。 以上説明したように第 1 の実施形態によれば, 所定ロッ 卜のゥェ ハのような少数のテス トウェハを処理した時の運転データ及び処理 結果データ (例えばプロセス特性データ) を収集し, これらの収集 データ群 (運転データ及び処理結果データ) に基づいて多変量解析 を行い, この多変量解析を介して運転データと処理結果データの相 関関係を求め, この相関関係に基づいてウェハの削れ量の面内均一 性などのようなウェハ Wの処理結果 (例えばプロセス特性) を予測 するため, 実際にウェハ Wを処理している時には, ウェハ Wの運転 データを求めるだけでウェハ Wの面内均一性をプロセス特性として 高精度に予測することができる。 また, 多変量解析を行って運転デ
ータと処理結果データの相関関係を求める際に P L S法を使用した ため, 回帰式①を短時間で効率良く求めることができる。 従って, 第 1の実施形態によれば, 従来のように多くのテス トウ ェハを作製したり, 処理装置 1 0を用いて多くのテス トウェハを処 理し, それぞれの処理結果を測定する必要がなく, テス トウェハの 作製及び処理結果の測定に多くの工数と時間を割く必要がない。 し かも従来の予測方法よリも高精度に処理結果を予測することができ る。 さらに, 第 1の実施形態によれば, 運転データとしてプロセス特 性データ (ウェハ Wの面内均一性) に影響し易いデータ, 即ち, 処 理室 1 内の複数箇所の温度 (上部電極温度, 処理室 1の壁面温度及 び下部電極温度),処理室内の圧力(H eガスなどのバックガス圧力), 電気的データ (高周波電力の電圧) を使用したため, 運転データと プロセス特性データの相関関係が強く, プロセス特性を高精度で予 測することができる。 さらに, プロセス特性データとしてウェハ W の面内均一性を採用したため, ェツチングによるウェハ W面内の均 一性の善し悪しを高精度で予測することができる。 なお, 第 1の実施形態では 2番目のロッ 卜と 1 1番目のロッ 卜の テス トウェハを用いて実測値と予測値の相関関係を求めたが, 相関 関係を求める場合には実際のプロセスでウェハ Wを処理している間 に定期的にテス 卜ウェハを処理して相関関係を求めても良く, ある いは不定期にテス トウェハを処理して相関関係を求めても良い。 一 度相関関係を求めた後, 適宜テス トウェハを用いてデータを追加し
て相関関係を更新することで予測精度をより高めることができる。 また, 上記第 1の実施形態では運転データとして上部電極温度, 処理室壁面温度, 下部電極温度を用いたがプロセス特性に影響し易 いその他の部位の温度を用いても良く, この際少なくとも一箇所の 温度を用いれば良い。 特にプロセス特性データとしてウェハ Wの削 れ量の面内均一性を予測する場合は, 下部電極温度が好ましい。 また, 処理室内の圧力と して H eガスの圧力を用いたがプロセス ガスの圧力を用いても良い。 特にプロセス特性データとしてウェハ Wの削れ量の面内均一性を予測する場合は, H eガスの圧力の安定 性を表す標準偏差を使用することが好ましく, また H eガスのゥェ ハ Wの面内圧力差 (例えばバックガスをセンタ, ミ ドル, エッジの 3系統にしたときのその圧力差など) を使用することも好ましい。 また, 第 1 の実施形態では運転データの電気的データとして高周 波電源の電圧を用いたが, 高周波電源の基本波, 高調波の電流, 位 相及びインピーダンス等を用いても良い。 また, 第 1 の実施形態では処理結果データと してプロセス特性デ —タと して用い, このプロセス特性データと してウェハ Wの削れ量 の面内均一性を用いたが, その他のプロセス特性データとしてゥェ ハ Wの削れ量の他, ェツチングパターンの線幅やテーパ角度等のェ ツチング特性を示すデータを用いても良い。 次に, 添付図面を参照しながら本発明をプラズマエッチング装置
の処理結果の予測方法に適用した場合の第 2の実施形態について詳 細に説明する。 なお, 第 2の実施形態において上記第 1の実施形態 における同一部分には同一符号を付して詳細な説明を省略する。 第 2の実施形態では, 運転データとするパラメータを変更又は追 加して, 処理結果データとしてプロセス特性データのうちのウェハ Wの削れ量(例えばエッチングレート)を用いて多変量解析を行い, ウェハ wのエッチングレ一卜を予測する。 先ず, 第 2の実施形態にかかるプラズマエッチング装置としてマ グネ ト口ン反応性エッチング処理装置(以下, 「処理装置 1 00」 と 称す。) について図 1 1 を参照しながら説明する。 なお, 図 1 1 にお いて図 1 と同一部分には同一符号を付して詳細な説明を省略する。 図 1 1 に示す処理装置 1 00のシャワーへッ ド 4には, 処理室 1 内のプラズマ発光を検出する分光器(以下, 「光学計測器」 と称す。) 20が設けられている。 この光学計測器 20によって得られる特定 の波長範囲 (例えば 200〜 950 n m) の発光スぺク トル強度を 光学的データとする。 ガス導入部 4 Aには, 配管 1 7を介してプロセスガス供給系 1 8 ' が接続されている。 プロセスガス供給系 1 8 ' は, C5 F8ガス 供給源 1 8 A' , O 2ガス供給源 1 8 D' , A rガス供給源 1 8 G' を有している。 これらのガス供給源 1 8 A' , 1 8 D ' , 1 8 G' はそれぞれバ
ルブ 1 8 Β' , 1 8 Ε ' , 1 8 H' 及びマスフ口一コン トローラ 1 8 C , 1 8 F' , 1 8 I ' を介してそれぞれのガスを所定の流量 でシャワーへッ ド 4へ供給し, その内部で所定の配合比を持った混 合ガスとして調整する。 各ガス流量はそれぞれのマスフローコント ローラ 1 8 C' , 1 8 F' , 1 8 1 ' によって検出可能である。 第 2の実施形態では各ガス流量のうち C 5 F 8ガスのガス流量と A r ガスのガス流量を検出する。 検出されたこれらのガス流量のデータ はトレースデータとされる。 排気管 1 Cには, A P C (A u t o P r e s s u r e C o n t r o I I e r ) バルブ 1 Dが設けられておリ, 処理室 1 内のガス圧 力に即して A P Cバルブの開度が自動的に調節される。 第 2の実施 形態では A P Cバルブ 1 Dによる A P C開度を検出する。 検出され た A P C開度はトレースデータとされる。 静電チャック 8の電極板 8 Aと直流電源 9との間には, 静電チヤ ック 8の印加電流, 印加電圧を検出する電力計 9 aが接続されてい る。 この電力計 9 aから検出された静電チャック 8の印加電流, 印 加電圧のデータはトレースデータとされる。 バックサイ ドガス (例えば H eガス) を導入するガス導入機構 1 5には例えばマスフローコン トローラ (図示せず) が設けられてお り, このマスフ口一コントローラによりバックサイ ドガスのガス流 量を検出する。 バックサイ ドガスのガス流量は, 圧力計 1 5 Bによ リ検出されるバックサイ ドガスのガス圧力とともに, 卜レースデー タとされる。
上記整合器 7 Aは例えば 2個の可変コンデンサ C 1 , C 2 , コン デンサ C及びコイル Lを内蔵し, 可変コンデンサ C I , C 2を介し てインピーダンス整合を取っている。 整合状態での可変コンデンサ C 1 , C 2のポジションはトレースデータとされる。 上記整合器 7 Aは電力計 7 aを設け, この電力計 7 aにより高周 波電力の供給ライン (電線) と処理装置 1 0 0のグランド (接地) との間の電圧 V d cを計測する。 この高周波電力供給ライン(電線) と接地間の電圧 V d cはトレースデータとされる。 上記整合器 7 Aの下部電極 2側 (高周波電圧の出力側) には電気 計測器 (例えば, V I プローブ) 7 Cが取り付けられ, この電気計 測器 7 Cを介して下部電極 2に印加される高周波電力 Pにより上室 1 A内に発生するプラズマに基づく基本波 (高周波電力の進行波及 び反射波) 及び高調波の高周波電圧 V , 高周波電流 I , 高周波位相 P , インピーダンス Zを電気的データとして検出する。 このうち高 周波電力の進行波及び反射波はトレースデータとされる。 また高調 波の高周波電圧 V , 高周波電流 I , 高周波位相 P , インピーダンス Zは V I プローブデータとされる。 高周波電源 7と電力計 7 Bとの間には, 高周波電力の印加時間を 積算する積算部 7 bが接続されている。 この積算部 7 bによリ検出 された高周波電力の印加積算時間も トレースデータとされる。 ここ でいう印加積算時間は, ウェハ Wを処理するごとに高周波電力を印 加する時間を積算したものである。
積算部 7 bは, 処理装置 1 00のメ ンテナンスを行うごとに上記 高周波電力の印加積算時間をゼロにリセッ 卜するようになっている。 従って, 'ここでいう高周波電力の印加積算時間は, 次のメンテナン スを行うまでの印加積算時間となる。 上記メンテナンスとしては, 例えばエッチングによリ生じた処理 装置 1 00内の副生成物 (例えばパーティクル) を除去する等のた めに行うウエッ トクリーニング,消耗品や測定器の交換などがある。 第 2の実施形態ではゥエツ トクリーニングを行うごとに印加積算時 間をゼロにリセッ 卜するようにしている。 次に, 第 2の実施形態における多変量解析装置 50のブロック図 を図 1 2に示す。 第 2の実施形態では, 各測定器から検出された運 転データを光学データ, トレースデータ, V I プローブデータに分 けて用いる。 光学データとしては, 上述した光学計測器 20から検 出される例えば 200〜 950 n mの波長範囲の発光スぺク トル強 度 ¾:用し、る。 トレースデータとしては, 第 1 の実施形態で説明した処理室 1 内 の複数箇所の温度 (上部電極温度 τ,, 壁面温度 τ2, 下部電極温度- How, from the process gas supply system 1 8 C 4 F e gas 1 6 sccm flow rate, 0 supplies 2 gas at a flow rate of 3 0 0 sccm. Ar gas is also supplied at a flow rate of 40 sccm. At this time, the pressure in the processing chamber 1 is, for example, 53 mT or “. In this state, when one high-frequency power is applied at 100 W from the high-frequency power source 7, the action of the dipole ring magnet 5 and the operation of the dipole ring magnet 5 are reduced. Together with this, a magnetic discharge occurs, generating plasma of the process gas and etching the oxide film on the wafer W. After the etching is completed, the processed wafer W is processed in a reverse manner to the loading operation. Carry out from inside, repeat the same process for subsequent wafers W, process a predetermined number of wafers Then, a series of processing ends. In the first embodiment, before processing the actual wafer W, 25 wafers obtained by mixing 6 wafers W and 19 dummy wafers, which are the same as the actual wafer W, are used as one lot. The processing time of [min Z wafer] is processed, and the 11 lots are repeatedly processed every 10 hours or every 5 hours, and the operation data and process characteristic data for the six wafers W are obtained to perform multivariate analysis. Do. In the first embodiment, since the PLS method that requires a small number of data is used, for example, only the operation data and the process characteristic data of the wafer W in the second and eleventh lots are used, and the PLS method is used. The above equation (1) is obtained from these data. The six wafers W are inserted in the first to third, fifth, tenth, and twenty-fifth sheets of each lot. During the processing of such a wafer W, the temperatures of the shield head (upper electrode) 4, the wall of the upper chamber 1A of the processing chamber 1, and the lower electrode 2 are intermittently detected as operating data. , These detection signals Τ,, T 2 , 多3 are sequentially input to the multivariate analyzer 50 via the AZD converter and stored in the operation data storage unit 51. Further, the pressure of He gas is intermittently detected as other operation data, and this detection signal P is sequentially input to the multivariate analysis device 50 via the AZD converter, and based on these input values, the multiple The standard deviation is calculated via the variable analysis processing unit 54 and stored in the operation data storage unit 51. Furthermore, the voltage of the high frequency power supply 7 is intermittently detected as other operation data. Then, this detection signal V is sequentially input to the multivariate analyzer 50 via the AZD converter, and stored in the operation data storage unit 5 "1. Next, for each operation data except for the He gas pressure, The average value for each wafer W, and the standard deviation for each wafer W of the operating data for the He gas pressure are obtained via the multivariate analysis processing unit 54. Next, the operation for each wafer W The average value and the standard deviation of the data are stored in the operation data storage unit 51, or are prepared for the next processing as they are: Here, the detection signal T of the upper electrode temperature of all wafers W and the detection signal of the wall temperature T 2, figure illustrates the time course of the standard deviation of the detection signal P of FIGS. 5 shows. H e gas that illustrates the detection signal T 3 time course of each of the average value of the lower electrode temperature Figure 6 shows the change over time in the average value of the high-frequency power detection signal V. The result is shown in Fig. 7. Then, the wafer W after processing is taken out, and the shaved amount at 13 points in the surface of the silicon oxide film of the wafer W is transferred from the input / output device 60 to the multivariate analysis device 50. Based on the input value, the in-plane uniformity is calculated via the multivariate analysis processing unit 54, and the calculated value is stored in the processing result data storage unit 52 as process characteristic data. The change over time of such process characteristic data (in-plane uniformity) is shown in Fig. 8. Of the operation data and process characteristic data shown in Figs. Operation data and process characteristic data Based on the data, the regression matrix B and the residual matrix E of the above equation (1) were obtained by the PLS method. Then, using this equation, the process characteristic data of the wafer W at the above-mentioned lot and at the other slot than the above-mentioned slot are predicted, and the graph with the X mark is shown in Fig. 9. The graph shown by the seal in Fig. 9 is the measured value of the process characteristic data. In Fig. 9, the predicted and measured values of the second and eleventh lots coincide with each other because the wafer W was used at the time of obtaining equation (1). It can be seen that the predicted values of the process characteristic data of other wafers W are also very close to the measured values that fluctuate for each lot (every 10 hours). In particular, a large deterioration in uniformity around 60 hours can be confirmed in both the predicted and measured values. This reflects the sudden drop in the high-frequency (RF) voltage observed in Fig. 7. In other words, as shown in Fig. 3 to Fig. 6, data reflecting the state inside the processing chamber 1, such as the upper electrode temperature, wall temperature, lower electrode temperature, and He gas pressure, which can detect the fluctuation of the rotor over time. As shown in Fig. 7, it is difficult to detect lot fluctuations, but it can be seen that it is effective to use both data that reflect the applied state of high-frequency power. Fig. 10 shows the correlation obtained by plotting the relationship between the predicted values and the measured values shown in Fig. 9. This correlation has a high correlation with the correlation coefficient R = 0.953, as is clear from Fig. 10, and the predicted value and the measured value are almost the same. In the first embodiment, Figs. 3 to 9 show actual measurements of the operation data and process characteristic data for all wafers W in order to compare the predicted values with the actually measured values. It should be noted that, based on the results of such an experiment, the wafer as the process characteristic data of the first embodiment was used. In predicting the in-plane uniformity of the amount of W abrasion, it is particularly important to use the average value of the lower electrode temperature for each wafer W and the standard deviation of the He gas pressure for each wafer as operating data. Was found to be important for raising Thus, in the present embodiment, before processing the actual wafer W, a small number of the same wafers W (12 in the second and 11th lots in the first embodiment) are used. To obtain operating data and process characteristic data as described above. Using these small numbers of operation data and process characteristic data, the regression equation (1) is obtained by the PLS method, and then when processing actual wafers W, the operation data of any wafer W is detected. Then, the actual in-plane uniformity of the wafer W can be predicted as process characteristic data simply by applying each operation data to the regression equation (2). In addition, extremely accurate process prediction can be performed. As described above, according to the first embodiment, operation data and processing result data (for example, process characteristic data) when a small number of test wafers such as wafers of a predetermined lot are processed are collected. A multivariate analysis is performed based on the collected data group (operating data and processing result data), and a correlation between the operating data and the processing result data is obtained through the multivariate analysis. The wafer is scraped based on the correlation. In order to predict the processing results (for example, process characteristics) of the wafer W, such as the in-plane uniformity of the amount, when actually processing the wafer W, the in-plane surface of the wafer W can be obtained simply by obtaining the operating data of the wafer W. Uniformity can be predicted with high accuracy as a process characteristic. In addition, multivariate analysis is performed to Since the PLS method was used to determine the correlation between the data and the processing result data, the regression equation ① can be determined efficiently in a short time. Therefore, according to the first embodiment, it is necessary to manufacture many test wafers as in the past, process many test wafers using the processing apparatus 10, and measure each processing result. There is no need to spend much man-hours and time on test wafer fabrication and measurement of processing results. Furthermore, the processing result can be predicted with higher accuracy than the conventional prediction method. Further, according to the first embodiment, as the operation data, data that easily affects the process characteristic data (in-plane uniformity of the wafer W), that is, the temperatures (upper electrode temperature, upper electrode temperature, The correlation between the operating data and the process characteristic data was used because the wall temperature and lower electrode temperature of processing chamber 1, the pressure in the processing chamber (back gas pressure such as He gas), and electrical data (voltage of high-frequency power) were used. And the process characteristics can be predicted with high accuracy. In addition, since the in-plane uniformity of the wafer W is used as the process characteristic data, it is possible to predict with high accuracy whether the uniformity within the wafer W surface due to etching is good or bad. In the first embodiment, the correlation between the actually measured value and the predicted value was obtained by using the test wafers of the second lot and the 11th lot. However, when the correlation was obtained, the actual process was used. While processing the wafer W, the correlation may be obtained by processing the test wafer periodically, or the correlation may be obtained by processing the test wafer irregularly. Once the correlation has been obtained, data is added using test wafers as appropriate. By updating the correlation, the prediction accuracy can be further improved. In the first embodiment, the temperature of the upper electrode, the temperature of the processing chamber wall surface, and the temperature of the lower electrode are used as the operation data. However, the temperature of other parts that easily affect the process characteristics may be used. The temperature at the location may be used. In particular, when predicting the in-plane uniformity of the abrasion amount of the wafer W as process characteristic data, the lower electrode temperature is preferable. Also, the pressure of the He gas was used as the pressure in the processing chamber, but the pressure of the process gas may be used. In particular, when predicting the in-plane uniformity of the abrasion amount of the wafer W as the process characteristic data, it is preferable to use the standard deviation indicating the stability of the He gas pressure. It is also preferable to use the in-plane pressure difference (for example, the pressure difference when the back gas is divided into three systems: center, middle, and edge). In the first embodiment, the voltage of the high-frequency power supply is used as the electrical data of the operation data. However, the fundamental wave, harmonic current, phase, impedance, and the like of the high-frequency power supply may be used. In the first embodiment, the process result data is used as process characteristic data, and the in-plane uniformity of the abrasion amount of the wafer W is used as the process characteristic data. As the data, in addition to the wafer W shaving amount, data indicating the etching characteristics such as the line width and the taper angle of the etching pattern may be used. Next, a plasma etching apparatus according to the present invention will be described with reference to the accompanying drawings. The second embodiment in the case where the present invention is applied to the method for predicting the processing result described above will be described in detail. In the second embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and detailed description is omitted. In the second embodiment, a parameter used as operation data is changed or added, and a multivariate analysis is performed by using an abrasion amount (for example, an etching rate) of the wafer W in the process characteristic data as the processing result data. Predict the etching rate of w. First, as a plasma etching apparatus according to the second embodiment, a magnet port reactive etching processing apparatus (hereinafter, referred to as “processing apparatus 100”) will be described with reference to FIG. In FIG. 11, the same parts as those in FIG. 1 are denoted by the same reference numerals, and detailed description is omitted. The shower head 4 of the processing apparatus 100 shown in FIG. 11 is provided with a spectroscope (hereinafter, referred to as an “optical measuring instrument”) 20 for detecting plasma emission in the processing chamber 1. The emission spectrum intensity in a specific wavelength range (for example, 200 to 950 nm) obtained by the optical measuring device 20 is defined as optical data. A process gas supply system 18 ′ is connected to the gas inlet 4 A via a pipe 17. The process gas supply system 1 8 ', C 5 F 8 gas supply source 1 8 A' has, O 2 gas supply source 1 8 D ', A r gas source 1 8 G'. These gas sources 18 A ', 18 D', 18 G ' Lubes 18 Β ', 18', 18 H 'and shower heads of the respective gases at a predetermined flow rate via the mass flow controller 18 C, 18 F', 18 I '4 And adjusts it as a mixed gas with a specified mixing ratio inside. Each gas flow rate can be detected by each mass flow controller 18 C ′, 18 F ′, 18 1 ′. In the second embodiment, the gas flow rate of the C 5 F 8 gas and the gas flow rate of the Ar gas among the gas flow rates are detected. The data of these detected gas flow rates is used as trace data. The exhaust pipe 1C is equipped with an APC (Auto Pressure Control IIer) valve 1D, and the opening of the APC valve is automatically adjusted according to the gas pressure in the processing chamber 1. Is done. In the second embodiment, the APC opening by the APC valve 1D is detected. The detected APC opening is used as trace data. Between the electrode plate 8A of the electrostatic chuck 8 and the DC power supply 9, a wattmeter 9a for detecting the applied current and applied voltage of the electrostatic chuck 8 is connected. The data of the applied current and applied voltage of the electrostatic chuck 8 detected from the wattmeter 9a is used as trace data. The gas introduction mechanism 15 for introducing a backside gas (for example, He gas) is provided with, for example, a mass flow controller (not shown). The mass flow controller detects the gas flow of the backside gas. The gas flow rate of the backside gas is used as trace data together with the gas pressure of the backside gas detected by the pressure gauge 15B. The matching unit 7A includes, for example, two variable capacitors C 1 and C 2, a capacitor C and a coil L, and performs impedance matching via the variable capacitors CI and C 2. The positions of the variable capacitors C 1 and C 2 in the matching state are used as trace data. The matching unit 7A is provided with a power meter 7a, which measures the voltage Vdc between the high-frequency power supply line (wire) and the ground (ground) of the processing device 100 using the power meter 7a. . The voltage Vdc between the high-frequency power supply line (wire) and the ground is used as trace data. An electric measuring instrument (for example, a VI probe) 7C is attached to the lower electrode 2 side (high-frequency voltage output side) of the matching device 7A, and is applied to the lower electrode 2 via the electric measuring instrument 7C. The fundamental wave (forward and reflected waves of high-frequency power) generated by the high-frequency power P generated in the upper chamber 1A and the high-frequency voltage V, high-frequency current I, high-frequency phase P, and impedance Z of the harmonics are converted into electrical data. Detected as Of these, traveling waves and reflected waves of high frequency power are used as trace data. The high-frequency voltage V, high-frequency current I, high-frequency phase P, and impedance Z of the harmonic are VI probe data. Between the high-frequency power supply 7 and the wattmeter 7B, an integrating unit 7b for integrating the application time of the high-frequency power is connected. The application integration time of the high-frequency power detected by the integration unit 7b is also used as trace data. Here, the cumulative application time is obtained by integrating the time for applying high-frequency power each time the wafer W is processed. The integration unit 7b resets the integration time of the application of the high-frequency power to zero every time the processing unit 100 is maintained. Therefore, 'the integration time of high-frequency power applied here is the integration time of application until the next maintenance. The above-mentioned maintenance includes, for example, wet cleaning for removing by-products (for example, particles) in the processing apparatus 100 generated by etching, and replacement of consumables and measuring instruments. In the second embodiment, the cumulative application time is reset to zero each time the inkjet cleaning is performed. Next, a block diagram of the multivariate analyzer 50 according to the second embodiment is shown in FIG. In the second embodiment, operation data detected from each measuring instrument is divided into optical data, trace data, and VI probe data for use. As the optical data, for example, the emission spectrum intensity の in the wavelength range of 200 to 950 nm detected from the optical measuring instrument 20 described above is used. The trace data includes the temperatures (upper electrode temperature τ, wall surface temperature τ 2 , lower electrode temperature τ 2) in the processing chamber 1 described in the first embodiment.
Τ3), バックサイ ドガスの圧力, 整合器 7 Αの出力側の高周波電圧 (R F電圧) V p pのデータに,さらに次のデータを加えて用いる。 すなわち処理ガスである C 5 F 8ガスと A rガスのガス流量, ノくッ クサイ ドガスの流量, A P Cバルブ 1 Dによる A P C開度, 静電チ
ャック 8の印加電流及び印加電圧, 整合器 7 Aにおける可変コンデ ンサ C 1 , C 2のポジション, 整合器 7 Aにおける高周波電力供給 ラインと接地間の電圧 V d c , 高周波電力の進行波及び反射波のデ ータ,高周波電力の印加積算時間を 卜レースデータに加える。なお, バックサイ ドガスの圧力, 流量としては, それぞれ例えばウェハ W のセンタとェッジにおける流量を用いる。 T 3), a pressure of Bakkusai Dogasu, the data matching unit 7 the output side of the high-frequency voltage of Alpha (RF voltage) V pp, used in addition the following data. That gas flow rate of C 5 F 8 gas and A r gas is a process gas, Noku' Qusay Dogasu flow, APC opening by the APC valve 1 D, electrostatic Ji The applied current and applied voltage of the jack 8, the positions of the variable capacitors C 1 and C 2 in the matching device 7 A, the voltage V dc between the high-frequency power supply line and the ground in the matching device 7 A, the traveling wave and reflected wave of the high-frequency power Add the data and the cumulative application time of high-frequency power to the trace data. The backside gas pressure and flow rate are, for example, the flow rates at the center and edge of the wafer W, respectively.
V I プローブデータと しては, 高調波の高周波電圧 V , 高周波電 流 I , 高周波位相 P , インピーダンス Zを用いる。 プロセス特性デ ータとしては, ウェハ Wの削れ量を用いる。 具体的にはウェハ Wの ウェハ Wの削れ量として, ウェハ W表面に例えば C V D (化学気相 成長法) により形成された C V D酸化膜をエッチング処理した際の エッチングレート (A Z m i n ) のデータを用いる。 第 2の実施形態における多変量解析装置 5 0では, 上記運転デー タのうち例えば光学データ等を説明変数とし, 処理結果データと し てプロセス特性データの 1 つであるウェハ Wのエッチングレ一トを 被説明変量 (目的変量) として, 上述した第 1 の実施形態で説明し た回帰式 (①の関係式) を例えば P L S法用の多変量解析プログラ 厶を用いて求める。 そして, 求めた回帰式に運転データを入力して ウェハ Wのエッチングレートを予測する。 第 2の実施形態における多変量解析処理部 5 4では, ①の関係式 (回帰式) の算出等の多変量解析を行う前に, 運転データ及び処理 結果データに対して前処理を行うようになっている。 前処理として は例え ば O S C ( Orthogonal Signal Correction ) , M S C
( Multiplicative Signal Correction) , S N V (Standard Normal Variate Transformation) のいずれかを選択的に行うことができる ようになつている。 上記 O S Cによる前処理は一般的には, 目的変数 Yに関係ない成 分(Yと垂直成分)を説明変数 Xから取り除く前処理である。なお, 上記 O S Cによる前処理についての詳細は例えば Wold,et al., (1998a) , orthogonal Signal Correction of Near-Infrared Spectra, Chemometrics and Intelligent Laboratory Systems , 44 , 175-185. に掲載されている。 上記 S N Vによる前処理は一般的には, サンプル (ここではゥェ ハ Wごとの運転データ及び処理結果データ) のばらつきの影響を校 正するためにサンプル毎にデータ方向に基準化を行う前処理である。 具体的には上記 S N Vによる前処理は例えば各サンプルを標準偏差 で基準化することにより補正を行う。 なお, 上記 S N Vによる前処 理についての詳細は例えば Barnes,et al.,(1989),Standard Normal Variate Transformation and De-trending on Near-infrared Diffuse Reflectance Spectra, Applied Spectroscopy, 43, 772-777.に 掲載されている。 上記 M S Cによる前処理は一般的には, サンプルから理想スぺク トルを得ることにより, サンプル間の分散がよリ小さくなるよう補 正する前処理である。 具体的には上記 M S Cによる前処理は例えば サンプル毎に波長方向に平均を算出 (理想スぺク トル) し, 各サン プルに対して理想スぺク トルとの線形回帰直線を算出する。 線形回
帰直線から得られる傾きと切片より, 各サンプルのデータを補正す る。 なお, 上記 M S Cによる前処理についての詳細は例えば Gelad,et al.,( 1985), Linearization and Scatter-inirared Reflactance Spectra of Meat, Applied Spectroscopy,3, 491-500.に 記載されている。 次に, 第 2の処理装置 1 0 0の動作について説明する。 処理装置 1 0 0の運転を開始すると, 光学計測器 2 0などの各測定器から間 欠的に検出された検出データは, 多変量解析装置 5 0へ逐次入力さ れる。 ここで, エッチング処理の際の条件は, 処理室内の圧力を 5 0 m T , 下部電極に印加する高周波電力を 1 5 0 0 W , 処理ガスを C 5 F 8と 0 2と A r との混合ガス, バックサイ ドガスを H eガスと した。 続いて, それぞれの運転データの各ウェハ W毎の平均値を多変量 解析処理部 5 4を介して求める。 次いで, 各ウェハ W毎のそれぞれ の運転データの平均値を運転データ記憶部 5 1 で記憶し, あるいは そのまま次の処理に備える。 そして, 処理後のウェハ Wを取り出し, このウェハ Wの C V D酸 化膜のエッチングレートを入出力装置 6 0から多変量解析装置 5 0 へ入力し, この入力値をプロセス特性データとして処理結果データ 記憶部 5 2で記憶する。 そして前処理を行わず又は前処理を行って から P L S法による回帰式 (①の関係式) を求める。 ここで, ウェハ Wの処理枚数と測定したエッチングレー卜との関
係を図 1 3に示す。 図 1 3において WC (ウエッ トク リ一二ングサ ィクル) 1 は 1 回目の処理装置 1 00のゥエツ トクリーニングを行 うまでの区間, WC 2は 1 回目のゥエツ トクリ一ニングを行ってか ら 2回目のゥエツ トクリーニングを行うまでの区間, W C 3は 2回 目のウエッ トクリーニングを行ってから 3回目のゥエツ トクリー二 ングを行うまでの区間, W C 4は 3回目のゥエツ トクリーニングを 行ってから 4回目のウエッ トクリーニングを行うまでの区間である。 上記運転データ及び処理結果データのうち, ウエッ トクリーニン グサイクル WC 1 ( 1枚目〜 1 6枚目) のデータに基づいて P L S 法により回帰式 (①の関係式) の回帰行列 B及び残差行列 Eを求め た。 そして, この式を用いて上記 WC 1及び上記 WC 1 以外の WC 2 ( 1 7枚目〜 3 6枚目), WC 3 ( 3 7枚目〜 47枚目), WC 4 (48枚目〜 52枚目) における処理結果データであるウェハ Wの エッチングレートのデータを予測した。 ウェハ Wのエッチングレー卜の予測結果を口印のグラフにしたも のを図 1 4〜図 29の各図 ( a ) に示す。 これらの各図 ( a ) のう ち, ◊印で示すグラフはウェハ Wのエッチングレー卜のデータの実 測値である。 図 1 4〜図 29の各図 ( a ) の実験結果については, それぞれ予測誤差 ( P E ; Prediction Error) を算出した。 この予 測誤差 P Eは, 各ウェハのデータの実測値から予測値を引算して 2 乗したものの総和を求め, これを処理したウェハ枚数で割算してそ の平方根を求めたものである。 予測誤差 P Eは 0が最もよく, この 値が小さいほど実測値と予測値との誤差が少ないことを示す。
図 1 4〜図 29の各図 ( a ) に示す予測値と実測値の関係をプロ ッ トして得られた相関関係をそれぞれ図 1 4〜図 29の各図 ( b) に示す。 図 1 4〜図 29の各図 ( b) の実験結果については, 相関 係数 Rを求めた。 相関係数 Rは 1が最もよく, この値が大きいほど より相関があることを示す。 従って, 総合的には上記予測誤差 P E が 0に近く, かつ相関係数 Rが 1 に近いほど, 予測精度がよい。 なお, 上記実験結果については WC 1 〜WC 4とも同じエツチン グ条件でエッチングしているため, 予測誤差 P E, 相関係数を求め る際には, WC 1 〜WC 4までのデータを使用している。 但し, V I プローブを説明変量としたエッチングレー卜の実験結果(図 1 7 , 図 2 1 , 図 25, 図 29) については, 実験上の理由により WC 4 だけ他の WC 1 〜WC 3とはエッチング条件が異なっているため, 図 1 7 , 図 2 1 , 図 25, 図 29の実験結果における予測誤差 P E, 相関係数を求める際には, WC 4のデータを除いた WC 1 〜WC 3 までのデータを使用している。 図 1 4〜図 1 7は, 前処理を行わずに P L S法による多変量解析 を行った場合の実験結果を示す。 図 1 4は, 上記光学データを説明 変量とした場合であり, 図 1 5は上記光学データ及び上記トレース データを説明変量とした場合である。 図 1 6は上記トレースデータ を説明変量とした場合であり, 図 1 7は上記 V I プローブデータを 説明変量とした場合である。 図 1 8〜図 2 1 は, 前処理として上述した O S Cを行ってから P L S法による多変量解析を行った場合の実験結果を示す。図 1 8は,
上記光学データを説明変量とした場合であり, 図 1 9は上記光学デ ータ及び上記トレースデータを説明変量とした場合である。 図 2 0 は上記トレースデータを説明変量と した場合であり, 図 2 1 は上記As the VI probe data, the high-frequency voltage V, high-frequency current I, high-frequency phase P, and impedance Z of the harmonic are used. As the process characteristic data, the scraping amount of the wafer W is used. Specifically, as the abrasion amount of the wafer W, the data of the etching rate (AZ min) when the CVD oxide film formed on the surface of the wafer W by, for example, CVD (chemical vapor deposition) is used. . In the multivariate analyzer 50 according to the second embodiment, for example, optical data or the like is used as an explanatory variable in the above operation data, and the etching rate of the wafer W as one of the process characteristic data is used as the processing result data. Is used as the explained variable (target variable), the regression equation (the relational expression of ①) described in the first embodiment is obtained using, for example, a multivariate analysis program for the PLS method. Then, the operation data is input to the obtained regression equation, and the etching rate of the wafer W is predicted. The multivariate analysis processing unit 54 in the second embodiment performs pre-processing on operation data and processing result data before performing multivariate analysis such as calculation of the relational expression (regression equation) in ①. Has become. As preprocessing, for example, OSC (Orthogonal Signal Correction), MSC (Multiplicative Signal Correction) or SNV (Standard Normal Variate Transformation). In general, the OSC preprocessing is a preprocessing that removes components (Y and vertical components) unrelated to the objective variable Y from the explanatory variable X. The details of the preprocessing by the OSC are described in, for example, Wold, et al., (1998a), orthogonal Signal Correction of Near-Infrared Spectra, Chemometrics and Intelligent Laboratory Systems, 44, 175-185. The above preprocessing by SNV generally involves preprocessing in which data is normalized in the data direction for each sample in order to calibrate the effects of variations in the samples (here, operation data and processing result data for each wafer W). It is. Specifically, in the pre-processing by the SNV, for example, correction is performed by standardizing each sample by a standard deviation. The details of the preprocessing by SNV are described in, for example, Barnes, et al., (1989), Standard Normal Variate Transformation and De-trending on Near-infrared Diffuse Reflectance Spectra, Applied Spectroscopy, 43, 772-777. Have been. In general, the MSC preprocessing is a preprocessing that obtains the ideal spectrum from the sample and corrects the variance between the samples to be smaller. Specifically, in the preprocessing using the MSC, for example, the average is calculated in the wavelength direction for each sample (ideal spectrum), and a linear regression line with the ideal spectrum is calculated for each sample. Linear times Correct the data of each sample from the slope and intercept obtained from the retrace line. The details of the MSC pretreatment are described in, for example, Gelad, et al., (1985), Linearization and Scatter-inirared Reflactance Spectra of Meat, Applied Spectroscopy, 3, 491-500. Next, the operation of the second processing device 100 will be described. When the operation of the processing device 100 is started, the intermittently detected data from each measuring device such as the optical measuring device 20 is sequentially input to the multivariate analysis device 50. Here, the conditions of the etching process, pressure 5 0 m T in the treatment chamber, the high-frequency power 1 5 0 0 W applied to the lower electrode, the processing gas and C 5 F 8 0 2 and the A r He gas was used as the mixed gas and backside gas. Subsequently, the average value of each operation data for each wafer W is obtained via the multivariate analysis processing unit 54. Next, the average value of the respective operation data for each wafer W is stored in the operation data storage unit 51, or prepared for the next processing as it is. Then, the processed wafer W is taken out, the etching rate of the CVD oxide film of the wafer W is input from the input / output device 60 to the multivariate analyzer 50, and the input value is stored as process characteristic data as processing characteristic data. Remember in part 52. Then, the regression equation (relational expression of ①) is obtained by the PLS method without performing the preprocessing or after performing the preprocessing. Here, the relationship between the number of processed wafers W and the measured etching rate is shown. Figure 13 shows the relationship. In Fig. 13, WC (Wet Cleaning Cycle) 1 is the section until the first cleaning of the processing unit 100 is performed, and WC 2 is the section after the first cleaning of the jet. WC3 is the section from the second wet cleaning to the third wet cleaning, WC4 is the section from the second wet cleaning to the third wet cleaning. This is the section from to the fourth wet cleaning. Of the above operation data and processing result data, the regression matrix B and the residual matrix E of the regression equation (the relational expression of ①) were obtained by the PLS method based on the data of the wet cleaning cycle WC1 (1st to 16th sheets). Was asked. Then, using this formula, WC1 above and WC2 other than WC1 (17th to 36th), WC3 (37th to 47th), WC4 (48th to The data on the etching rate of wafer W, which is the processing result data for the 52nd wafer, was predicted. Figures 14 (a) to 14 (a) show the results of the etching rate prediction of the wafer W in the form of a stamped graph. In each of these figures (a), the graphs indicated by the triangles are the measured values of the wafer W etching rate data. For the experimental results in each figure (a) in Figs. 14 to 29, the prediction error (PE) was calculated. This prediction error PE is obtained by subtracting the prediction value from the actual measurement value of each wafer and calculating the sum of the squared values, dividing the sum by the number of processed wafers, and calculating the square root. . The prediction error PE is best at 0, and the smaller this value is, the smaller the error between the measured value and the predicted value is. The correlation obtained by plotting the relationship between the predicted value and the measured value shown in each figure (a) in Figs. 14 to 29 is shown in each figure (b) in Figs. 14 to 29, respectively. The correlation coefficient R was determined for the experimental results shown in Figs. 14 to 29 (b). A correlation coefficient R of 1 is best, and a larger value indicates a higher correlation. Therefore, overall, the prediction accuracy is better when the prediction error PE is closer to 0 and the correlation coefficient R is closer to 1. In the above experimental results, WC1 to WC4 were etched under the same etching conditions. Therefore, when calculating the prediction error PE and correlation coefficient, data from WC1 to WC4 were used. I have. However, the experimental results of the etching rate using the VI probe as an explanatory variable (Fig. 17, Fig. 21, Fig. 25, Fig. 29) show that only WC4 differs from the other WC1 to WC3 for experimental reasons. Since the etching conditions are different, when calculating the prediction error PE and the correlation coefficient in the experimental results in Figs. 17, 21, 25, and 29, WC1 to WC3 excluding the WC4 data were used. Use up to data. Figures 14 to 17 show the experimental results when multivariate analysis was performed by the PLS method without preprocessing. Fig. 14 shows the case where the above-mentioned optical data is used as an explanatory variable, and Fig. 15 shows the case where the above-mentioned optical data and the above-mentioned trace data are used as an explanatory variable. Fig. 16 shows the case where the above trace data was used as an explanatory variable, and Fig. 17 shows the case where the above VI probe data was used as an explanatory variable. Figures 18 to 21 show the experimental results when multivariate analysis was performed by the PLS method after performing the OSC described above as preprocessing. Figure 18 shows FIG. 19 shows a case where the optical data and the trace data are used as explanatory variables. Figure 20 shows the case where the above trace data was used as the explanatory variable.
V I プローブデータを説明変量とした場合である。 図 2 2〜図 2 5は, 前処理と して上述した S N Vを行ってから P L S法による多変量解析を行った場合の実験結果を示す。図 2 2は, 上記光学データを説明変量とした場合であり, 図 2 3は上記光学デ ータ及び上記トレースデータを説明変量とした場合である。 図 2 4 は上記トレースデータを説明変量とした場合であり, 図 2 5は上記This is the case where the VI probe data is used as an explanatory variable. Figures 22 to 25 show the experimental results when multivariate analysis was performed by the PLS method after performing the above-mentioned SNV as preprocessing. Fig. 22 shows the case where the above optical data is used as an explanatory variable, and Fig. 23 shows the case where the above optical data and the above trace data are used as an explanatory variable. Figure 24 shows the case where the above trace data was used as an explanatory variable.
V I プローブデータを説明変量とした場合である。 図 2 6〜図 2 9は, 前処理と して上述した M S Cを行ってから P L S法による多変量解析を行った場合の実験結果を示す。図 2 6は, 上記光学データを説明変量とした場合であり, 図 2 7は上記光学デ ータ及び上記卜レースデータを説明変量とした場合である。 図 2 8 は上記トレースデータを説明変量と した場合であり, 図 2 9は上記This is the case where the VI probe data is used as an explanatory variable. Figures 26 to 29 show the experimental results when multivariate analysis was performed by the PLS method after the above-mentioned MSC was performed as preprocessing. Fig. 26 shows the case where the above optical data is used as an explanatory variable, and Fig. 27 shows the case where the above optical data and the above trace data are used as an explanatory variable. Figure 28 shows the case where the above trace data was used as the explanatory variable.
V I プローブデータを説明変量とした場合である。 上述した図 1 4〜図 2 9の各図 ( a ) における実験結果から予測 誤差 P Eを求めて表にまとめたものを図 3 0に示し, 図 1 4〜図 2 9の各図 ( b ) における実験結果から相関係数 Rを求めて表にまと めたものを図 3 1 に示す。 多変量解析に使用したデータの観点から大局的に見ると, 図 3 0 によれば予測誤差 P Eは光学データを用いた場合が最も大きく, 光
学データと 卜レースデータを用いた場合, V I プローブデータを用 いた場合, 卜レースデータを用いた場合の順に小さくなリ, トレー スデータを用いた場合が最も小さい。 さらに図 3 1によれば相関係 数 Rは光学データを用いた場合が最も小さく, 光学データと 卜レー スデータを用いた場合, V I プローブデータを用いた場合, トレー スデータを用いた場合の順に大きくなリ, 卜レースデータを用いた 場合が最も大きい。 従って,多変量解析に使用したデータの観点から大局的に見ると, 光学データを用いた場合, 光学データと トレースデータを用いた場 合, V I プローブデータを用いた場合, トレースデータを用いた場 合の順に予測精度が向上しており, トレースデータを用いた場合が 最も予測精度がよく, 予測するのに有効であることがわかる。 予測精度が最もよかった 卜レースデータを用いた場合について, さらに前処理の有無や種類の観点から大局的に見ると, 図 3 0によ れば予測誤差 P Eは O S Cの場合を除けば, 前処理をしない場合よ リも前処理をした場合の方が小さい。 また予測誤差 P Eは, 前処理 をした場合には O S C , S N V , M S Cの順に小さくなり, 前処理 として M S Cをした場合が最も小さい。 さらに図 3 1 によれば相関 係数 Rは O S Cの場合を除けば, 前処理をしない場合よりも前処理 をした場合の方が大きい。 また相関係数 Rは, 前処理をした場合に は O S C , S N V , M S Cの順に大きくなリ, 前処理として M S C をした場合が最も大きい。 従って, 予測精度が最もよかった トレースデータを用いた場合に
ついて, さらに前処理の有無や種類の観点から大局的に見ると, 前 処理として O S Cをした場合を除けば, 前処理をしない場合よリも 前処理をした場合の方が予測精度がよく,有効であることがわかる。 さらに前処理をした場合には O S C , S N V , M S Cの順に予測精 度がよくなリ, 前処理として M S Cをした場合が最も予測精度がよ < , 有効であることがわかる。 以上により, ウェハ Wのエッチングレートを予測するには, 説明 変量としてトレースデータを用いて多変量解析を行い, さらに多変 量解析に先立って前処理として M S Cを行った場合が最も予測精度 がよくなリ, 最も有効であることがわかる。 ここで, 上記トレースデータのうちのどの種類のデータが最も予 測結果に影響しているかを検討する。 卜レースデータにおける各種 類のデータ について予測結果への影響変数 V I P ( variable influence on projection) を求めて表にしたものを図 3 2に示す。 影響変数 V I Pは目的変数 Yを予想したときの各説明変数 X毎の影 響の大きさを示すものである。 例えば aをコンポーネント, Rを口 —ディングべク トル, Wを重みべク トル, R 2 yを yの相関係数と すると, 上記影響変数 V I Pは (W [ a ] の二乗) X ( R 2 y [ a ] ) の各コンポーネン卜の総和を規格化したものとして表される。 図 3 2によれば, 影響変数 V I Pは整合器 7 Aの出力側の高周波 電圧 (R F電圧) V p pが最も大きく, 次いで高周波電力の印加積 算時間が大きい。 従って, 高周波電圧 V p pと高周波電力の印加積 算時間が予測結果に大きく影響していることがわかる。
そこで, 高周波電圧 V p p , 高周波電力の印加積算時間をトレー スデータから除いて多変量解析を行ってウェハ Wのエッチングレー 卜を予測してみると, 図 3 3〜図 3 5に示すような実験結果が得ら れた。 図 3 3〜図 35の各 ( a ) にはウェハ Wのエッチングレート の予測結果を口印のグラフで示す。 これらの各図 ( a ) のうち, ◊ 印で示すグラフはウェハ Wのエッチングレー卜のデ一タの実測値で ある。 図 3 3〜図 35の各図 ( a ) に示す予測値と実測値の関係を プロッ トして得られた相関関係をそれぞれ図 3 3〜図 3 5の各図 ( b ) に示す。 図 3 3はトレースデータから高周波電圧 V p pのみを除いたデー タを用いた場合, 図 34はトレースデータから高周波電力の印加積 算時間のみを除いたデータを用いた場合, 図 3 5はトレースデータ から高周波電圧 V p pと高周波電力の印加積算時間を除いたデータ を用いた場合である。 図 33〜図 3 5の各図 ( a ) の実験結果についてそれぞれ予測誤 差 P Eを算出するとそれぞれ, 49. 7 A/m i n , 5 5. 1 k/ m i η , 6 6. 3 AZm i nとなった。 ここで, 上述した トレース データのすべてのデータを用いた場合 (図 1 6 ( a )) の予測誤差 4 3. 7 A/m i nと比較すると, 図 3 3 ( a ) 〜図 3 5 ( a ) のしヽ ずれの場合も図 1 6 ( a ) の場合よりも予測誤差が大きくなつてい ることがわかる。 次に図 33〜図 35の各図 ( b) の実験結果についてそれぞれ相
関係数 Rを算出するとそれぞれ, 0. 8 2, 0. 8 3, 0. 57と なった。 ここで, 上述した トレースデータのすべてのデータを用い た場合(図 1 6 ( b))の相関係数 0. 90と比較すると, 図 33 ( b) 〜図 3 5 ( b ) のいずれの場合も図 1 6 ( b) の場合よリも相関係 数が小さくなっていることがわかる。 従って, 高周波電圧 V p pのみを除いた トレースデータを用いた 場合 (図 3 3 ), 高周波電力の印加積算時間のみを除いた トレースデ 一夕を用いた場合(図 34), 高周波電圧 V p pと高周波電力の印加 積算時間を除いた トレースデータを用いた場合 (図 3 6) のいずれ の場合にも, トレースデータのすべてのデータを用いた場合よリ予 測精度が低下することが確認できた。 しかも高周波電圧 V p pと高 周波電力の印加積算時間を除いた場合が最も予測精度が悪くなるこ とも確認できた。 従って, ウェハ Wのエッチングレートを予測する場合には, トレ ースデータとして少なく とも高周波電圧 V p pを有することが有効 であり, さらに高周波電力の印加積算時間を有することがより好ま しい。 以上説明したように第 2の実施形態によれば, 1 つのウエッ トク リーニングサイクル (WC) のウェハのような少数のテス トウェハ を処理した時の運転データ及び処理結果データ (例えばプロセス特 性データ) を収集し, これらの収集データ群 (運転データ及び処理 結果データ) に基づいて多変量解析を行い, この多変量解析を介し て運転データと処理結果データの相関関係を求め, この相関関係に
基づいてウェハ Wの削れ量 (例えばエッチングレート) のようなゥ ェハ Wの処理結果 (例えばプロセス特性) を予測するため, 実際に ウェハ Wを処理している時には, ウェハ Wの運転データを求めるだ けでウェハ Wの削れ量 (例えばエッチングレート) をプロセス特性 として高精度に予測することができる。 また, 多変量解析を行って 運転データと処理結果データの相関関係を求める際に P L S法を使 用したため, 回帰式①を短時間で効率良く求めることができる。 従って, 第 2の実施形態によっても, 従来のように多くのテス ト ウェハを作製したり, 処理装置 1 0を用いて多くのテス トウェハを 処理し, それぞれの処理結果を測定する必要がなく, テス トウェハ の作製及び処理結果の測定に多くの工数と時間を割く必要がない。 しかも従来の予測方法よリも高精度に処理結果を予測することがで さる。 さらに, 第 2の実施形態においては, 運転データと して高周波電 圧 V p p , 高周波電力の印加積算時間を含むトレースデータ, 光学 データ, V I プローブデータなどプロセス特性データに影響し易い データを第 1 の実施形態で用いたデータにさらに追加することによ リ,プロセス特性データの予測精度をより向上させることができる。 特にプロセス特性データとしてのウェハ Wの削れ量 (例えばェッ チングレート) に影響し易い高周波電圧 V p p, 高周波電力の印加 積算時間を含むトレースデータを使用することにより, ウェハ Wの 削れ量の予測精度をより向上させることができる。
また, 多変量解析を行うのに先立って所定の前処理を行うことに より, よリー層プロセス特性データの予測精度を向上させることが できる。 また, プロセス特性データとしてウェハ Wのエッチングレートを 採用したため, エッチングによるウェハ Wのエッチングの善し悪し を高精度で予測することができる。 上述したように光学データや V I プローブデータを運転データと して用いても予測精度は向上する。 ところが, 例えば図 1 3に示す ゥエツ トクリーニングサイクルなどのメンテナンスを行った前後の ようにプロセス特性データ (例えばエッチングレート) の傾向が大 きく変化するような場合には, 予測精度が低下する場合がある。 例 えば図 1 4 , 図 1 7では多変量解析による回帰式 (モデル) を作成 したウエッ トク リーニングサイクル (W C 1 ) 以外のウエッ トクリ 一二ングサイクル(W C 3 )では予測精度が低下している。この点, 高周波電圧 V p p , 高周波電力の印加積算時間を含むトレースデー タを運転データと して用いれば, 図 1 6に示すようにすベてのゥェ ッ トクリーニングサイクル (W C 2〜W C 4 ) において予測精度を 向上できる。 特に, トレースデータの高周波電力の印加積算時間については, 例えばゥエツ トクリーニングなどのメンテナンスを行うごとに印加 積算時間をゼロにすることから, ウエッ トク リーニングサイクルご との印加積算時間のデータを得ることができる。 このため高周波電 力の印加積算時間を運転データとして用いると, ゥエツ トクリー二
ングを行うことによって傾向が変るような処理結果データであって も高い精度で予測をすることができる。 このように, 本発明によれば, 少数の試料を処理して得られる少 数の運転データ及びプロセス特性データを収集するだけでプロセス 特性の予測式を求めることができ, その後は被処理体を処理した時 の運転データを予測式に当てはめるだけでプロセス特性を簡単且つ 高精度に予測することができる処理結果の予測方法を提供すること ができる。 以上, 本発明の好適な実施の一形態について, 添付図面を参照し ながら説明したが,本発明はかかる構成に限定されるものではない。 特許請求の範囲に記載された技術的思想の範疇において, 当業者で あれば, 各種の変更例および修正例に想到し得るものであり, それ ら変更例および修正例についても本発明の技術的範囲に属するもの と了解される。 例えば上記第 2の実施形態では処理結果データと してプロセス特 性データと して用い, このプロセス特性データとしてウェハ Wの削 れ量 (例えばエッチングレート) を用いたが, その他のプロセス特 性データとしてエッチングバターンの線幅やテーパ角度等のエッチ ング特性を示すデータを用いてもよい。 また, 上記第 1 及び第 2の実施形態における処理結果データとし ては, 処理室内の副生成物の膜厚, フォーカスリング 1 0 a等の部 品の消耗量などの装置状態に関する装置状態データを用いてもよい,
副生成物の膜厚, フォーカスリング 1 0 a等の部品の消耗量を装置 状態データとして用いることにより, 処理装置 1 0のクリーニング 時期やフォーカスリング 1 0 a等の部品の交換時期を予測すること もできる。 また, 上記第 1及び第 2の実施形態ではウェハ Wをエッチング処 理する場合について説明したが, エッチング処理以外の成膜処理等 の処理装置にも本発明を適用することができる。 また, 被処理体の ウェハに制限されるものではない。 また, 上記第 1及び第 2の実施形態では多変量解析を行う際に P L S法を用いて回帰式①を求めたが, P L S法以外の他の従来公知 の数値計算手法 (例えば, べキ乗法等) を用いて固有値及びその固 有べク トルを求めても良い。 産業上の利用の可能性 本発明は, 例えば半導体製造装置で処理するウェハなどの被処理 体や装置状態の処理結果を予測する方法および処理装置に適用可能 であり, 特にプラズマエッチングを行うプラズマ処理装置およびこ のような装置における処理結果の予測方法に適用可能である。
In this case, VI probe data is used as an explanatory variable. Fig. 30 shows the prediction errors PE obtained from the experimental results in Figs. 14 to 29 (a) and summarized in a table, and Figs. 14 to 29 (b) Figure 31 shows the correlation coefficient R obtained from the experimental results in Table 1 and summarized in a table. From a global perspective from the viewpoint of the data used for multivariate analysis, according to Fig. 30, the prediction error PE is largest when optical data is used, In the case of using scientific data and trace data, in the case of using VI probe data, and in the case of using trace data, the size becomes smaller in the order, and the case of using trace data is the smallest. Furthermore, according to Fig. 31, the phase relationship number R is the smallest when optical data is used, and increases in the order of using optical data and trace data, using VI probe data, and using trace data. The largest is when trace data is used. Therefore, from the perspective of the data used for the multivariate analysis, from a global perspective, when optical data is used, optical data and trace data are used, VI probe data is used, and trace data is used. The prediction accuracy improves in the order of the cases, and it can be seen that the use of trace data has the best prediction accuracy and is effective for prediction. In the case of using the trace data with the best prediction accuracy, from the perspective of the presence or absence of preprocessing and the type, the prediction error PE is shown in Fig. 30 except for the case of OSC. Preprocessing is smaller than preprocessing. The prediction error PE decreases in the order of OSC, SNV, and MSC when preprocessing is performed, and is smallest when MSC is performed as preprocessing. Furthermore, according to Fig. 31, except for the case of OSC, the correlation coefficient R is larger in the case of preprocessing than in the case of no preprocessing. The correlation coefficient R increases in the order of OSC, SNV, and MSC when preprocessing is performed, and is largest when MSC is performed as preprocessing. Therefore, when using the trace data with the best prediction accuracy, From a global perspective in terms of the presence or absence and type of preprocessing, the prediction accuracy is better when preprocessing is performed than when no preprocessing is performed, except when OSC is performed as preprocessing. It turns out to be effective. Furthermore, when the preprocessing is performed, the prediction accuracy is improved in the order of OSC, SNV, and MSC, and the prediction accuracy is more effective when MSC is performed as the preprocessing. As described above, in order to predict the etching rate of wafer W, multivariate analysis was performed using trace data as explanatory variables, and MSC was performed as preprocessing prior to multivariate analysis for the best prediction accuracy. Nari, it turns out to be the most effective. Here, we examine which type of the above trace data has the greatest effect on the prediction results. Fig. 32 shows a table of the variable influence on projection (VIP) that affects the prediction results for various types of data in the trace data. The influence variable VIP indicates the magnitude of the influence of each explanatory variable X when the objective variable Y is predicted. For example, if a is a component, R is a mouth vector, W is a weight vector, and R 2 y is a correlation coefficient of y, the above-mentioned influence variable VIP is (W [a] squared) X (R 2 y [a]) is expressed as a standardized sum of each component. According to Fig. 32, the effect variable VIP has the largest high-frequency voltage (RF voltage) Vpp on the output side of the matching unit 7A, followed by the long integration time of high-frequency power application. Therefore, it can be seen that the application time of the high-frequency voltage Vpp and the high-frequency power greatly affects the prediction results. Therefore, when the high-frequency voltage V pp and the integrated application time of high-frequency power are excluded from the trace data and multivariate analysis is performed to estimate the etching rate of the wafer W, the experiments shown in Figs. The result was obtained. In each of (a) of FIGS. 33 to 35, the predicted result of the etching rate of the wafer W is shown by a graph with a seal. In each of these figures (a), the graphs indicated by the triangles are the actual measured values of the etching rate of the wafer W. The correlation obtained by plotting the relationship between the predicted value and the measured value shown in each figure (a) in FIGS. 33 to 35 is shown in each figure (b) in FIGS. 33 to 35, respectively. Figure 33 shows the case where only high-frequency voltage Vpp was removed from the trace data. Figure 34 shows the case where only the high-frequency power application integration time was used from the trace data. Figure 35 shows the trace. In this case, data excluding the high-frequency voltage V pp and the integration time of high-frequency power are used. When the prediction errors PE were calculated for the experimental results in Figs. 33 to 35 (a), they were 49.7 A / min, 55.1 k / mi η, and 66.3 AZmin, respectively. Was. Here, when compared with the prediction error of 43.7 A / min when all the trace data described above are used (Fig. 16 (a)), Fig. 33 (a) to Fig. 35 (a) It can be seen that the prediction error is larger in the case of the deviation than in the case of Fig. 16 (a). Next, the experimental results in each figure (b) in Figs. When the relationship number R was calculated, they were 0.82, 0.83, and 0.57, respectively. Here, in comparison with the correlation coefficient 0.90 when all the trace data described above are used (Fig. 16 (b)), any of Figs. 33 (b) to 35 (b) It can be seen that the correlation number is smaller than in Fig. 16 (b). Therefore, when the trace data excluding only the high-frequency voltage V pp is used (Fig. 33), and when the trace data excluding only the integration time of the high-frequency power is used (Fig. 34), the high-frequency voltage V pp It was confirmed that the prediction accuracy was lower in all cases where the trace data excluding the power application integration time was used (Fig. 36) than in the case where all the trace data was used. In addition, it was confirmed that the prediction accuracy was the worst when the high-frequency voltage Vpp and the integration time of the high-frequency power were excluded. Therefore, when predicting the etching rate of the wafer W, it is effective to have at least the high-frequency voltage Vpp as the trace data, and it is more preferable to have the integration time of high-frequency power application. As described above, according to the second embodiment, the operation data and the processing result data (for example, process characteristic data) when a small number of test wafers such as wafers in one wet cleaning cycle (WC) are processed. Are collected, a multivariate analysis is performed based on the collected data group (operating data and processing result data), and a correlation between the operating data and the processing result data is obtained through the multivariate analysis. To predict the processing result (eg, process characteristics) of wafer W, such as the amount of wafer W abrasion (eg, etching rate), based on the actual processing of wafer W, the operation data of wafer W is obtained. By itself, the amount of wafer W scraping (eg, etching rate) can be predicted with high accuracy as process characteristics. In addition, since the PLS method was used to determine the correlation between the operation data and the processing result data by performing multivariate analysis, the regression equation 効率 can be obtained efficiently in a short time. Therefore, according to the second embodiment, it is not necessary to fabricate many test wafers as in the past or to process many test wafers using the processing apparatus 10 and measure each processing result. There is no need to spend much man-hours and time to make test wafers and measure processing results. Moreover, the processing result can be predicted with higher accuracy than the conventional prediction method. Further, in the second embodiment, as the operation data, trace data including high-frequency voltage V pp, integration time of high-frequency power application, optical data, VI probe data, and other data that easily affects process characteristic data are stored in the first data. By further adding to the data used in the embodiment, the prediction accuracy of the process characteristic data can be further improved. In particular, by using trace data including the high-frequency voltage V pp and the integration time of high-frequency power, which are likely to affect the amount of wafer W abrasion (eg, etching rate) as process characteristic data, the amount of wafer W abrasion can be estimated. Accuracy can be further improved. In addition, by performing a predetermined preprocessing before performing the multivariate analysis, the prediction accuracy of the Lie process characteristic data can be improved. In addition, since the etching rate of the wafer W is used as the process characteristic data, the quality of the etching of the wafer W by the etching can be predicted with high accuracy. As described above, even if optical data and VI probe data are used as operation data, the prediction accuracy improves. However, if the tendency of the process characteristic data (for example, etching rate) changes significantly before and after maintenance such as the cleaning cycle shown in Fig. 13, the prediction accuracy may decrease. is there. For example, in Fig. 14 and Fig. 17, the prediction accuracy decreases in the wet cleaning cycle (WC3) other than the wet cleaning cycle (WC1) in which the regression equation (model) based on the multivariate analysis is created. . In this regard, if the trace data including the high-frequency voltage V pp and the cumulative application time of the high-frequency power is used as the operation data, all the jet cleaning cycles (WC 2 to WC) as shown in Fig. 16 can be obtained. In 4), the prediction accuracy can be improved. In particular, regarding the integration time of high-frequency power applied to trace data, for example, (1) the integration time of application is set to zero each time maintenance such as jet cleaning is performed, so data on the integration time of application in each wet cleaning cycle must be obtained. Can be. Therefore, if the integrated time of high-frequency power application is used as operation data, It is possible to predict with high accuracy even the processing result data whose tendency is changed by performing the training. As described above, according to the present invention, a prediction equation of process characteristics can be obtained only by collecting a small number of operation data and process characteristic data obtained by processing a small number of samples. It is possible to provide a method for predicting a processing result that can easily and accurately predict a process characteristic simply by applying operation data at the time of processing to a prediction formula. As described above, a preferred embodiment of the present invention has been described with reference to the accompanying drawings, but the present invention is not limited to such a configuration. Within the scope of the technical idea described in the appended claims, those skilled in the art will be able to conceive various changes and modifications. It is understood that it belongs to the range. For example, in the second embodiment, the process result data is used as the process characteristic data, and the amount of wafer W abrasion (eg, etching rate) is used as the process characteristic data. For example, data indicating the etching characteristics such as the line width and the taper angle of the etching pattern may be used. Further, as the processing result data in the first and second embodiments, the apparatus state data relating to the apparatus state such as the film thickness of by-products in the processing chamber and the consumption of parts such as the focus ring 10a are used. May be used, By using the thickness of by-products and the consumption of parts such as the focus ring 10a as equipment status data, it is possible to predict the cleaning time of the processing unit 10 and the replacement time of parts such as the focus ring 10a. Can also. In the first and second embodiments, the case where the wafer W is subjected to the etching process is described. However, the present invention can be applied to a processing apparatus such as a film forming process other than the etching process. It is not limited to the wafer to be processed. In the first and second embodiments, the regression equation ① is obtained by using the PLS method when performing the multivariate analysis. However, other known numerical calculation methods other than the PLS method (for example, the power method The eigenvalues and their eigenvectors may be obtained using e.g. INDUSTRIAL APPLICABILITY The present invention is applicable to a method and a processing apparatus for predicting a processing result of an object to be processed such as a wafer to be processed in a semiconductor manufacturing apparatus or an apparatus state. The present invention can be applied to an apparatus and a method of predicting a processing result in such an apparatus.