1.本发明涉及管理
装置、光刻装置、管理方法、以及物品制造方法。
背景技术:
2.日本专利特开no.2009-205641描述了包括迭代学习控制电路的位置控制装置。该位置控制装置包括检测受控制的对象的位置的检测设备、生成通过从目标值减去检测设备的输出而获得的误差的减法设备、包括向其输入误差的滤波器的迭代学习控制电路、以及用于计算受控制的对象的参数变化的计算部件。滤波器的特性根据受控制的对象的参数变化而改变。
3.使用神经网络的控制装置可以通过执行强化学习来决定神经网络的参数值。然而,由于受控制的对象的状态可以随时间改变,因此即使在给定时间最优化的神经网络也不再是最优的,因为受控制的对象的状态此后已改变。因此,控制装置的控制准确度可能由于受控制的对象的状态的改变而劣化。
技术实现要素:
4.本发明提供了在抑制由受控制的对象的状态的改变引起的控制准确度的劣化上有利的技术。
5.本发明的一个方面涉及一种管理装置,并且
所述管理装置包括学习设备,所述学习设备被配置为在从被配置为使用参数值通过强化学习来决定的神经网络对受控制的对象进行控制的控制器对所述受控制的对象的控制结果获得的奖励(reward)不满足预定的标准的情况下,通过强化学习来重新决定所述参数值。
附图说明
6.图1是示出根据实施例的制造系统的配置的框图。
7.图2是例示处理装置的布置的框图。
8.图3是例示图2中所示的处理装置的布置的框图。
9.图4是例示学习序列中的管理装置的操作的流程图。
10.图5是例示实际序列中的管理装置的操作的流程图。
11.图6是例示扫描曝光装置的布置的图。
12.图7是例示实际序列中的扫描曝光装置的操作的流程图;以及
13.图8是用于解释计算奖励的示例的图。
具体实施方式
14.在下文中,将参考附图详细描述实施例。注意,以下实施例不旨在限制要求保护的发明的范围。在实施例中描述了多个特征,但是不限制发明需要所有这样的特征,并且可以适当地组合多个这样的特征。另外,在附图中,对相同或类似的配置给出相同的参考数字,
并且省略其重复描述。
15.图1示出了根据实施例的制造系统ms的配置。制造系统ms可以包括例如处理装置1、控制处理装置1的控制装置2、以及管理处理装置1和控制装置2的管理装置(学习装置)3。处理装置1例如是像制造装置、检查装置、监视装置等那样执行对处理目标对象的处理的装置。处理的概念可以包括处理目标对象的处理、检查、监视和观察。
16.处理装置1可以包括受控制的对象并且使用其参数值通过强化学习决定的神经网络来控制受控制的对象。控制装置2可以被配置为向处理装置1发送驱动命令并且从处理装置1接收驱动结果或控制结果。管理装置3可以执行决定处理装置1的神经网络的多个参数值的强化学习。更具体地,管理装置3可以通过在改变多个参数值的全部或一些的同时重复向处理装置1发送驱动命令和从处理装置1接收驱动结果的操作来决定神经网络的多个参数值。管理装置3可以被理解为学习装置。
17.控制装置2的功能的全部或一些可以被并入在管理装置3中。控制装置2的功能的全部或一些可以被并入在处理装置1中。处理装置1、控制装置2和管理装置3可以在物理上一体地或分开地形成。处理装置1可以整体由控制装置2控制,或者可以包括由控制装置2控制的组件和不由控制装置2控制的组件。
18.图2例示了处理装置1的布置。处理装置1可以包括:包括作为受控制的对象的
台架(保持器)st的台架机构5、检测台架st的位置或状态的传感器6、驱动台架机构5的驱动器7、以及对驱动器7给出命令值并且接收来自传感器6的输出的控制器8。台架st可以保持定位的目标对象。台架st可以由引导件(未示出)引导。台架机构5可以包括使台架st移动的致动器ac。驱动器7驱动致动器ac。更具体地,例如,驱动器7可以向致动器ac供给与从控制器8给出的命令值对应的电流(电能)。致动器ac可以通过与从驱动器7供给的电流对应的力(机械能)使台架st移动。控制器8可以使用其参数值通过强化学习决定的神经网络来控制作为受控制的对象的台架st的位置或状态。
19.图3是例示图2中所示的处理装置1的布置的框图。控制器8可以包括减法器81、第一补偿器82、第二补偿器(神经网络)83、以及加法器84。减法器81可以计算作为从控制装置2给出的驱动命令(例如,目标位置命令)与从传感器6输出的检测结果(例如,台架st的位置)之间的差的控制误差。第一补偿器82可以通过对从减法器81提供的控制误差执行补偿计算来生成第一命令值。第二补偿器83由神经网络形成,并且可以通过对从减法器81提供的控制误差执行补偿计算来生成第二命令值。加法器84可以通过将第一命令值和第二命令值相加来生成命令值。控制器8、驱动器7、台架机构5、以及传感器6形成基于控制误差控制作为受控制的对象的台架st的反馈控制系统。
20.第一补偿器82例如可以是pid补偿器,但可以是其它补偿器。当例如l表示输入的数量、m表示中间层的数量、并且n表示输出的数量(l、m和n全部为正整数)时,第二补偿器83例如可以是由l
×
m矩阵和m
×
n矩阵的乘积定义的神经网络。神经网络的多个参数值可以通过由管理装置3执行的强化学习来决定或更新。第一补偿器82不总是必需的,并且仅第二补偿器82可以生成要对驱动器7给出的命令值。
21.管理装置3可以用作在从处理装置1的控制器8对台架st的控制结果获得的奖励不满足预定的标准时执行学习序列的学习设备或重新学习设备。在学习序列中,由第二补偿器(神经网络)83的多个参数值构成的参数值集可以通过强化学习来决定或重新决定。
22.图4例示了学习序列中的管理装置3的操作。在步骤s101中,管理装置3可以对第二补偿器(神经网络)83的多个参数值(参数值集)进行初始化。在步骤s102中,管理装置3可以向处理装置1发送命令以驱动作为受控制的对象的台架st。更具体地,在步骤s102中,管理装置3可以经由控制装置2向处理装置1的控制器8发送驱动命令。响应于此,处理装置1的控制器8可以根据驱动命令使驱动器7驱动台架st,从而控制台架st的位置。
23.在步骤s103中,管理装置3可以经由控制装置2从处理装置1的控制器8获取指示步骤s102中作为受控制的对象的台架st的驱动状态的驱动数据。驱动数据可以包括例如来自传感器6的输出和来自减法器81的输出中的至少一个。在步骤s104中,管理装置3可以基于在步骤s103中获取的驱动数据计算奖励。可以基于预定义的公式计算奖励。例如,在基于控制误差计算奖励的情况下,可以根据给出控制误差的倒数的公式、给出控制误差的对数的倒数的公式、给出控制误差的二次函数的倒数的公式等计算奖励,但是可以根据其它公式计算奖励。在一个示例中,随着奖励的值越大,第二补偿器(神经网络)83越优越。反过来,随着奖励的值越小,第二补偿器(神经网络)83可能越优越。
24.在步骤s105中,管理装置3通过改变第二补偿器(神经网络)83的多个参数值中的至少一个来生成新的参数值集,并且在第二补偿器(神经网络)83中设置新的参数值。步骤s106、s107、以及s108可以分别与步骤s102、s103、以及s104相同。在步骤s106中,管理装置3可以向处理装置1发送命令以驱动台架st。更具体地,在步骤s106中,管理装置3可以经由控制装置2向处理装置1的控制器8发送驱动命令。响应于此,处理装置1的控制器8可以根据驱动命令使驱动器7驱动台架st,从而控制台架st的位置。在步骤s107中,管理装置3可以经由控制装置2从处理装置1的控制器8获取指示步骤s106中的台架st的驱动状态的驱动数据。在步骤s108中,管理装置3可以基于在步骤s107中获取的驱动数据计算奖励。
25.在步骤s109中,管理装置3确定在步骤s108中计算的奖励与在步骤s104中计算的奖励相比是否提高。然后,在步骤s108中计算的奖励与在步骤s104中计算的奖励相比提高的情况下,管理装置3在步骤s110中采用在步骤s105中执行改变操作之后获得的参数值集作为最新的参数值。另一方面,在步骤s108中计算的奖励与在步骤s104中计算的奖励相比没有提高的情况下,管理装置3在步骤s111中不采用在步骤s105中执行改变操作之后获得的参数值集,并且返回到步骤s105。在这种情况下,在步骤s105中,在第二补偿器(神经网络)83中设置新的参数值集。
26.如果执行步骤s110,那么管理装置3在步骤s112中确定在紧接之前执行的步骤s108中计算的奖励是否满足预定的标准。在奖励满足预定的标准的情况下,图4中所示的处理结束。这意味着在紧接之前执行的步骤s105中生成的参数值集被决定作为强化学习之后的参数值集。设置有强化学习之后的参数值集的神经网络可以被称为学习的模型。另一方面,如果在步骤s112中确定在紧接之前执行的步骤s108中计算的奖励不满足预定的标准,那么管理装置3重复从步骤s105开始的处理。
27.处理装置1可以在执行对处理目标对象的处理的序列(在下文中将被称为实际序列)中作为包括在上述学习序列中获得的学习的模型(第二补偿器83)的装置进行操作。在一个示例中,处理装置1可以在管理装置3的管理下执行实际序列。然而,在另一个示例中,处理装置1可以独立于管理装置3的管理执行实际序列。
28.图5例示了实际序列中的管理装置3的操作。在步骤s201中,管理装置3可以使处理
装置1开始执行实际序列。在实际序列中,处理装置1的控制器8可以根据预设的驱动简档生成驱动命令,并且根据驱动命令使驱动器7驱动台架st,从而控制台架st的位置。在步骤s202中,管理装置3可以经由控制装置2从处理装置1的控制器8获取指示步骤s201中的台架st的驱动状态的驱动数据。驱动数据可以包括例如驱动命令、来自传感器6的输出、以及来自减法器81的输出(控制误差)中的至少一个。在步骤s203中,管理装置3可以基于在步骤s202中获取的驱动数据计算奖励。可以基于预定义的公式计算奖励。这个公式可以与图4中所示的学习序列中的步骤s104和s108中用于计算奖励的公式相同或不同。例如,在学习序列中,可以基于控制误差收敛到阈值以下所需的时间计算奖励,并且在实际序列中,可以基于控制误差的移动平均计算奖励。有用的是,在学习序列中,使用对改变敏感的指标来增加学习准确度,并且在实际序列中,根据计算负荷小的公式计算奖励。
29.在步骤s204中,管理装置3确定在步骤s203中计算的奖励是否满足预定的标准。在奖励满足预定的标准的情况下,管理装置3返回到步骤s201。在奖励不满足预定的标准的情况下,管理装置3前进到步骤s205,并且在步骤s205中执行图4中所示的学习序列(即,重新学习)。在步骤s205中,执行学习序列(重新学习)的时机的示例如下所述。
30.(1)在第一示例中,可以紧接在步骤s204中确定奖励不满足预定的标准之后执行学习序列。
31.(2)在第二示例中,等待直到当前执行的实际序列结束,并且可以在下一个实际序列开始之前(即,在没有执行实际序列的时段中)执行学习序列。
32.(3)在第三示例中,存储奖励不满足预定的标准,并且可以在下一个维护步骤中执行学习序列。
33.可以从当前的学习的模型开始执行步骤s205中的学习序列。替代地,可以在神经网络返回到初始状态或学习过程中的任意状态之后执行步骤s205中的学习序列。
34.下面将参考图6描述上述制造系统ms被应用到扫描曝光装置500的示例。扫描曝光装置500是通过由狭缝构件成形的狭缝光执行
基板14的扫描曝光的步进扫描曝光装置。扫描曝光装置500可以包括照明光学系统23、原件台架机构12、投影光学系统13、基板台架机构15、第一位置测量设备17、第二位置测量设备18、基板标记测量设备21、基板传送器22、以及控制器25。
35.控制器25控制照明光学系统23、原件台架机构12、投影光学系统13、基板台架机构15、第一位置测量设备17、第二位置测量设备18、基板标记测量设备21、以及基板传送器22。控制器25控制将原件11的图案转印到基板14的处理。控制器25可以由例如诸如fpga(field programmable gate array(现场可编程门阵列)的缩写)的pld(programmable logic device(可编程逻辑器件)的缩写)、asic(application specific integrated circuit(专用集成电路)的缩写)、安装有程序的通用计算机、或者这些组件的全部或一些的组合形成。控制器25可以与图2和图3中所示的处理装置1中的控制器8对应。
36.原件台架机构12可以包括保持原件11的原件台架rst和驱动原件台架rst的第一致动器rac。基板台架机构15可以包括保持基板14的基板台架wst和驱动基板台架wst的第二致动器wac。照明光学系统23对原件11进行照明。照明光学系统23通过诸如掩蔽叶片的遮光构件使从光源(未示出)发出的光成形为例如在x方向上长的带状或弧形狭缝光,并且利用这个狭缝光照明原件11的一部分。原件11和基板14分别由原件台架rst和基板台架wst保
持,并且经由投影光学系统13布置在几乎光学共轭的位置(投影光学系统13的物体面和图像面上)。
37.投影光学系统13具有预定的投影倍率(例如,1、1/2或1/4),并且通过狭缝光将原件11的图案投影在基板14上。原件11的图案被投影的基板14上的区域(利用狭缝光照射的区域)可以被称为照射区域。原件台架rst和基板台架wst被配置为可在与投影光学系统13的光轴方向(z方向)正交的方向(y方向)上移动。原件台架rst和基板台架wst彼此同步地以与投影光学系统13的投影倍率对应的速度比相对扫描。这针对照射区域在y方向上扫描基板14,从而将形成在原件11上的图案转印到基板14的击射区域。然后,通过在移动基板台架wst的同时对基板14的多个击射区域顺次地执行这样的扫描曝光,完成对一个基板14的曝光处理。
38.第一位置测量设备17包括例如激光干涉仪,并且测量原件台架rst的位置。例如,激光干涉仪利用激光束照射在原件台架rst中提供的反射板(未示出),并且通过由反射板反射的激光束与由基准表面反射的激光束之间的干涉来检测原件台架rst的位移(从基准位置的位移)。第一位置测量设备17可以基于位移获取原件台架rst的当前位置。在这个示例中,第一位置测量设备17可以通过位置测量设备(例如,编码器)而不是激光干涉仪来测量原件台架rst的位置。基板标记测量设备21包括例如光学系统和图像传感器,并且可以检测在基板14上提供的标记的位置。
39.第二位置测量设备18包括例如激光干涉仪,并且测量基板台架wst的位置。例如,激光干涉仪利用激光束照射在基板台架wst中提供的反射板(未示出),并且通过由反射板反射的激光束与由基准表面反射的激光束之间的干涉来检测基板台架wst的位移(从基准位置的位移)。第二位置测量设备18可以基于位移获取基板台架wst的当前位置。在这个示例中,第二位置测量设备18可以通过位置测量设备(例如,编码器)而不是激光干涉仪来测量基板台架wst的位置。
40.扫描曝光装置500需要将原件11的图案准确地转印到基板14的目标位置。为了实现这一点,重要的是在扫描曝光期间准确地控制原件台架rst上的原件11相对于基板台架wst上的基板14的相对位置。因此,作为奖励,可以采用用于评价原件台架rst与基板台架wst之间的相对位置误差(同步误差)的值。为了提高基板14的标记的检测准确度,重要的是将基板台架wst准确地定位在基板标记测量设备21下方。因此,作为奖励,可以采用用于评价标记被成像时基板台架wst的控制误差的值。为了提高吞吐量,重要的是增加基板的传送速度。在装载和卸载基板时,重要的是在驱动完成之后基板传送器22和基板台架wst的控制误差在短时间内收敛到预定值或更小。因此,作为奖励,可以采用用于评价基板传送器22和基板台架wst的收敛时间的值。基板台架机构15、原件台架机构12、以及基板传送器22中的每一个是执行用于将原件11的图案转印到基板14的处理的操作的操作单元的示例。
41.图7例示了扫描曝光装置500的实际序列。在步骤s301中,管理装置3指示扫描曝光装置500的控制器25开始执行实际序列,即处理基板的处理序列。响应于这个指示,扫描曝光装置500开始处理序列。处理序列可以包括例如步骤s302、s303、s304、以及s305作为多个子序列。
42.在步骤s302中,控制器25控制基板传送器22将基板14装载(传送)到基板台架wst。更具体地,在步骤s302中,控制器25可以控制基板台架机构15使得基板14的标记落在基板
标记测量设备21的视场内,并且控制基板标记测量设备21检测基板14的标记的位置。这个操作可以对基板14的多个标记中的每一个执行。在步骤s304中,控制器25控制基板台架机构15、原件台架机构12、照明光学系统23等,使得原件11的图案被转印到基板14的多个击射区域中的每一个。在步骤s305中,控制器25控制基板传送器22卸载(传送)基板台架wst上的基板14。在步骤s302、s303、s304、以及s305中,计算对于步骤s302、s303、s304、以及s305中的控制的奖励所需的驱动数据可以分别从控制器25(控制器8)经由控制装置2提供给管理装置3。这些驱动数据可以在步骤s305完成之后一起从控制器25(控制器8)经由控制装置2提供给管理装置3。
43.在步骤s306中,管理装置3基于驱动数据计算对于多个子序列(即,步骤s302、s303、s304、以及s305)中的每一个中的控制的奖励。例如,对于步骤s302和s305中的每一个中的控制,可以计算用于评价保持基板的基板台架或保持器的控制误差收敛到预定值或更小所需的时间的值作为奖励。对于步骤s303中的控制,可以计算用于评价在基板与原件之间的对准误差的测量期间基板台架(保持器)的控制误差的值作为奖励。对于步骤s304中的控制,可以计算用于评价在基板的曝光期间基板与原件之间的同步误差的值作为奖励。
44.在步骤s307中,管理装置3确定在步骤s306中计算的奖励是否满足预定的标准。在奖励满足预定的标准的情况下,管理装置3终止图7中所示的实际序列。在奖励不满足预定的标准的情况下,管理装置3前进到步骤s308,并且在步骤s308中执行图4中所示的学习序列(重新学习)。这里,在步骤s307中,管理装置3可以对多个子序列(即,步骤s302、s303、s304、以及s305)中的每一个确定奖励是否满足对应的标准。然后,管理装置3可以进行操作以对奖励不满足标准的子序列执行学习序列。替代地,在对于多个子序列(即,步骤s302、s303、s304、以及s305)中的至少一个奖励不满足对应的基准的情况下,管理装置3可以对所有的子序列执行学习序列。
45.在要计算的奖励是用于评价保持基板的基板台架或保持器的控制误差收敛到预定值或更小所需的时间的值的情况下,也给出对应的标准作为控制误差收敛到预定值或更小所需的时间。在要计算的奖励是用于评价在基板与原件之间的对准误差的测量期间基板台架的控制误差的值的情况下,也可以给出对应的标准作为在对准误差的测量期间基板台架的控制误差。在要计算的奖励是用于评价在基板的曝光期间基板与原件之间的同步误差的值的情况下,也可以给出对应的标准作为在基板的曝光期间基板与原件之间的同步误差。
46.对其形成神经网络的受控制的对象的示例是基板台架机构15、原件台架机构12、以及基板传送器22,但是神经网络可以被并入在其它组件中。例如,诸如基板台架机构15、原件台架机构12、以及基板传送器22的多个组件可以由一个神经网络控制,或者多个组件可以分别由不同的神经网络控制。此外,作为学习的模型,可以对传送序列、测量序列、以及曝光序列使用相同的学习的模型或不同的学习的模型。在奖励的计算中,可以对传送序列、测量序列、以及曝光序列使用相同的公式或不同的公式。
47.参考图8,将描述计算奖励的示例。图8中,横坐标表示时间,并且纵坐标表示受控制的对象的控制误差。在传送序列中,例如,假定曲线50指示直到受控制的对象的控制误差下降到低于阈值的时段中的受控制的对象的控制误差,可以采用直到曲线50下降到低于阈值54的时段52作为奖励。在测量序列中,假定时段53指示用于测量基板的标记的位置的测
量时段,并且曲线51指示时段53中的基板台架wst的控制误差,可以采用曲线51的平均值作为奖励。在曝光序列中,假定时段53指示曝光时段,并且曲线51指示时段53中的基板台架wst与原件台架rst之间的同步误差,可以采用曲线51的移动平均和移动方差作为奖励。
48.执行步骤s308中的学习的时机可以是例如紧接在序列的执行结束之后、在对给定基板的处理与对下一个基板的处理之间、或者在使用同一原件对基板的处理操作结束之后。替代地,步骤s308中的学习可以例如与光源的组件的维护并行地执行。
49.以上已描述制造系统ms被应用到扫描曝光装置500的示例。然而,制造系统ms可以被应用到另一种类型的曝光装置(例如,步进机)或诸如压印装置的另一种类型的光刻装置。在这种情况下,光刻装置是用于在基板上形成图案的装置,并且概念包括曝光装置、压印装置、以及电子束绘制装置。
50.下面将描述使用上述光刻装置制造物品(例如,半导体ic元件、液晶显示元件或mems)的物品制造方法。物品制造方法可以是以下方法:该方法包括使用光刻装置将原件的图案转印到基板的转印步骤、以及处理已经历转印步骤的基板的处理步骤,从而从已经历处理步骤的基板获得物品。
51.当光刻装置是曝光装置时,物品制造方法可以包括对涂布有感光剂的基板(基板、玻璃基板等)进行曝光的步骤、对基板(感光剂)进行显影的步骤、以及在其它已知的步骤中处理经显影的基板的步骤。其它已知的步骤包括蚀刻、抗蚀剂去除、切割、粘合、以及封装。根据这个物品制造方法,可以制造比传统的物品更高质量的物品。当光刻装置是压印装置时,物品制造方法可以包括通过使用模具将压印材料模塑在基板上来形成由压印材料的固化产物制成的图案的步骤、以及使用图案处理基板的步骤。
52.本发明不限于以上实施例,并且可以在本发明的精神和范围内进行各种改变和修改。因此,为了向公众告知本发明的范围,提出随附的权利要求。
53.本技术要求2020年6月29日提交的日本专利申请no.2020-111910的优先权,该日本专利申请no.2020-111910特此通过引用并入本文。
54.参考符号列表
55.1:处理装置、2:控制装置、3:学习装置、5:台架装置、6:传感器、7:驱动器、st:台架、ac:致动器。
技术特征:
1.一种管理装置,其特征在于,包括:学习设备,所述学习设备被配置为在从被配置为使用参数值通过强化学习来决定的神经网络对受控制的对象进行控制的控制器对所述受控制的对象的控制结果获得的奖励不满足预定的标准的情况下,通过强化学习来重新决定所述参数值。2.根据权利要求1所述的管理装置,其特征在于,所述受控制的对象包括被配置为保持处理目标对象的保持器,在执行对所述处理目标对象的处理的处理序列中,所述控制器控制所述保持器以便移动所述保持器,并且在从所述处理序列中所述控制器对所述保持器的控制结果获得的奖励不满足所述预定的标准的情况下,所述学习设备通过强化学习来重新决定所述参数值。3.根据权利要求2所述的管理装置,其特征在于,所述处理序列包括多个子序列,所述预定的标准包括各自与所述多个子序列中的每一个对应的多个标准,并且在从所述多个子序列中的每一个中所述控制器对所述保持器的控制结果获得的奖励不满足所述多个标准当中的对应标准的情况下,所述学习设备通过强化学习来重新决定所述参数值。4.根据权利要求3所述的管理装置,其特征在于,所述处理序列是用于将原件的图案转印到基板的序列,并且所述多个子序列包括传送所述基板的传送序列、测量所述基板与所述原件之间的对准误差的测量序列、以及将所述原件的图案投影到所述基板上并且曝光所述基板的曝光序列。5.根据权利要求4所述的管理装置,其特征在于,在所述多个标准当中,与所述传送序列对应的标准与所述保持器的控制误差收敛到预定值或更小所需的时间相关。6.根据权利要求4或5所述的管理装置,其特征在于,在所述多个标准当中,与所述测量序列对应的标准与在所述基板与所述原件之间的对准误差的测量期间所述保持器的控制误差相关。7.根据权利要求4至6中的任一项所述的管理装置,其特征在于,在所述多个标准当中,与所述曝光序列对应的标准与在所述基板的曝光期间所述基板与所述原件之间的同步误差相关。8.根据权利要求2至7中的任一项所述的管理装置,其特征在于,所述学习设备在所述处理序列结束之后通过强化学习来重新决定所述参数值。9.根据权利要求1所述的管理装置,其特征在于,所述受控制的对象包括被配置为保持处理目标对象的保持器,在执行对所述处理目标对象的处理的处理序列不被执行的时段中,所述控制器控制所述保持器以便移动所述保持器,并且在从所述时段中所述控制器对所述保持器的控制结果获得的奖励不满足所述预定的标准的情况下,所述学习设备通过强化学习来重新决定所述参数值。10.根据权利要求1至4中的任一项所述的管理装置,其特征在于,
所述控制器对所述受控制的对象的位置进行控制。11.根据权利要求1至10中的任一项所述的管理装置,其特征在于,所述控制器包括第一补偿器、第二补偿器、以及加法器,所述第一补偿器被配置为基于控制误差生成第一命令值,所述第二补偿器被配置为基于所述控制误差生成第二命令值,所述加法器被配置为基于所述第一命令值和所述第二命令值生成命令值,并且所述命令值被供给到驱动器,所述驱动器被配置为驱动所述受控制的对象。12.一种用于执行将原件的图案转印到基板的处理的光刻装置,其特征在于,包括:操作单元,所述操作单元被配置为对于所述处理进行操作;控制器,所述控制器包括神经网络,并且被配置为使用所述神经网络控制所述操作单元,所述神经网络的参数值通过强化学习来决定;以及学习设备,所述学习设备被配置为在从所述控制器对所述操作的控制结果获得的奖励不满足预定的标准的情况下,通过强化学习来重新决定所述参数值。13.根据权利要求12所述的光刻装置,其特征在于,所述操作单元包括被配置为保持所述基板的保持器,在执行所述处理的处理序列中,所述控制器控制所述保持器以便移动所述保持器,并且在从所述处理序列中所述控制器对所述保持器的控制结果获得的奖励不满足所述预定的标准的情况下,所述学习设备通过强化学习来重新决定所述参数值。14.根据权利要求13所述的光刻装置,其特征在于,所述处理序列包括多个子序列,所述预定的标准包括各自与所述多个子序列中的每一个对应的多个标准,并且在从所述多个子序列中的每一个中所述控制器对所述保持器的控制结果获得的奖励不满足所述多个标准当中的对应标准的情况下,所述学习设备通过强化学习来重新决定所述参数值。15.根据权利要求14所述的光刻装置,其特征在于,所述多个子序列包括传送所述基板的传送序列、测量所述基板与所述原件之间的对准误差的测量序列、以及将所述原件的图案投影到所述基板上并且曝光所述基板的曝光序列。16.根据权利要求15所述的光刻装置,其特征在于,在所述多个标准当中,与所述传送序列对应的标准与所述保持器的控制误差收敛到预定值或更小所需的时间相关。17.根据权利要求15或16所述的光刻装置,其特征在于,在所述多个标准当中,与所述测量序列对应的标准与在所述基板与所述原件之间的对准误差的测量期间所述保持器的控制误差相关。18.根据权利要求15至17中的任一项所述的光刻装置,其特征在于,在所述多个标准当中,与所述曝光序列对应的标准与在所述基板的曝光期间所述基板与所述原件之间的同步误差相关。19.一种管理方法,其特征在于,包括:获取控制器对受控制的对象的控制结果的获取步骤,所述控制器使用神经网络对所述
受控制的对象进行控制,所述神经网络的参数值通过强化学习来决定;以及在从所述控制结果获得的奖励不满足预定的标准的情况下、通过强化学习来重新决定所述参数值的学习步骤。20.一种物品制造方法,其特征在于,包括:使用权利要求12至18中的任一项中限定的光刻装置将原件的图案转印到基板的转印步骤;以及对已经历所述转印步骤的基板进行处理的处理步骤,其中,物品从已经历所述处理步骤的基板获得。
技术总结
管理装置包括学习设备。所述学习设备被配置为在从被配置为使用参数值通过强化学习来决定的神经网络对受控制的对象进行控制的控制器对所述受控制的对象的控制结果获得的奖励不满足预定的标准的情况下,通过强化学习来重新决定所述参数值。重新决定所述参数值。重新决定所述参数值。
技术研发人员:
伊藤觉
受保护的技术使用者:
佳能株式会社
技术研发日:
2021.06.21
技术公布日:
2023/2/28