收集训练数据集的方法和系统与流程

阅读：评论：0

1.本发明的实施例涉及用于ai超分辨率(super-resolution)操作的自定义训练数据收集(customized training data collection)。

背景技术：

2.超分辨率是指将低分辨率(low resolution，lr)图像放大(upscale)到更高分辨率图像，称为超分辨率(super-resolution，sr)图像；例如，从(720x 480)像素的输入图像放大到(3840x 2160)像素的输出图像。然而，放大图像会导致图像质量下降，例如模糊、噪声、失真、彩状况、清晰度、对比度等。因此，许多现代图像显示设备通过图像增强技术来执行超分辨率以提高输出图像质量。
3.一些图像增强技术利用人工智能(artificial intelligence，ai)来辅助sr操作。ai代理(例如，ai处理器)可以使用一个或多个经过训练的神经网络来放大lr图像。训练神经网络通常需要大量的训练数据，而且训练过程非常耗时。此外，针对一种类型的图像或特征所训练的神经网络通常不能很好地用于另一种类型的图像或特征。针对多种类型的图像和特征来训练神经网络需要甚至更多的训练数据和训练时间。
4.因此，需要改进ai辅助sr操作的训练过程。

技术实现要素：

5.有鉴于此，本发明提供了一种收集用于训练ai模型的训练数据集的方法和系统，以改进ai辅助sr操作的训练过程。
6.在一个实施例中，提供了一种收集训练数据集的方法，所述训练数据集用于训练人工智能ai模型，所述方法包括：接收高分辨率(hr)图像和所述hr图像中一个或多个感兴趣区域(roi)的信息；将步幅分布映射到所述一个或多个roi；根据所述一个或多个roi和所述步幅分布以不均匀的步幅对所述hr图像进行采样，生成对应的低分辨率(lr)图像；以及使用由所述hr图像和相应的lr图像形成的训练对，训练所述ai模型以执行超分辨率(sr)操作。
7.在一个实施例中，提供了一种用于收集训练数据集的系统，所述训练数据集用于训练ai模型，所述系统包括用于存储所述ai模型的存储器以及耦接到所述存储器的处理硬件。所述处理硬件用于接收hr图像和所述hr图像中一个或多个roi的信息；将步幅分布映射到所述一个或多个roi；根据所述一个或多个roi和所述步幅分布以不均匀的步幅对所述hr图像进行采样，生成对应的lr图像；以及使用由所述hr图像和相应的lr图像形成的训练对，训练所述ai模型以执行sr操作。
8.本发明可以大大提高在超分辨率(sr)操作时图像的质量，同时显着减少重新训练的数据量和时间。
9.其他方面和特征对于本领域技术人员来说在结合附图阅读以下具体实施例的描述时将变得显而易见。
附图说明
10.通过阅读后续的详细描述以及参考附图所给的示例，可以更全面地理解本发明，其中：包括的附图用以提供对本公开实施例的进一步理解，以及，附图被并入并构成本公开实施例的一部分。附图示出了本公开实施例的实施方式，并且与说明书一起用于解释本公开实施例的原理。可以理解的是，附图不一定按比例绘制，因为可以示出一些部件与实际实施中的尺寸不成比例以清楚地说明本公开实施例的概念。将参考以下附图详细描述作为示例提出的本发明的各种实施例，其中，相同的附图标记表示相同的组件。
11.图1a是例示根据一个实施例提供给用户的图像的示例的示意图。
12.图1b是例示根据一个实施例的具有分配的步幅值的图像的示例的示意图。
13.图2a、图2b、图2c和图2d是例示根据一些实施例的多个步幅值分配的示意图。
14.图3a例示了根据一个实施例的多元多核分布函数的示例。
15.图3b例示了根据一个实施例的沿x轴方向的多核分布函数的示例。
16.图4是例示根据一个实施例的系统的框图。
17.图5例示了迁移学习的示例。
18.图6是例示根据一个实施例的供用户定义roi的图形用户界面(gui)的示例的示意图。
19.图7是例示根据一个实施例的收集用于训练ai模型的训练数据集的方法的流程图。
20.图8例示了根据一个实施例的系统的示例。
具体实施方式
21.在以下描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下，未详细示出众所周知的电路、结构和技术，以免混淆对本描述的理解。然而，本领域的技术人员将可以理解，本发明可以在没有这些具体细节的情况下实施。本领域的技术人员通过本文的描述将能够实现适当的功能而无需过度实验。
22.本发明的实施例向用户提供一种方法和系统，来收集训练对(training pairs)以训练ai模型(model)来执行sr操作。ai模型适用于图像中的特征(例如对象、元素等)，其中图像可例如视频游戏中的计算机生成(computer-generated，cg)图像。通过在训练数据收集过程中由用户指定的感兴趣区域(regions-of-interest，roi)来辅助特征适应(feature adaptation)。用户可以选择图像中包含游戏对象或元素的区域作为roi，并为roi指定步幅值(stride value)和/或分布函数(distribution function)。为了专注于roi中的游戏特征，用户可以指示计算机以比roi内部的像素更高的步幅值对roi外部的像素进行采样。因此，根据用户指定的步幅值和/或分布函数，以非均匀步幅值对图像进行下采样(down-sampled)。图像及其下采样后的图像(对应物，counterpart)形成训练对。在这个roi引导过程中收集的训练对用于训练ai模型(例如神经网络)执行超分辨率(sr)操作。
23.roi引导过程(roi-guided process)可以显著减少神经网络适应不同设置(例如从第一个游戏到第二个游戏)所需的训练数据量。一个ai模型可以被训练为第一个游戏执行sr，并且当在为第二个游戏执行sr时可能会产生质量下降的输出。用户可以决定出游戏
特征(例如，图标和地图)的劣化不可容忍(因为游戏图像上某些特定区域需要确保其画质，因而不能容忍其变差或劣化)，并将第二个游戏图像中的这些区域标记为roi。然后使用仅从这些roi收集的训练对来训练ai模型。因此，ai模型可以以第二个游戏的最少的训练数据量，将其从第一个游戏的学习迁移到第二个游戏。学习的可迁移性(learning transferability)使得ai模型能够以最小的训练时间开销和没有额外的硬件成本，在不同的游戏图像和功能上执行增强的sr操作。由于可以灵活地将步幅值分配给图像的不同区域，用户可以基于不同roi的期望图像质量、样式和/或纹理进行步幅值分配，并选择性地增强特定目标区域。
24.如本文所用，术语“低分辨率(lr)”和“高分辨率(hr)”是相互关联的；也就是说，对于相同的显示尺寸(例如，n平方英寸)，lr图像比hr图像具有更少的像素。例如，对于相同的显示尺寸，lr图像可能具有(720x 480)像素，而hr图像可能具有(3840x 2160)个像素。可以理解，lr图像和hr图像可以具有任意数量的像素，只要对于相同的显示尺寸，lr图像具有比hr图像更少的像素。sr图像的分辨率高于lr图像的分辨率，并且可以与hr图像的分辨率相同，或者也可以低于hr图像的分辨率。在以下描述中，术语“图像(image)”和“帧(frame)”可互换使用。术语“游戏”是指可以在各种电子设备(包括游戏设备、计算机、移动设备等)上播放的视频游戏。
25.图1a是例示根据一个实施例提供给用户的图像100的示例的示意图。图像100是呈现在视频游戏中的计算机生成(computer-generated，cg)图像。通过用户界面，用户可以在图像100中定义一个或多个roi并指示在每个roi中期望的采样率(sampling rate)。在一个实施例中，采样率是根据步幅值(stride value)定义的。例如，步幅值＝1表示对图像中的每个像素进行采样，步幅值＝2表示对图像中每隔一个像素进行采样。在与图像对齐的二维(2d)x-y平面上，可以对x轴和y轴方向应用相同的步幅值。或者，可以对x轴和y轴方向应用不同的步幅值。
26.在该示例中，图像100根据一个实施例被划分为二维(2d)网格(grid)。二维网格中的每个正方形称为图像块(image patch)或块。每个roi包含一个或多个图像块。每个图像块包含预定(或可配置的)数量的像素。用户可以定义roi 11和roi 12的边界。在这个例子中，用户可以进一步定义roi 11的步幅值＝a、roi 12的步幅值＝b、图像100其余部分的步幅值＝c。值a、b和c可以是任何正整数，其中c》a和c》b。图像100是hr图像，自定义采样(customized sampling)生成相应的lr图像。然后将hr和lr图像对用作训练对来训练ai模型(例如神经网络)以执行sr操作。播放视频游戏的电子设备使用ai模型执行sr操作。在以下描述中，神经网络作为ai模型的示例。可以理解，也可以使用不同形式的ai模型。
27.与传统采样中在整个图像上的采样率是一致的不同，本发明中的roi引导的采样能够针对图像的不同部分实现不同的采样率。包含重要特征的图像区域可以被定义为roi并被分配一个低步幅值。较低的步幅值对应于较高的分辨率；因此在roi中保留了更多细节。例如，游戏开发者可能希望某些游戏特征(例如游戏菜单、可点击按钮、导航地图等)具有比其他游戏内容更高的分辨率，因而可以定义包含这些游戏功能的roi。通过对图像进行非均匀采样，ai模型可以生成针对roi具有改进的图像质量的sr图像。
28.图1b是例示根据一个实施例的具有分配的步幅值的图像100的示例的示意图。用户可以为每个roi分配步幅分布(例如步幅值)；例如，roi 11的步幅值＝2，roi 12的步幅值
＝4。在替代实施例中，用户可以为图像100中的每个块分配一个步幅值。不同的图像块，无论是在roi内部还是外部，都可以被分配不同的步幅值。在又一实施例中，用户可以选择一个或多个多元(multivariate)分布函数来定义一个或多个roi的步幅分布，并为所选的分布函数提供参数。例如，用户可以选择二维高斯分布函数作为图像中一个或多个roi的步幅分布，并提供高斯分布的均值和标准差。用户还可以为图像中的一个或多个roi选择多核(multi-kernel)分布函数，并为多核提供权重。用户可以为同一图像或不同图像中的不同roi选择不同的分布函数，或者为同一图像或不同图像中的不同roi选择具有不同参数的相同分布函数。在一些实施例中，用户可以为一些roi指定步幅值并且为其他一些roi指定分布函数。
29.图2a、图2b、图2c和图2d是例示根据一些实施例的多个步幅值分配的示意图。每个示意图示出了可以映射到图像(例如图1a和图1b中的图像100)的2d网格。对应的2d网格中的每个图像块都分配有步幅值。该数值可以由用户单独分配或从分布函数生成。图2a例示了没有任何roi的统一采样。所有图像块都具有相同的步幅值。图2b例示了具有一个roi的roi引导采样，其中为roi内部的图像块分配统一的步幅值，为roi外部的图像块分配不同的统一步幅值。图2c例示了另一种具有一个roi的roi引导采样，其中为roi内部的图像块分配自定义的(customized)步幅值。图2d例示了具有多个roi的另一种roi引导采样，其中为每个roi内部的图像块分配自定义的(customized)步幅值。
30.图3a例示了根据一个实施例的多元(multivariate)多核(multi-kernel)分布函数的示例。水平面(即x-y平面)对应于其中定义了多个roi的图像，每个内核的高度对应一个权重。权重越高，步幅值越低。图3b例示了根据一个实施例的沿x轴方向的多核分布函数的示例。为简化说明，省略了沿y轴的分布。原始分布函数包含两个尖峰，可以压缩成一个内核。这三个内核被加权，并且每个内核可以被分配给一个roi以定义roi中的步幅值。图像中roi的步幅分布可以是自定义的并且可以根据分布函数(如图3a和图3b所示的分布函数)进行定义。如前所述，每个内核的高度对应一个权重。权重越高，步幅值越低。内核高度和步幅值之间的映射可以是预先确定的或者是可配置的。
31.图4是例示根据一个实施例的系统400的框图。系统400接收输入图像(例如，hr图像412)和roi信息414。对于n个roi(n是任何正整数)中的每个roi，roi信息414指示其位置、形状、边界和/或大小(例如，宽度和高度)、和/或表征roi的其他信息。在一个实施例中，每个roi的边界与定义图2a-图2d所示的图像块的2d网格对齐。步幅映射模块420将步幅值映射到roi或输入图像中的每个图像块。步幅值的映射可以由用户逐个图像块或逐个特征地指定或者也可以基于参数化的多元模型。参数化的多元模型定义了一个或多个多元分布函数，例如均匀分布、高斯分布等。权重越高意味着采样越密集，因此步幅值越低。roi信息414提供参数用于识别参数化的多元模型。系统400可以在存储器中存储步幅映射表以供步幅映射模块420使用。
32.系统400还包括训练对收集模块430，其根据步幅映射模块420指示的步幅值对输入hr图像412进行下采样。对于每个hr图像412，训练对收集模块430生成对应的lr图像以形成训练对。训练对形成训练数据集(dataset)，用于训练执行sr操作的ai模型。系统400还包括训练模块440，其接收训练数据集并继续进行用于训练ai模型的训练过程。训练模块440的输出450是经过训练的ai模型，其行为由通过roi引导的采样所收集的训练数据驱动。
33.图5例示了迁移学习(transfer learning)的示例，迁移学习是用于ai模型的有效机器学习技术。在游戏的背景下，诸如神经网络之类的ai模型可以至少部分地将其从第一个游戏中学到的知识迁移到第二个游戏中。参考图5，顶部图像是在第一个游戏中生成的，底部图像是在第二个游戏中生成的。还参考图4，系统400使用在第一个游戏中生成的训练对，输出用于sr操作的经过训练的ai模型。如图5中的示例所示，第一个游戏和第二个游戏具有非常不同的场景、角和特征。为第一个游戏训练的ai模型可能在第二个游戏中表现不佳。但是，使用第二个游戏中全尺寸hr图像集合重新训练ai模型由于训练数据量很大，则需要很长时间。在一个实施例中，可以使用从第二个游戏图像中的roi收集的训练数据，针对第二个游戏来重新训练针对第一个游戏训练的ai模型。如图5所示，用户可以选择roi来关注第二个游戏中的地图、图标和菜单等游戏特征。在针对第二个游戏重新训练ai模型时，仅对这些选定的roi进行采样。不会针对roi之外的图像内容重新训练ai模型。roi引导的迁移学习适用于游戏对象和元素等游戏特征。roi引导的机器学习专注于用户选择的游戏特征，并从roi中收集训练数据集。因此，可以大大提高用户选择的游戏对象和元素的图像质量，同时显着减少重新训练的数据量和时间。
34.图6是例示根据一个实施例的供用户定义roi的图形用户界面(graphical user interface，gui)600的示例的示意图。gui 600提供roi选择器610，其使用户能够绘制或以其他方式指示图像中每个roi的边界。数据集概要(dataset summary)620显示图像中每个roi的位置、存储roi信息的系统文件夹以及roi的优先级。源文件夹选择器630显示哪些系统文件夹对应于roi。当时图像选择器(temporal image selector)640示出了每个系统文件夹中的哪些图像被选择或被取消选择用于roi。用户可以使用取消选择的(deselected)图像指示符650来取消选择每个系统文件夹中的图像。尽管图6中未示出，但gui 600还可以示出覆盖roi选择器610中图像的2d网格，以供用户定义每个图像块的步幅值，例如在图2a-图2d的示例中。gui 600还可以使用户能够为每个roi的步幅值指定参数化的多元分布函数。
35.图7是例示根据一个实施例的收集用于训练ai模型的训练数据集的方法700的流程图。例如，方法700可以由图4中的系统400、将在图8中描述的系统800和/或另一个计算系统来执行。虽然图7的流程图示出了由本发明的某些实施例执行的操作的特定顺序，但应当理解，这种顺序是示例性的(例如，替代实施例可以以不同的顺序执行操作、组合某些操作、重叠某些操作等)。
36.方法700开始于步骤710，系统接收hr图像和hr图像中的一个或多个roi的信息。在步骤720，系统将步幅分布映射到roi。在一个实施例中，步幅分布可以包括由用户输入分配的步幅值。替代地或附加地，步幅分布可以包括参数化的多元分布函数。
37.在步骤730，系统根据roi和步幅分布以不均匀的步幅对hr图像进行采样以生成对应的lr图像。在步骤740，系统使用由hr图像和各自对应的lr图像形成的训练对来训练执行sr操作的ai模型。
38.在一个实施例中，ai模型将其从一个游戏的学习适用于另一个游戏。系统训练ai模型，对第一个游戏的计算机生成(cg)图像执行sr操作，并且重新训练ai模型以对第二个游戏的cg图像执行sr操作。使用从第二个游戏图像中选择的roi内的图像块生成的训练数据执行重新训练。
39.在一个实施例中，ai模型训练可以由第一系统执行，sr操作可以由第二系统执行，其中第二系统从第一系统下载ai模型的参数。训练ai模型以执行ai操作，ai操作包括但不限于神经网络操作、机器学习操作、深度学习操作等。
40.在一个实施例中，hr图像被2d网格划分为多个图像块，并且roi被定义为连续图像块的区域。一个或多个roi可以映射到一个或多个步幅值，roi内的步幅值低于roi外部的一个或多个步幅值。不同的roi可以映射到不同的步幅分布。
41.在一个实施例中，系统从gui接收roi信息，该信息包括对应hr图像中的一个或多个roi的边界。系统显示覆盖hr图像的2d网格，并接收由2d网格定义的图像块的一个或多个步幅值的用户输入。
42.图8例示了根据一个实施例的系统800的示例。系统800包括处理硬件810。在一个实施例中，处理硬件810可以包括一个或多个处理器，诸如以下中的一个或多个：中央处理单元(cpu)、gpu、数字处理单元(dsp)、ai处理器、多媒体处理器、其他通用和/或专用处理电路。在一个实施例中，处理硬件810可以包括硬件加速器，例如ai加速器。在一个实施例中，处理硬件810包括图4中的步幅映射模块420、训练对收集模块430和训练模块440。
43.系统800还包括耦接到处理硬件810的存储器820。存储器820可以包括多种存储器设备，例如动态随机存取存储器(dram)、sram、闪存和其他非暂时性机器可读存储介质，例如易失性或非易失性存储设备。存储器820还可以包括例如任何类型的固态或磁存储设备的存储设备。在一个实施例中，存储器820可以存储要被训练以执行sr操作的ai模型825。在一些实施例中，存储器820可以存储指令，这些指令在由处理硬件810执行时使处理硬件执行上述用于训练数据的操作，例如图7中的方法700。
44.系统800还包括显示面板830以显示诸如图像、视频、游戏、文本和其他类型的文本、图像和视频数据的信息。显示面板830显示例如图6中gui 600的gui 835。系统800还可以包括附加的外围硬件840，例如用于接收和生成声音的音频硬件。
45.在一些实施例中，系统800还可以包括网络接口850以连接到有线和/或无线网络，用于发送和/或接收语音、数字数据和/或媒体信号。可以理解，图8的实施例为了说明的目的而被简化。其还可以包括额外的硬件组件。
46.已经参考图4和图8的示例性实施例描述了图7的流程图的操作。然而，应该理解的是，图7的流程图的操作可以由除图4和图8的实施例之外的实施例来执行，图4和图8的实施例也可以执行与参考流程图讨论的那些不同的操作。
47.本文已经描述了各种功能组件或块。如本领域技术人员将理解的，功能块将优选地通过电路(在一个或多个处理器和编码指令的控制下操作的专用电路或通用电路)实现，其通常包括被配置为根据这里描述的功能和操作来控制电路操作的晶体管。
48.虽然本发明已经根据几个实施例进行了描述，但是本领域技术人员将认识到本发明不限于所描述的实施例，并且可以通过在所附权利要求的精神和范围内的修改和变更来实施。本发明因此被认为是说明性的而不是限制性的。

技术特征：

1.一种收集训练数据集的方法，所述训练数据集用于训练人工智能ai模型，所述方法包括：接收高分辨率hr图像和所述hr图像中一个或多个感兴趣区域roi的信息；将步幅分布映射到所述一个或多个roi；根据所述一个或多个roi和所述步幅分布以不均匀的步幅对所述hr图像进行采样，生成对应的低分辨率lr图像；以及使用由所述hr图像和相应的lr图像形成的训练对，训练所述ai模型以执行超分辨率sr操作。2.如权利要求1所述的方法，还包括：训练所述ai模型以对第一个游戏的计算机生成cg图像执行所述sr操作；以及使用从第二个游戏图像中选择的roi内的图像块生成的训练数据，重新训练所述ai模型以对第二个游戏的cg图像执行所述sr操作。3.如权利要求1所述的方法，其中，所述步幅分布包括由用户输入分配的步幅值或者包括参数化的多元分布函数。4.如权利要求1所述的方法，其中，所述ai模型包括神经网络。5.如权利要求1所述的方法，其中，所述hr图像被二维网格划分为多个图像块，并且所述roi被定义为连续图像块的区域。6.如权利要求1所述的方法，其中，每个roi被映射到一个或多个步幅值，每个roi被映射的步幅值低于所述roi外部的一个或多个步幅值。7.如权利要求1所述的方法，其中不同的roi被映射到不同的步幅分布。8.如权利要求1所述的方法，还包括：从图形用户界面gui接收所述一个或多个roi的信息，所述信息包括对应hr图像中的所述一个或多个roi的边界。9.如权利要求1所述的方法，其中还包括：显示覆盖hr图像的二维网格；以及接收由所述二维网格定义的图像块的一个或多个步幅值的用户输入。10.一种用于收集训练数据集的系统，所述训练数据集用于训练ai模型，所述系统包括：存储所述ai模型的存储器；以及处理硬件，耦接到所述存储器并用于：接收hr图像和所述hr图像中一个或多个roi的信息；将步幅分布映射到所述一个或多个roi；根据所述一个或多个roi和所述步幅分布以不均匀的步幅对所述hr图像进行采样，生成对应的lr图像；以及使用由所述hr图像和相应的lr图像形成的训练对，训练所述ai模型以执行sr操作。11.如权利要求10所述的系统，其中，所述处理硬件还用于：训练所述ai模型对第一个游戏的cg图像执行所述sr操作；以及使用从第二个游戏图像中选择的roi内的图像块生成的训练数据，重新训练所述ai模型以对第二个游戏的cg图像执行所述sr操作。
12.如权利要求10所述的系统，其中，所述步幅分布包括由用户输入分配的步幅值或者包括参数化的多元分布函数。13.如权利要求10所述的系统，其中，所述ai模型包括神经网络。14.如权利要求10所述的系统，其中，所述hr图像被二维网格划分为多个图像块，并且所述roi被定义为连续图像块的区域。15.如权利要求10所述的系统，其中每个roi被映射到一个或多个步幅值，每个roi被映射的步幅值低于所述roi外部的一个或多个步幅值。16.如权利要求10所述的系统，其中不同的roi被映射到不同的步幅分布。17.如权利要求10所述的系统，其中还包括：显示面板，用于提供图形用户界面(gui)，从所述gui接收所述一个或多个roi的信息，所述信息包括对应hr图像中的所述一个或多个roi的边界。18.如权利要求10所述的系统，还包括：显示面板，用于显示覆盖hr图像的二维网格以及接收由所述二维网格定义的图像块的一个或多个步幅值的用户输入。

技术总结

本发明提供了一种收集用于训练AI模型的训练数据集的方法和系统，所述方法包括：接收高分辨率(HR)图像和HR图像中一个或多个感兴趣区域(ROI)的信息；将步幅分布映射到一个或多个ROI；根据一个或多个ROI和步幅分布以不均匀的步幅对HR图像进行采样，生成对应的低分辨率(LR)图像；以及使用由HR图像和相应的LR图像形成的训练对，训练AI模型以执行超分辨率(SR)操作。本发明可以大大提高在SR操作时图像的质量，同时显着减少重新训练的数据量和时间。同时显着减少重新训练的数据量和时间。同时显着减少重新训练的数据量和时间。