如果人工智能图像生成器是如此聪明,他们为什么难以编写和计数?
有很多议论生成人工智能工具——尤其是那些可以快速创建令人惊叹的图像从文本提示。但有局限性和缺陷,教授Seyedali Mirjalili托伦斯大学的笔记……特别是当手。
生成人工智能工具,如Midjourney、稳定的扩散和DALL-E 2震惊我们的能力产生显著的图像在几秒钟内。
尽管他们的成就,但是,仍然是一个令人费解的差距有人工智能图像生成器可以生产什么,我们可以。例如,这些工具通常不会带来满意的结果看似简单的任务,比如计算对象和生产准确的文本。
如果生成人工智能在创造性表达等已达到前所未有的高度,为什么它斗争任务甚至小学生可以完成吗?
探索潜在的原因有助于揭示了复杂的数值AI的性质,和细微差别的能力。
人工智能与写作的局限性
人类可以很容易地识别文本符号(如字母、数字和字符)用不同字体和笔迹。我们也可以产生文本在不同的上下文中,理解上下文可以改变的意思。
当前人工智能图像生成器缺少这种固有的理解。他们没有真正的理解任何文本符号是什么意思。这些发电机都是建立在人工神经网络训练大量的图像数据,从“学习”协会和作出预测。
组合训练图像与各种形状的实体。例如,两个内部线路,满足可能代表一个铅笔的笔尖,或一所房子的屋顶。
但当涉及到文本和数量,联想必须非常准确,因为即使是很小的缺陷是明显的。我们的大脑可以在铅笔的尖端忽略微小的偏差,或屋顶——但不是当谈到如何写一个字,或一只手的手指。
— Weird Ai Generations (@weirddalle)2023年1月22日
text-to-image模型而言,文本符号只是线条和形状的组合。因为文本有很多不同的风格,因为使用字母和数字在看似无穷无尽的安排——模型通常不会学习如何有效地复制文本。
的主要原因是训练数据不足。人工智能图像生成器需要更多的训练数据准确地代表文本和数量比其他任务。
人工智能的悲剧
问题也出现在处理小的对象,需要复杂的细节,如手。
在训练图像,手往往是小,持有对象,或部分被其他元素。变得具有挑战性的AI将“手”一词的确切表示人类的手有五个手指。
因此,AI-generated手经常看畸形,有更多或更少的手指,或手部分覆盖了对象如袖子或钱包。
我们看到一个类似的问题时。人工智能模型缺乏清楚的认识:一个物理量,如“四”的抽象概念。
因此,图像发生器可能回复提示“四个苹果”,借鉴学习无数图像有许多大量的苹果,并返回一个输出错误的数量。
换句话说,协会在训练数据的巨大多样性影响输出量的准确性。
AI会能够写,数数吗?
重要的是要记住text-to-image和text-to-video转换在人工智能是一个相对较新的概念。当前生成平台是“低分辨率”版本的我们可以期待在未来。
进步是在训练过程和人工智能技术,未来人工智能图像生成器可能会更能产生准确的可视化效果。
最值得注意的公开访问AI平台不提供最高水平的能力。生成准确的文本和数量要求高度优化和定制的网络,所以付费订阅更高级的平台可能会带来更好的结果。
这篇文章最初发表在谈话并与许可复制在这里。
教授Seyedali Mirjalili是人工智能研究中心的主任和优化托伦斯大学澳大利亚。
你说