可在图像中生成任意精准文本,支持中文!阿里开源AnyText_每日快讯(专注热点分享网)

可在图像中生成任意精准文本,支持中文!阿里开源AnyText


可在图像中生成任意精准文本,支持中文!阿里开源AnyText

  2024-01-10 02:09:41     简体|繁體
http://news.qghjm.com/1034109.html


来源:AIGC 开放社区

图片来源:由无界 AI生成

随着Midjourney、Stable Difusion等产品的出现,文生图像领域获得了巨大突破。但是想在图像中生成/嵌入精准的文本却比较困难。

经常会出现模糊、莫名其妙或错误的文本,尤其是对中文支持非常差,例如,生成一张印有“2024龙年吉祥”的春联图像,就连著名的文生图模型都很难精准生成。

由著名文生图模型生成:图像还行,提示词根本理解不了嵌入图像中的中文

为了解决这些难题阿里巴巴集团的研究人员开源了,多语言视觉文字生成与编辑模型——AnyText。

根据「AIGC开放社区」的实际使用体验,AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等,目前在Github超2,400颗星非常受欢迎。

由AnyText生成,完美理解中文提示词,同时可自定义文字出现的位置

值得一提的是,AnyText能以插件形式与其他开源扩散模型无缝集成,可全面强化其图像嵌入精准文本的能力

开源地址:https://github.com/tyxsspa/AnyText

论文地址:https://arxiv.org/abs/2311.03054

在线demo:https://huggingface.co/spaces/modelscope/AnyText

AnyText测试界面,直观操作简单,可手动调节各种参数

AnyText支持中文、日文、韩文、英语等多种语言,可帮助电商、广告平面设计、电影制作、动画设计师、插画师、网页设计、UI设计师、数字营销等领域的人员,提供高精准、自定义的文生图像服务。

AnyText技术架构

目前,开源的扩散模型在生成的图像中嵌入精准文本表现不佳,主要有3个原因:

1)缺乏包含全面文本内容注释的大规模图像和文本配对数据集。现有的大规模图像扩散模型的训练数据集,如LAION-5B,缺乏手动注释或文本内容的OCR结果。

2)许多开源扩散模型使用的文本编码器,如CLIP文本编码器,采用基于词汇的分词器,无法直接访问字符级别的信息,导致对个别字符的敏感性降低。

3)大多数扩散模型的损失函数旨在提高整体图像生成质量,缺乏对文本区域的专门监督和优化。

针对上述难题,阿里的研究人员开发了AnyText模型和AnyWord-3M数据集。AnyText采用了文本控制的扩散流程,包括两个重要模块:辅助潜变量和文本嵌入

辅助潜变量模块用于生成或编辑文本的潜在特征,作用是接受文本字形、位置和遮罩图像等输入,生成用于文本生成或编辑的潜在特征

这些潜在特征在生成或编辑文本时起到辅助作用,帮助确保文本的准确性和一致性。

辅助潜变量使得AnyText能够在图像中,生成或编辑曲线或不规则区域的文本。这也就是说,即便想生成弯曲、不规则的字体也没问题!

文本嵌入模块利用OCR模型将笔画数据编码为嵌入向量,并与标记器生成的图像标题嵌入向量进行融合,从而生成与背景无缝融合的文本。

为了提高书写准确性,研究团队采用了文本控制的扩散损失和文本感知损失进行训练。

提升图像嵌入文本精准度

为了进一步提高生成文本的准确性,AnyText采用了文本控制扩散损失和文本感知损失进行训练。

文本控制扩散损失,用于控制生成的文本在指定位置和样式上的准确性。它通过比较生成文本与目标文本之间的差异,促使模型生成更准确、一致的文本。

文本感知损失,作用是进一步增强生成文本的准确性。它通过比较生成文本的特征表示与真实图像中相应区域的特征表示之间的差异,来衡量生成文本在视觉上的准确性。

AnyWord-3M数据集

这个数据集是提升AnyText文本能力的重要部分,一共包含了300万个图像-文本对,并提供了多种语言的OCR(光学字符识别)注释。

AnyWord-3M中出现的文本行超过900万行,字符和词汇数总量超过2亿。文本涵盖中文、英文、日文、韩文等语言。这是目前公开的规模最大,也是第一个专门用于文本生成任务的多语种数据集

主要包含的数据集:悟空数据集的中文部分,这是哩哩哩实验室构建的数亿级中文跨模态数据集。AnyWord-3M从中筛选出约154万张图像。

LAION数据集的英文部分,由斯坦福大学等构建的大规模英文图像文字匹配数据集, AnyWord-3M选择了其中约140万张图像。

多个OCR识别数据集,包括文字定位和识别领域的标准数据集ArT、COCO-Text、RCTW等,提供了约10万张带标注的文本图像。

在获取这些源数据之后,AnyText研究人员还设计了严格的过滤规则,对图像和文本行进行过滤,确保训练数据的质量。

文本行过滤的规则非常细致,例如,文本行高最小30像素、文本识别置信度超过0.7等。

所以,AnyWord-3M吸取了多个数据集的精华中的精华,也是AnyText能力非常强悍的重要原因之一。



编辑:web3528btc 来源:加密钱包代币

免责声明:以上文章内容信息均搜集自互联网或用户发布,并不代表本站观点或立场,本站不对其真实合法性负责。如有信息侵犯了您的权益,请联系本站将立即删除。
分享到:

  • 上一篇
    下一篇

  • 今日要闻|实事关注

    每日快讯(专注热点分享网)
    手机查看(二维码扫一扫)

    每日快讯网,最有影响力热点信息分类网站,覆盖品牌价值、汽车资讯、视频、基金、财经、房产、金融新闻、券商、公司等多类信息分享交流,免费提供最有价值的头条信息平台。
    « 1995年 » « 03月 »
    12345
    6789101112
    13141516171819
    20212223242526
    2728293031

    最新资讯

    [代运营托管]食疗 养生图书 小护士检测仪 枕 激光治疗仪 熊胆粉 脚垫 泡酒瓶 驼奶 有好量
  • 2025-06-01 05:19:01

     

    [代运营托管]熊胆粉,血压计,激光治疗仪,中医养生,食疗养生,量大稳定,注册65+,来聊
  • 2025-06-01 05:14:58

     

    [开户代运营]千万级流量渠道,提供大健康养生和小病种优质流量,质量好,转化高
  • 2025-06-01 05:10:54

     

    [开户代运营]血压计,小护士,激光治疗仪,护心仪,艾草枕,夏凉枕,水杯免领好量,缺量的来
  • 2025-06-01 05:06:51

     

    [开户代运营]百度(baidu)食品,珠宝加白解析,逾期律师律所正企端口户,旅游,教育,中医养生,9+4行业高点
  • 2025-06-01 05:02:47

     

    按A 助**投流获客 腾讯、快手、百度都可以投放 全国可跑 有意者可以联系
  • 2025-06-01 04:58:44

     

    肠好不好嘴唇先知?嘴唇裂、嘴角起泡或因肠道堵塞真相扎心
  • 2025-06-01 04:54:40

     

    在战略重构中,民生银行正在寻找商业银行发展新范式
  • 2025-06-01 04:50:36

     

    郭冬临北京隐居生活:58岁瘦到认不出,无儿无女坦言很遗憾
  • 2025-06-01 04:46:33

     

    颜丙燕拒绝代言,缺席娱乐节目,与李乃文心结难解,49岁依旧单身
  • 2025-06-01 04:42:29

     

    用怼脸照来测颜值,杨幂美翻全场,孙俪却显失常
  • 2025-06-01 04:38:26

     

    钓岛黄尾屿以北对峙,辽宁舰编队抵近钓岛海域,日本F15J战机紧急升空拦截歼15
  • 2025-06-01 04:34:22

     

    朝鲜驱逐舰出事后,其官方的几个动作与以往大为不同,透露出的信息不一般
  • 2025-06-01 04:30:19

     

    李若彤双剑合璧!西山居《剑侠情缘·零》今日10:00公测
  • 2025-06-01 04:26:15

     

    百廿光影耀中法,银幕流光启新章—— 第16届巴黎中国电影节盛大开幕
  • 2025-06-01 04:22:12