当前位置:数智频道首页 > 人工智能 > 正文

阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出

Qwen-Image 的主要特性包括文本渲染能力和通用图像生成能力。在复杂文本渲染方面,Qwen-Image 表现出色,支持多行布局、段落级文本生成及细粒度细节呈现,无论是英语还是中文,均能实现高保真输出。在所有基准测试中,Qwen-Image 均取得了最先进的性能。特别是在用于文本渲染的 LongText-Bench、ChineseWord 和 TextCraft 上的结果显示,它在中文文本渲染方面表现尤为出色,大幅领先现有最先进模型。

阿里通义千问首个图像生成基础模型 Qwen-Image 开源,支持中文高保真输出

示例如下:宫崎骏动漫风格的画面里,平视角拍摄下的古街热闹非凡。阳光下,一个穿着青衫、手持写着“阿里云”卡片的逍遥派弟子站在中间,旁边两个小孩惊讶地看着他。左边有一家挂着“云存储”牌子的店铺,里面摆放着发光的服务器机箱,门口有两个侍卫守护。右边有两家店铺,其中一家挂着“云计算”的牌子,一位穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。

一幅典雅庄重的对联悬挂于厅堂之中,房间布置安静古典,中式风格明显。桌子上放着一些青花瓷,对联上左书“义本生知人机同道善思新”,右书“通云赋智乾坤启数高志远”,横批“智启通义”,字体飘逸。中间挂着一幅中国风的画作,内容是岳阳楼。

除了文本处理,Qwen-Image 在通用图像生成方面也表现出色,支持多种艺术风格。从照片级写实场景到印象派绘画,从动漫风格到极简设计,该模型能够灵活响应各种创意提示。

热点推送

本周关注

MORE