2024CTIS-文章详情页顶部

免费 AI “神器”系列第八弹:全球首个 AI 软件工程师Devin来袭;阿里版Sora模型爆火|钛媒体AGI

AGI的潜力究竟有多大?

图片来源:unsplash

图片来源:unsplash

近期,通用人工智能(AGI)领域又涌现出多款创意十足的新应用。

今天,钛媒体AGI梳理了免费 AI “神器”系列第八弹,共五款,其中不少产品再一次拓宽了我们对AI的想象力。

  • 全球首个最强 AI 软件工程师——Cognition Labs Devin
  • "阿里版Sora"——AtomoVideo
  • 条漫生成神器——Dashtoon Studio
  • AI版“大家来找茬”——Anything in Any Scene
  • AI头像生成器——PhotoMaker
  • 3D生成模型——TripoSR

1、全球首个最强 AI 软件工程师——Cognition Labs Devin

产品信息:今天,华人团队创立的Cognition Labs推出全球第一个 AI 软件工程师 Devin,也是目前最强的 AI 软件工程师,引发网络关注。

产品功能:不同于GitHub Copilot等 AI 编程助手,Devin并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。

Cognition表示,它可以计划和执行需要数千个决策的复杂工程任务,可以在每一步中回忆相关的上下文,随着时间的推移学习并纠正错误,以及主动与用户协作的能力;而且 Cognition 还为 Devin 配备了通用的开发人员工具,包括 shell、代码编辑器和沙盒计算环境中的浏览器——人类完成工作所需的一切。

图片来源:视觉中国

数据显示,根据他们对 Devin 在 SWE-bench 上做的测评,Devin不仅可以自动完成任务,还可以在几分钟内自行编写整个应用程序,并且自动正确解决了 13.86% 的问题,远远超过Claude 2(4.80%)、Llama、GPT-4(1.74%,3.5测试结果是 0%)。

图片来源:视觉中国

图片来源:视觉中国

随着Devin的推出,3月13日,Cognition Labs宣布完成2100万美元的A轮融资,由Funders Fund领投,Stripe创始人Patrick Collison和John Collison,Twitter 前高管埃拉德·吉尔 (Elad Gil) 等跟投。目前,Cognition创始团队共有10个人,华人面孔居多。

项目地址:https://www.cognition-labs.com/blog

2、"阿里版Sora"——AtomoVideo

产品信息:AtomoVideo是一款由阿里巴巴推出的高保真图生视频(I2V,Image to Video)框架,能通过输入图片生成对应的动态视频。

产品功能:用户向AtomoVideo输入一张高清图片后,即可生成1~2秒的动态视频。视频内容不仅与初始图片的细节与风格保持高度一致,而且动作也相对流畅,不会出现突兀的跳转。

AtomoVideo演示视频

AtomoVideo演示视频

此外,AtomoVideo不仅能与现有的多种文生图(T2I)模型兼容,还能够通过迭代预测后续帧的方式,支持长视频序列的生成。

据开发团队介绍,AtomoVideo生成的视频的动作流畅度和时间连贯性,都要明显优于明星视频生产产品Pika与Runway。他们使用了多粒度图像注入技术,能使AtomoVideo生成的视频与给定图像保持高度的一致。

AtomoVideo一经推出便受到不少关注,被誉为“阿里版Sora”。不过,目前阿里团队只发布了AtomoVideo的论文和演示视频,并未开放在线体验地址。

项目地址:https://huggingface.co/papers/2403.01800

3、条漫生成“神器”——Dashtoon Studio

产品信息:Dashtoon Studio是一款由初创公司Dashtoon推出的AI漫画生成应用,能根据文本快速生成相应的漫画。

产品功能:用户只需在Dashtoon Studio平台的文本框,输入一段包含人物与情节的文本,等待2分钟左右就能生成一话漫画。Dashtoon Studio允许用户自由设定漫画人物的形象与漫画风格,创作有个人特色的漫画作品。

图片来源:视觉中国

图片来源:视觉中国

Dashtoon Studio允许用户自由设定漫画人物的形象与漫画风格

Dashtoon表示,这一工具可以大幅缩短漫画的制作时间。此前创作一话漫画可能需要40~50小时,现在只需5~6小时。

公开资料显示,Dashtoon由Sanidhya Narain、Lalith Gudipati和Soumyadeep Mukherjee于 2022年12月创立,前两者曾是音频娱乐公司Pocket FM的创始团队成员。

2023年11月,Dashtoon宣布,已完成500万美元种子轮融资,印度风投公司Matrix Partners India和Stellaris Venture Partners领投。此轮资金计划将用于Dashtoon在未来几个月内深化其人工智能研究、推进产品开发和内容制作。 

体验地址:https://dashtoon.com/

4、AI版“大家来找茬”——Anything in Any Scene

产品信息:Anything in Any Scene是一款由小鹏汽车推出、能将任何对象无缝插入到动态视频中的视频模拟框架。

产品功能:Anything in Any Scene能将真实的物体集成到给定的场景视频中,并放置在适当的位置以确保几何真实感,还能根据视频里的天气状况和光照条件模拟真实阴影,并采用风格转换网络来细化最终的视频输出,以最大限度地提高被插入物体与视频的融合度。

图片来源:视觉中国

视频中被红框框出的物体就是被Anything in Any Scene巧妙安插进去的。

视频中被红框框出的物体就是被Anything in Any Scene巧妙安插进去的。

Anything in Any Scene的开发团队表示,该框架可以用于电影制作,例如替换掉一些拍摄成本较高的电影场景,或模拟现实世界很少发生但又比较重要的场景。

项目地址:https://anythinginanyscene.github.io/

5、AI头像生成器——PhotoMaker

产品信息:PhotoMaker是一款由腾讯开发,可以根据文本描述生成多种风格照片的AI生成技术。

产品功能:用户可以在PhotoMaker上输入想定制的人的多张照片,然后结合文本描述,生成不同风格的个人照片。还可以把多张人物照片特征混合后,生成个性化的人物图像,比如将苹果公司CEO蒂姆·库克和OpenAI首席执行官萨姆·奥尔特曼照片混合,再比如生成图灵奖得主杨立昆(Yann LeCun)配上各种电影画面的 AI 合成图片,形成拥有全新面部特征的人物。

图片来源:视觉中国

PhotoMaker的生成效果示意图

PhotoMaker甚至可以将人物的黑白老照片变成彩色高清照片,还能通过替换关键词,改变原照片人物的年龄和性别。截至发稿,PhotoMaker在Github上已累积超过7700颗星。

体验地址:https://huggingface.co/spaces/TencentARC/PhotoMaker

6、3D生成模型——TripoSR

产品信息:TripoSR是一款由Stability AI和华人团队VAST联合推出的3D生成模型。

产品功能:用户只需将图像上传到TripoSR上,等待数秒后就能生成对应的3D模型图。不需要任何prompt和专业知识,甚至不需要依赖GPU。

图片来源:视觉中国

TripoSR生成的3D模型图

开发团队声称,这款3D生成模型能为游戏、工业设计和建筑专业人士提供用于可视化3D对象的响应式输出。

体验地址:https://huggingface.co/spaces/stabilityai/TripoSR

 (本文首发钛媒体App,作者|任颖文、林志佳,编辑|林志佳)

转载请注明出处、作者和本文链接
声明:文章内容仅供参考、交流、学习、不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

扫描下载App