新开传奇私服

传奇私服发布网

当前位置:首页 > 互联网 IT业界 > 首个AI软件工程师震撼硅谷!10块IOI金牌团队铁了心砸程序员饭碗

首个AI软件工程师震撼硅谷!10块IOI金牌团队铁了心砸程序员饭碗

admin 互联网 IT业界 28热度

  编辑部发自凹非寺

  量子位公众号 QbitAI

  一觉醒来,程序员怕是真要失业了。

  首个 AI 软件工程师一亮相,直接引爆整个科技圈。只需一句指令,它可端到端地处理整个开发项目。

  在 SWE-bench 基准测试中,它无需人类帮助,可解决13. 86%的问题。

  相比之下,GPT-4 只能处理 1.74% 的问题,且都需要人类提示告知处理哪些文件

  可以说,它远远超过了此前所有 AI 大模型。

  从零构建网站、自主查找并修复 Bug、甚至是训练和微调自己的 AI 模型通通都不在话下~也可为一些成熟的代码库做贡献。

  就是一些不熟悉的技术,给它看一篇博客文章。它也能立马搞定。

  比如用 ControlNet,生成带有隐藏文字的图像,Devin 就是一点就通~

  据介绍,它已经成功通过一家 AI 公司面试,并且在 Upwork 上完成了实际工作。

  而这背后的公司Cognition,虽然是初创公司,但小而精悍

  在招人信息中明晃晃写着:我们团队有10 块 IOI 金牌

  让同行们直呼:哦莫,疯了吧~

  目前 Devin 尚未公测,不过已经有少部分人拿到了资格,开始实测了一波……

  首个 AI 软件工程师亮相

  Devin 被介绍为世界首个完全自主的 AI 软件工程师。

  它在长程推理和规划上面下了很大功夫,可以规划和执行需要数千个决策才能完成的复杂软件工程任务。

  在这之中,进行到任何一步它都可以回调所有相关的上下文信息,保证整体逻辑性,并方便随时校正错误。

  既然是一个端到端 AI,软件开发人员常用的工具,比如 shell、代码编辑器和浏览器等等,Devin 也都配备(沙盒计算环境中),主打一个全方位服务。

  最终的 Devin,让人类只需要发号施令,其他什么也不用做。

  具体来看,其主要能力有以下六个:

  1、端到端构建和部署程序

  Devin 可以帮我们解决的不只有是代码,还包括与之相关的整个工作流。

  比如,当我们需要设计一个网页游戏时,Devin 不仅能生成网页,还能直接完成服务端的部署,然后直接发布上线,省去了中间的人工操作。

  只需要告诉 Devin,我们想做一个个人网站,里面运行一个 Devin 定制版的生命游戏。

  然后 Devin 表示自己会先搭建网站的基本架构,并询问了有没有更具体的需求。

  在明确要求之后,Devin 给出了这样一份任务清单:

创建 React 应用,安装 UI 模块等依赖 用 React 和 UI 模组搭建前端环境 部署服务器并确保其在私有 IP 下运行 通过 CDN 向首页添加 p5.js 库 在 React 中部署并验证游戏的功能和资源是否正确配置

  接着,Devin 就会按照自己设计的这个清单开始编写代码,然后部署服务……

  △Devin 部署后端服务器的过程

  最终完成全部工作之后,一个即点即玩的游戏链接就呈现在了我们面前。

  2、自主查找并修复 bug

  不仅能一气呵成完成开发部署,Devin 的 debug 能力也是一流。

  开发者给 Devin 一个 GitHub 链接,让它先熟悉项目情况,然后一会儿要准备数据进行测试。

  接着,Devin 就会按部就班地编写测试用的程序并准备好有关数据,然后运行。

  结果,在开发者已经发布的完整项目之中,Devin 还真的找到了连开发者自己都没有发现的漏洞。

  发现漏洞之后,Devin 会回溯报错出现的位置及对应的数据,然后分析原因并给出解决方案。

  最终经过调试,程序的 bug 被成功修复,完美通过了测试。

  3、训练和微调自己的 AI 模型

  除了这些一般的程序或项目,作为一个全能型 AI 助手,Devin 还有能力帮助人类训练和微调其他 AI。

  对于一些常见的模型(比如示例中的 Llama),用户只需要在 promot 中提及模型的名称,Devin 就直接知道要训练哪个模型。

  而在这个示例中,微调的具体方法(QLoRA)是以 GitHub 链接的形式输入给 Devin 的。

  接到指令后,Devin 还是像处理平常的程序一样边规划边执行,所需环境和依赖,还有模型本体,都会自动下载安装。

  这些准备都完成之后,微调工作就会有条不紊地进行,而且其中的状态可以实时监控。

  4、修复开源库

  Devin 的能力不仅在于开发者自己本身的项目,开源社区里的,它也能 hold 住。

  比如我们只需要把 GitHub 项目的 issue 链接丢给 Devin,它就能立即完成所需的所有配置,并自动收集上下文信息,然后开始解决问题。

  当然,开源项目的功能请求(feature request)也没问题,和修问题的流程一样,自己搞好配置,收集上下文,然后就开始编码。

  5、成熟的生产库也能做贡献

  还没完,业已成熟的生产库,Devin 也能给咱秀一把。

  官方介绍,sympy Python 代数系统中有一个对数计算的错误,就被 Devin 顺利解决:

  配置环境、重现 bug,自行编码并修复、测试,再次一气呵成。

  △就是这个库

  6、不熟的技术,现学现卖

  最后,遇到自己不会的技能,Devin 可以直接现学,并迅速付诸应用。

  把你新刷到的技术文章链接直接丢给 Devin:

Hi Devin!我在这个博客文章中(附网址)发现,可以生成带有隐藏文本的图像。文中提到了一个脚本,你能配置好它,然后为我真的生成一些图片吗?

  Ps. 就是利用 ControlNet 来做这件事。

  Devin 接到请求后,首先询问了更为详细的需求,然后开始阅读博客文章,并像平常一样规划出了行动方案。

  有了详细的行动方案后,它立刻就在数分钟内进行代码编写和调试。

  同样的,在这里遇到 bug 也不用惊慌,Devin 同样有能力直接进行修复。

  完成工具的搭建后,Devin 也没有劳烦人类自行配置使用,而是一气呵成,最终生成了咱们要的带隐藏文字的图像:

  可以说表现相当令人惊艳。

  而在具体测试中,Devin 取得的成绩同样亮眼。

  在评估 Devin 的表现时,团队没有使用常见的 HumanEval,而是用了更具挑战性的 SWE-bench。

  这个数据集是由 GitHub 中的实际问题组成的,Devin 不借助任何辅助,就取得了 13.86% 的最高解决率。

  而同样在无辅助的条件下,GPT-4 的问题解决率为零,此前的最佳水平是 1.96%,加入辅助也才 4.8%。

  公司人均一块 IOI 金牌

  如此炸天的新成果,背后却是一家名不见经传的初创公司。

  但这种“名不见经传”背后,实际是一个 10 人员工的编程天才团队,IOI 金牌就有 10 块…人均一块。

  Devin 背后公司名为Cognition AI,总部设在纽约和旧金山,定位是一家专注于推理的应用 AI 实验室。

  此前这家公司一直秘密工作,于两个月前正式注册成立。

  目前该团队规模仅有 10 人,但共揽获了 10 枚 IOI 金牌,创始成员均曾在 Cursor、Scale AI、Lunchclub、Modal、Google DeepMind、Waymo、Nuro 等从事 AI 前沿工作。

  据悉,Cognition AI 由 Scott Wu、Steven Hao、WaldenYan 创立。

  联合创始人兼 CEO Scott Wu,根据我们目前搜到的资料,Scott Wu 曾就读于哈佛大学,曾是 Lunchclub 的联合创始人兼 CTO。

  曾连续三年揽获 IOI 金牌:

  联合创始人兼 CTO Steven Hao,毕业于 MIT 计算机专业,之前曾在 Scale AI、Jane Street、DE Shaw、Quora 工作。

  也曾是 IOI 金牌得主:

  联合创始人兼 CPO Walden,曾于哈佛大学攻读计算机科学和经济学相关专业,还曾从事 MIT PRIMES 密码学和机器学习方向的计算机科学研究,还是沃顿商学院高中投资大赛北美地区决赛入围者。

  2020 年第 32 届 IOI 金牌得主:

  据X推文的转发顺藤摸瓜,还有一位创始成员被扒了出来。

  Neal Wu,同样有哈佛大学教育经历,曾在 tryramp、GoogleBrain 工作过。

  整个团队长期目标,意在通过解决推理问题,在广泛的学科领域解锁新的可能性,而“代码仅仅是开始”。

  不过对于 Devin,目前他们尚未透露是如何实现这一壮举的,包括到底是使用自己的专有模型还是第三方模型。

  此外,Cognition AI 目前已获得硅谷投资大佬彼得·蒂尔的 Founders Fund 基金领投的2100 万美元A轮融资

  众所周知,彼得蒂尔以挖掘这种极具突破性的创新项目著称,而且哈佛背景的创业者更是和他渊源紧密。

  上一个他早期投资中类似背景,最知名的是扎克伯格和 Facebook。

  “自动化软件工程与自动驾驶类似”

  Devin 一亮相,让不少工程师大惊失色:软件工程师…要失业了???

  不过也有人依然乐观:终于有 AI 让我们从繁重的编程任务中解脱出来。

  前特斯拉 AI 总监卡帕西倒是给了一颗定心丸。

自动化软件工程,目前看起来与自动化驾驶类似。

  具体体现在发展进程上:首先人类手动编写代码,然后 GitHub Copilot 自动完成几行,再之后 ChatGPT 编写代码块,现在就是 Devin 的出现。

  接下来,他认为自动化软件工程会演变成为协调开发人员需要串联的许多工具一起编写代码:终端、浏览器、代码编辑器等。以及人类负责监督,逐渐转向更高级别工作。

  结合卡帕西的经历和对自动驾驶的理解,他表达的更多是一种渐进式推进,即会有一段时间的人机共驾,然后在数据和迭代反馈后,才能实现完全无人驾驶。

  自动化软件也类似,先低代码,然后零代码,最后完全不需要人写代码。

  Perplexity AI CEO 给出了个高度的肯定:这应该是任何 Agent 的第一个演示。

它似乎跨越了人类水平的门槛并且可靠地工作。它还告诉我们通过结合 LLM 和树搜索算法可以实现什么

  德扑 AI 之父、前 FAIR(Meta)研究科学家、现已加入 OpenAI 的 Noam Brown 转发开麦:

2024 年是 AI 激动人心的一年。

  所以,程序员们做好被解放的准备了吗?(Doge)

  参考链接:

  [1]https://twitter.com/cognition_labs/status/1767548763134964000/quotes

  [2]https://waldenyan.com/

  [3]https://twitter.com/itsandrewgao/status/1767628564432670904

  [4]https://twitter.com/Lauramaywendel/status/1767588416730894756

  [5]https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

更新时间 2024-05-05 08:28:37