根据网络流量分析公司 SimilarWeb 的统计数据,知名程序员问答平台 Stack Overflow 的流量“自 2022 年 1 月以来平均每月下降 6%,3 月降幅达 13.9%”。究其原因,很可能是受到 GitHub Copilot 和 ChatGPT 等 AI 编程助手的冲击。
Stack Overflow 是供程序员们交流技术问题的问答网站。长期以来,每当开发者陷入编程难题或者忘记了常用的正确语法或参数时,总会选择来 Stack Overflow 进行求助。
不过 Visual Studio Code 等编辑器内的弹出式帮助也能起到提示作用,而且随着 AI 的爆发式发展,这类功能在过去几年内实现了辅助编程质量和范围的显著提升。如今,Coipilot、AWS CodeWhisperer 和最近的爆发的谷歌 Bard 最终让双方的力量对比发生了转折性的变化。
2021 年 6 月,Copilot 率先发布公共预览版,并于 2022 年 6 月起全面上线。与 Copilot 共享部分底层技术的 OpenAI ChatGPT 也能根据要求输出代码。CodeWHisperer 于 2022 年 6 月首次发布预览,谷歌则在上个月推出了 Bard 代码生成功能。
引发网站流量波动的因素有很多,特别是考虑到搜索引擎算法的不断变化,研究人员往往很难总结出 AI 编程助手兴起与 Stack Overflow 流量萎缩之间的对应关系。
Stack Overflow 倒是在发布自己的流量统计数据,但结合 Web Archive 做出的这些数据分析无法与 SimilarWeb 公布的结果完全匹配。不过单从数字来看,如今 Stack Overflow 网站的日均访问者为 560 万,提出 3500 个问题,远低于去年 6 月的 740 万访问者和 5500 个问题。
上周,Stack Overflow 公司 CEO Prashanth Chandrasekar 公开 承认 AI 编程技术已经对 Stack Overflow 构成了挑战。 Chandrasekar 在一封公开信中坦言,公司“正处于困难时期” ,“我做出了一个非常艰难的决定,将裁员约 10%,即 58 名员工。”
统计数据显示,Stack Overflow 上共有 2400 万个问题,其中 69% 得到了回答,这也构成了其他竞争对手难以照搬的宝贵编程资源。但在短短几个月内,AI 技术就开始“侵蚀”这一优势。
在 ChatGPT 出现以前,Copilot 等 AI 编程工具对 Stack Overflow 带来的影响,几乎可以忽略不计。
Stack Overflow 公司 CEO Prashanth Chandrasekar 曾在去年 11 月接受采访时表示,开发人员应当真正理解自己正在编写的代码。“有时候,你得搞清楚自己在开发什么东西。毕竟我们最后还是得做调试,如果不理解开发内容、调试将无从谈起。并没有哪条捷径能让程序员们跳过学习的过程。”
然而,开发人员确实经常在搞不清状况的前提下盲目从 Stack Overflow 上复制和粘贴代码。唯一的指望,就是有足够多的人盯着那些流行的共享代码片段,所以往往有人能及时发现其中的质量问题。但那些更小众的答案就没这么幸运了,网站上的很多问题甚至根本就没有答案。
随着 ChatGPT 爆火,Stack Overflow 也意识到 AI 编程技术已经对其构成了挑战,并已做出反击。
去年 12 月,Stack Overflow 曾率先发布声明称,将暂时封禁 ChatGPT。
当时 Stack Overflow 给出的理由是:由于从 ChatGPT 获得正确答案的平均比率太低,发布由 ChatGPT 创建的答案对网站及询问或寻找正确答案的用户来说是非常有害的。Stack Overflow 表示,虽然 ChatGPT 生成的答案有很高的错误率,但它们通常看起来很不错。有很多人尝试用 ChatGPT 来创建答案,但他们没有专业知识或不愿在发布之前对答案正确与否进行验证。
有网友出于讽刺目的,问 ChatGPT “为什么 Stack Overflow 禁止 AI 生成的答案”,得到的答案如下:
Stack Overflow 是一个供程序员和开发人员提问和回答与编码和计算机编程相关问题的网站。它旨在为寻求特定编程问题帮助或想要了解有关特定主题更多信息的人们提供资源。由于 AI 生成的答案可能并不总是准确或相关,因此它们可能会混淆或误导在 Stack Overflow 上寻求帮助的用户。此外,人工智能生成的答案可能并不总是遵循网站的格式和风格指南,这可能会使它们难以阅读或理解。出于这些考虑,Stack Overflow 禁止人工智能生成的答案可能是合理的。
今年 4 月,Stack Overflow 释放了向 OpenAI 收费的信号,原因是这类 AI 公司使用了自己平台的数据进行训练。除了 Stack Overflow,新闻社区 Reddit 日前也计划开始向使用 API 的公司收费。Reddit 创始人兼首席执行官 Steve Huffman 在接受采访时表示:“Reddit 的数据库确实很有价值,我们没有必要免费提供这些价值给世界上最大的公司。”
与此同时,Stack Overflow 也在积极推出自家的 AI 产品。Chandrasekar 在最近的一篇博文中承诺,公司在未来几个月内会推出“以 AI/ 机器学习为重点的产品。”“我们的专项团队正致力于将生成式 AI 纳入 Stack Overflow 和 Stack Overflow for Teams”,后者是该网站的私人付费版本。
Chandrasekar 也没有忘记强调 AI 编程技术的局限性。“现代大语言模型系统的问题在于,它们会以同样的置信度同时给出正确和错误的答案。而且一旦它们认为这些事实和数据符合用户搜索的回答模式,就会产生「幻觉」。”他还坚持认为,“人类与 AI 之间的共生关系,将保证 Stack Overflow 这类依托社区驱动的平台,始终在技术领域占据一席之地。”