科技首页创事记互联网电信 IT业界投稿

说人话，搜代码，Facebook发布神经代码搜索数据集+benchmark

2019-10-04 12:01:11 创事记作者：

原标题：说人话，搜代码，Facebook发布神经代码搜索数据集+benchmark 来源：量子位

关注前沿科技量子位

郭一璞发自中关村
量子位报道 | 公众号 QbitAI

怎么才能方便的找自己需要的代码？

最好是能用人话来直接搜索、说什么就给什么那种。

Facebook刚刚发布了新benchmark和数据集，用于评估神经代码搜索模型。

比如在去年滑铁卢大学、Facebook和UC伯克利的研究者发布的NCS模型，还有MIT、Facebook和UC伯克利发布的UNIF这个模型上，都可以运行。

在这类模型上，给到一个自然语言的query，比如：

How can I convert a stack trace to a string?

如何将栈追踪转化为字符串？”

代码搜索模型就会在整个语料库里搜索相关的代码片段。

因此，Facebook此次推出的数据集包含以下三个部分：

总共包含3个部分：

GitHub存储库

由GitHub上近24549个星数最高的Android库的代码片段组成的搜索语料库，包含Python脚本。

搜索语料库

依靠前面的24549个库，解析其中的方法主体，总共包括4,716,814个。给到自然语言query后，代码搜索模型从中搜索出需要的代码片段。

每个方法主体已经给到了包括它的ID、文件路径、起始行、结束行、url等在内的相关信息。

评估数据集

包含287个堆栈溢出问答对，包括其ID、问题、答案url、答案几个部分，这些问题来自Stack Exchange。

在NCS和UNIF两个模型和他们的变体上的运行结果如下：

传送门

论文

Neural Code Search Evaluation Dataset

Hongyu Li, Seohyun Kim, Satish Chandra

https://arxiv.org/abs/1908.09804

GitHub

https://github.com/facebookresearch/Neural-Code-Search-Evaluation-Dataset

NCS模型

Retrieval on source code: a neural code search

Saksham Sachdev, Hongyu Li, Sifei Luan, Seohyun Kim, Koushik Sen, Satish Chandra

https://dl.acm.org/citation.cfm?id=3211353

UNIF模型

When Deep Learning Met Code Search

Jose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra

https://arxiv.org/abs/1905.03813

大会启幕！预见智能科技新未来

（声明：本文仅代表作者观点，不代表新浪网立场。）

分享到:

保存 | 打印 | 关闭

说人话，搜代码，Facebook发布神经代码搜索数据集+benchmark

郭一璞发自中关村
量子位报道 | 公众号 QbitAI

微博推荐

作者简介

作者文章

推荐阅读

新闻热榜

说人话，搜代码，Facebook发布神经代码搜索数据集+benchmark

郭一璞 发自 中关村量子位 报道 | 公众号 QbitAI

微博推荐

作者简介

作者文章

推荐阅读

新闻热榜

郭一璞发自中关村
量子位报道 | 公众号 QbitAI