百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 热门文章 > 正文

说说代码的克隆检测(代码智能之克隆检测)

bigegpt 2024-09-22 00:39 3 浏览

文/ 阿里云 - 秦奇

本文章为系列文章,主要介绍代码智能(Code Intelligence)领域涉及的众多有趣的任务(Task),具体会从这些任务的简介、历史和现状等维度展开介绍,希望让大家对于代码智能有一个深切的认识。

本文的主角是 代码克隆检测的技术,即判断两段代码是否相似,也就是 判断是不是“抄”来的。这里不禁有人要问了,程序员的事那能叫抄吗?那是学习、借鉴。对于代码克隆(俗称 Ctrl C,Crtl V)的合理性我们后续再讨论,让我们先聚焦于这个课题本身,即如何判断两份代码的相似性。


克隆检测(Clone Detection)

克隆检测也叫 重复代码、相似代码,这个命题很容易理解,就是看两份代码是不是一样。对于程序员来说这件事情很容易,是不是拷贝来的,看一遍就知道了。但是机器不同,我们需要告诉机器去怎么做。最早的代码克隆检测始于1990年代,至此已有20多年的研究历史,也产生了很多优秀的算法和研究,可以说已经发展成为了一个非常成熟的课题。

代码克隆的一般分类

代码克隆的分类是为了针对不同的克隆方式从而针对性的进行检测方案的设计。目前通用的代码克隆的分类有四种,其检测的难度也是随之逐步递进:

  1. 除了空格、注释之外,两份代码完全相同。也就是拷贝过来就删了空格注释,其他都没变
  2. 除了变量名、类型名和函数名等之外全部相同的代码。这个相比于第一条进步了一下,知道换一下变量名什么的,至少不是一打眼就能看出来了
  3. 有部分语句的增删、转换,比如新增一句无关紧要的代码,或者换一下if的顺序,以及 if 换成switch啥的,但还是大体相同
  4. 同一个功能,不同的写法。严格意义可能不能叫克隆了,代码重构?

听着好像也没啥体感,还是直接上代码吧。 举个例子,最近的业务需要实现一个 生成1到n连续数组的方法,这个难住我了。不过不用急,打开万能的百度(谷歌)啥都能找到。这不,程序员最爱的网站 stackoverflow还真有类似的问题,随便找一个答案直接拷贝过来,空格删掉,即:

但想一想,这个代码网上一搜一大把,得改点东西才行,于是,成了这个样子:

const array = [];
for (var i = 1; i <= 10; i++) {
   array.push(i);
}

三思之后,觉得还不行,改个变量啥的还是可以一眼看出来,容我再改改:

Array.from(Array(10)).map((item, index) => index + 1)

不禁抚须一笑,妙哉妙哉。。。过了几日,好像还可以再优化一下,于是有了:

Array.from(Array(10).keys()).map(item => item + 1)
// 进一步
[...Array(10).keys()].map(item => item + 1)
// 再进一步
const [, ...result] = Array(11).keys();

代码克隆的检测方法

回到克隆检测,针对四种方式也有不同的检测方法,大致可以分为以下几类。

  • 基于 文本相似性的检测方法:此方法是最常见,也最容易执行的检测方式,仅适用于文本差异很小的代码克隆,即上述第1、2种克隆方式,相对检测精确度会比较高。一旦文本差异过大,效果会急剧下降
  • **基于符号(Token)的检测方法:**此方法是利用了解析器将源代码分成符号序列, 然后这些符号序列会被组织成符号的语句, 最后将这些符号组成的语句进行比较。此方法可以很容易检测出 增删语句的行为,但是对于调换顺序不太敏感。
  • **基于语法的检测方法:**此方法会将两份代码同时转为 抽象语法树(AST),进而通过树匹配等算法进行子树的比较,如果相同则认为是 代码克隆。此方法同样对于代码顺序不敏感,也无法识别出标识符或文本的不同,但是可以检测出任何其他细微的修改。
  • **基于语义的检测方法: **基于语义的方法最常用的则是基于图技术的检测方法。此方法先根据代码生成数据流图和控制流图,可同时反映出数据和逻辑的变化,进而将问题转化为 检测相似图的问题。此方法依赖于图的生成,如果不同语言或程序生成的图不相同,往往会导致错误的结果。

综上可以看到,使用一种方法很难准确识别出是否存在代码克隆的问题,往往同时结合多种检测方式,综合来看才可以得到相对准确的结果。?

同时也有很多热门的克隆检测工具和网站,顺手推荐一波:

  • NICad,支持检测类型1、2以及3的大部分的克隆方式,宣称支持任何语言,官方提供了C,Java,C#,Python,PHP,Ruby,ATL和WSDL等的检测插件
  • CCCD,使用concolic分析来检测代码克隆,是基于软件的功能,因此对于类型3、4具备良好的效果

?

抄袭 Or 学习

提到代码克隆,这个问题就无法回避。所以代码克隆到底算是抄袭还是借鉴呢?先看看两者的定义:

  • 抄袭(英語:plagiarism),亦稱作剽窃,根據教育部國語辭典定義,為抄錄他人作品以為己作,对于原著未经或基本未经修改的抄录,这是一种侵权行为。 ----维基百科
  • 借鉴:把别的人或事当镜子,对照自己,吸取经验或教训,以便取长补短。 ---百度百科

从两个定义可以看出,一个是剽窃,据为己有,另一个是取长补短。回到代码上,严格的抄袭很难界定,比如之前的谷歌甲骨文代码侵权一案历经10年,最终结果不论如何,至少说明代码抄袭这件事情在法律上很难去认定。再回到上面提到的例子,业务中遇到不会写、不了解的问题,第一反应大家都是去谷歌查一查是否有类似的实现,然后借鉴过来。我觉得这个操作本身没有问题,只不过区别在于 是否知其然并知其所以然。如果能够了解其原理,并学习致用,甚至能够想出更好的写法,那么也就无所谓“抄袭”,都变成了“自己”的代码。?

相关推荐

pyproject.toml到底是什么东西?(py trim)

最近,在Twitter上有一个Python项目的维护者,他的项目因为构建失败而出现了一些bug(这个特别的项目不提供wheel,只提供sdist)。最终,发现这个bug是由于这个项目使用了一个pypr...

BDP服务平台SDK for Python3发布(bdp数据平台)

下载地址https://github.com/imysm/opends-sdk-python3.git说明最近在开发和bdp平台有关的项目,用到了bdp的python的sdk,但是官方是基于p...

Python-for-Android (p4a):(python-for-android p4a windows)

一、Python-for-Android(p4a)简介Python-for-Android(p4a),一个强大的开发工具,能够将你的Python应用程序打包成可在Android设备上运行...

Qt for Python—Qt Designer 概览

前言本系列第三篇文章(QtforPython学习笔记—应用程序初探)、第四篇文章(QtforPython学习笔记—应用程序再探)中均是使用纯代码方式来开发PySide6GUI应用程序...

Python:判断质数(jmu-python-判断质数)

#Python:判断质数defisPrime(n):foriinrange(2,n):ifn%i==0:return0re...

为什么那么多人讨厌Python(为什么python这么难)

Python那么棒,为什么那么多人讨厌它呢?我整理了一下,主要有这些原因:用缩进替代大括号许多人抱怨Python完全依赖于缩进来创建代码块,代码多一点就很难看到函数在哪里结束,那么你就需要把一个函数拆...

一文了解 Python 中带有 else 的循环语句 for-else/while-else

在本文中,我们将向您介绍如何在python中使用带有else的for/while循环语句。可能许多人对循环和else一起使用感到困惑,因为在if-else选择结构中else正常...

python的numpy向量化语句为什么会比for快?

我们先来看看,python之类语言的for循环,和其它语言相比,额外付出了什么。我们知道,python是解释执行的。举例来说,执行x=1234+5678,对编译型语言,是从内存读入两个shor...

开眼界!Python遍历文件可以这样做

来源:【公众号】Python技术Python对于文件夹或者文件的遍历一般有两种操作方法,一种是至二级利用其封装好的walk方法操作:import osfor root,d...

告别简单format()!Python Formatter类让你的代码更专业

Python中Formatter类是string模块中的一个重要类,它实现了Python字符串格式化的底层机制,允许开发者创建自定义的格式化行为。通过深入理解Formatter类的工作原理和使用方法,...

python学习——038如何将for循环改写成列表推导式

在Python里,列表推导式是一种能够简洁生成列表的表达式,可用于替换普通的for循环。下面是列表推导式的基本语法和常见应用场景。基本语法result=[]foriteminite...

详谈for循环和while循环的区别(for循环语句与while循环语句有什么区别)

初九,潜龙勿用在刚开始使用python循环语句时,经常会遇到for循环和while循环的混用,不清楚该如何选择;今天就对这2个循环语句做深入的分析,让大家更好地了解这2个循环语句以方便后续学习的加深。...

Python编程基础:循环结构for和while

Python中的循环结构包括两个,一是遍历循环(for循环),一是条件循环(while循环)。遍历循环遍历循环(for循环)会挨个访问序列或可迭代对象的元素,并执行里面的代码块。foriinra...

学习编程第154天 python编程 for循环输出菱形图

今天学习的是刘金玉老师零基础Python教程第38期,主要内容是python编程for循环输出菱形※。(一)利用for循环输出菱形形状的*号图形1.思路:将菱形分解为上下两个部分三角形图案,分别利用...

python 10个堪称完美的for循环实践

在Python中,for循环的高效使用能显著提升代码性能和可读性。以下是10个堪称完美的for循环实践,涵盖数据处理、算法优化和Pythonic编程风格:1.遍历列表同时获取索引(enumerate...