以下是如何构建一个简单的包装函数以在 R 中执行 Python 脚本
复杂的统计分析通常需要使用不同编程语言的脚本。 例如,您可能想在 Python 中开发和训练机器学习模型并处理您的数据,但在 R 中运行统计分析。有时,通过 R 中的一个包装函数来执行所有脚本会更容易。在这篇文章中,我将展示 编写一个简单的包装函数的步骤,该函数采用 R 或 Python 脚本的完整路径,执行它,并写入进程中的日志。
设置日志文件
首先,当您执行多个脚本时,您需要保留一个日志文件来跟踪哪些脚本已执行,以及已生成哪些文件和/或图形。 使用以下代码在 R 中轻松设置日志文件。
logfile_name <- gsub('-| |:','_',paste('logfile_',Sys.time(),'.log',sep=''))
log_file <- file(logfile_name)
我总是喜欢使用 Sys.time() 在文件名中包含复制的开始时间(以防万一您想运行多个迭代进行比较)。 gsub 可用于从文件名中删除任何空格和其他不寻常的字符,用下划线替换它们。
通过“打开”日志文件(即建立连接)并使用 cat() 命令添加日志条目,将新消息附加到日志文件中。 使用 paste() 将存储在对象中的信息与其他字符串组合起来(在此示例中,我包含了正在执行的脚本的名称,存储在名为 script_name 的变量中)。 最后,确保在记录日志消息后立即再次关闭日志文件。
log_file <- file(logfile_name, open = 'a')
cat(
paste(
'\n\nExecuting ',
script_name,
' script (start time: ',
Sys.time(),')',
sep=''
),
file = log_file,
append = TRUE
)
close(log_file)
在 R 中执行 Python 脚本
要执行保存在 R 工作目录中的 R 文件,只需调用 source(script_name.R)。在 R 中执行 Python 脚本需要更多步骤。使用输入参数执行 Python 脚本的代码如下所示。
system(paste('python3', script_name, input_params, sep=' '))
让我们一步一步地看一下这段代码。首先,您需要像在终端(在 Mac OS 上)或命令提示符(在 Windows 上)中使用的那样传入 Python 代码,例如python3 myscript.py。但是,您通常会希望包含一些在 Python 代码中使用的输入参数。为此,您可以将输入参数分配给 R 中的一个对象(在此示例中,此对象称为 input_params)。这是什么类型的对象取决于您创建的 Python 函数。例如,它可以是单个值(例如整数或浮点数)或不同类型的不同值的列表。
第二步,您需要对 Python 脚本进行一些更改,以确保您的程序可以实际使用这些参数:sys.argv[index]。这在下面的示例中进行了说明。
import sys
x = float(sys.argv[1])
print(x + 5)
在此示例中,假设我们的脚本名为 add_five.py。 还假设,无论出于何种原因,我们想从 R 中运行这个 Python 代码并将其应用于浮点值 3.0。 这可以通过使用 R 中的 system() 命令结合您的输入数据和以下代码中的 python 脚本来实现:system(paste('python3 add_five.py 3.0')。
sys.argval 允许您从命令中获取输入。 由于 Pyton 按从零开始的整数索引列表,脚本名称可以通过 sys.argv[0] 访问,而浮点值 3.0 可以通过添加参数 sys.argv[1] 包含在 Python 中的计算中使用。 请注意,此参数将作为字符串值在您的命令中读取,因此您必须将其转换为适合您的代码的类型(此处为浮点值)。
把它们放在一起
综上所述,我们有一个简单的包装函数,它从 R 中执行文件,获取日志文件、打印消息、脚本名称、一些输入参数和编程语言(“R”或“Python”)。 完整代码如下所示。
library(types)
library(testit)
logfile_name <- gsub('-| |:','_',paste('logfile_',Sys.time(),'.log',sep=''))
log_file <- file(logfile_name)
execute_script <- function(script_name = ? character,type="R" ? character,input_params=NULL){
assert("Supported language", type %in% c("R", "Python"))
log_file <- file(logfile_name, open = 'a')
cat(paste('\n\nExecuting ',script_name,' script (start time: ',Sys.time(),')',sep=''), file = log_file,append = TRUE)
close(log_file)
if(type=="R"){
execution_time <- round(system.time({source(script_name)})[3]/60,digits=2)
}else{
execution_time <- round(system.time({system(paste('python3',script_name, input_params, sep=' '))})[3]/60,digits=2)
}
log_file <- file(logfile_name, open = 'a')
cat(paste('\n',script_name, ' script run. Execution time: ', execution_time," minutes",sep=''), file = log_file,append = TRUE)
close(log_file)
message(paste('\n',script_name, ' script run. Execution time: ', execution_time," minutes",sep=''))
}
上面显示的函数允许用户执行 R 和 Python 文件,并在脚本执行完成后注册一个简单的日志消息。 您现在可以直接在 R 中使用 execute_script(“myscript.py”, “Python”, 3.0),而不是使用 source()。
当您需要为结合 Python 和 R 的分析执行许多不同的脚本时,使用包装函数是创建简洁复制工作流的更简单方法。
谢谢阅读!