RSA算法是一种最广为运用的“非对称加密算法”,一般公钥/私钥长度越长,安全性就越好,核算也越杂乱。百度云https改造中应用了RSA 2048加解密算法,针对高核算杂乱度的RSA解密使命,咱们运用FPGA上的并行核算资源和定制化的数据通路,供给了高达45000QPS的解密才能(是CPU单线程吞吐率的75倍以上,比美商用ASIC加解密卡的吞吐率),一起还将供给独具特色的私钥办理计划,令体系安全性得到了质的提高。
软件调用API履行
编译
履行lspci | grep -i Xilinx,输出非空,证明FPGA已被正确透传给虚拟机。
编译驱动,进入rsa-driver目录,履行make。
如提示“No such file or directory”,请修正Makefile中的KERNELDIR变量,使之指向正确的内核编译目录,一般为/usr/src/kernels/$(uname -r)。
如编译时提示符号重界说,请删去源文件中的PDE_DATA、file_inode、kvalloc、kvfree等符号。
加载驱动,履行insmod fpga_drive.ko。
查看/dev/fpga0的权限是否为0666,如过不是,请履行chmod 666 /dev/fpga0。
在openssl体系engine目录创立到rsa-api/output/so/libfpga_rsa_cpp.so的软链接,即履行ln -s /path/to/rsa-api/so/libfpga_rsa_cpp.so /usr/lib64/openssl/engines/libfpga_rsa_cpp.so。
经过openssl规范engine接口运用RSA加快功用,在正确加载并初始化engine后即可经过RSA_private_encrypt、RSA_private_decrypt进行RSA私钥加解密。
FPGA支撑密钥长度在2048 bits以下的RSA私钥加解密。如给定密钥长度超出此规模,engine会转交CPU核算,此刻功能等同于直接运用CPU处理。
#include ‹openssl/rsa.h›
#include ‹openssl/engine.h›
#include ‹openssl/err.h›
OpenSSL_add_all_algorithms();
ERR_load_crypto_strings();
ENGINE_load_dynamic();
/* load engine */
ENGINE *engine = ENGINE_by_id(fpga_rsa_cpp);
if (engine == NULL) {
LOG(WARNING) ‹‹ Could not Load fpga_rsa_cpp Engine!;
return 1;
}
LOG(INFO) ‹‹ fpga_rsa_cpp Engine successfully loaded;
/* init engine */
int init_ret = ENGINE_init(engine);
int set_ret = ENGINE_set_default_RSA(engine);
LOG(INFO) ‹‹ engine name = ‹‹ ENGINE_get_name(engine);
LOG(INFO) ‹‹ init_ret = ‹‹ init_ret;
LOG(INFO) ‹‹ set_ret = ‹‹ set_ret;
if ((init_ret != 1) || (set_ret != 1)) {
LOG(WARNING) ‹‹ Failed to init engine;
return 1;
}
/* use engine */
RSA_private_decrypt(flen, from, to, rsa, padding);
功能测验
qps
履行openssl speed rsa2048 -engine fpga_rsa_cpp -multi 36,在sign/s一栏中能够看到qps。正常状况应在40000/s以上。
latency
履行openssl speed rsa2048 -engine fpga_rsa_cpp -multi 1,在sign一栏中能够看到latency。正常状况应在700us左右。
RSA私钥解密QPS比照
FPGA解决计划与运用双路Intel Xeon E5-2620 v2服务器(超线程敞开,共24核)进行纯CPU核算比较,功能优势非常显着,如下图所示。当RSA密钥长度为512 bits、1024 bits和2048 bits时,前者的私钥解密QPS分别是后者的2.13、4.52和9.36倍,latency仅为后者的89%、50%和27%。