(图片来源网络,侵删)
翻译功能,一般是调用第三方API大概流程是,在一些提供翻译服务的站点注册帐号,然后申请API权限,之后再调用其API接口或SDK,即可实现翻译功能一般情况下,这些翻译机构都提供一定的免费额度,超出部分会按字数收费本文以蜜蜂采集器为例,调用百度翻译接口,实现文本翻译功能插件介绍蜜蜂采集器的插件功能,分为列表页网址插件、数据处理插件、标签数据处理插件、文件上传插件、内容发布插件、消息通知插件每一种插件都支持PHP、Python、Nodejs、Go四种编程语言其中,数据处理插件是在一条采集记录中的所有标签字段采集完毕之后调用,针对的是单条数据记录,可以对单条记录的所有标签内容进行处理标签数据处理插件是在标签数据采集过程中的标签数据二次处理阶段调用,针对的是一次内容采集中的一个标签数据,只能对单条记录的一个标签字段进行处理对于翻译功能,一般是在内容采集阶段,对标签内容进行翻译处理所以,数据处理插件和标签数据处理插件都可以执行翻译操作为了更通用,这里采用标签数据处理插件功能实现关于采集规则的编写,这里略过主要说一下翻译功能打开主菜单“帮助”——“应用市场”类型选择“标签数据处理插件”搜索“翻译”,可以看到“百度翻译公共版”和“百度翻译API版”“百度翻译公共版”无需申请百度翻译接口权限,但有使用频次限制;如果需要大量调用翻译功能,请使用“百度翻译API版”选择对应插件,点击“下载”导入应用市场创建标签数据处理配置后,可以在“标签数据处理配置管理”列表中找到对应的配置项先看一下这个插件的输入参数使用说明:appid / 密钥: 从百度翻译开放平台的管理控制台获取from: 翻译源语言可设置为auto参考通用翻译API接入文档的“常见语种列表”to: 翻译目标语言不可设置为auto参考通用翻译API接入文档的“常见语种列表”因此,“标签数据处理配置管理”列表中找到对应的配置项,点击“修改”然后根据说明填写这四个参数在百度翻译开放平台中,找到“通用文本翻译API”,申请开通“通用文本翻译API”,即可开通后,每月有一定量的免费额度之后,将百度翻译开放平台的管理控制台中的appid / 密钥填充到采集器的配置项中,设置from为zh,设置to为en转到采集规则的编辑窗口启用“标签数据二次处理”,并添加“调用插件”处理项,选择刚刚配置好的翻译配置,即可如图:调用翻译插件测试采集规则点击下方的“测试”,测试是否正常执行在“网址采集”的测试窗口,双击记录项 或 点击“测试内容采集”,即可获得测试网址测试内容发布至此,我们就实现了中文翻译为英文的功能希望这篇文档的介绍,可以抛砖引玉,也能让你了解采集器的使用,可以去蜜蜂采集器官网https://zhi200.com下载最新版本客户端
0 评论