学霸的黑科技时代(校对)第45部分在线阅读
机器翻译在很多时候都会捡着听得懂的翻译,听不懂的乱翻译。这也是很多品牌的翻译机拿到国外去应用的时候让顾客感到并不顺心,翻译机更不能作为会议同声翻译的原因。
为了处理上面两个主要问题,萧铭按照说明书的建议项,编辑着。
萧铭采用数学的思维,将每个词语设定为向量,并且分类为名词、动词等等。
将词语设定为向量的好处就是讲长难句进行肢解,翻译软件处理时会将每个词语准确的翻译。
接下来就是按照语言的语境筛选组合,将不同的词语按照翻译对象需要的语法和含义进行组合,并对缺少的语法要素进行补足。
在盘古编程语言的提示下,萧铭知道自己编程的逻辑是正确的。
但是逻辑正确只是第一步,怎么让拥有向量的词语按照语法组合为新的语句,这个很难,这也是现代翻译软件和机器最大的难点。
没有关系,这是盘古最擅长的。
盘古给了萧铭几个接入入了口。
萧铭将导入大量的中英文资料,资料不仅有名著更有口水话表达的网路小说、贴吧问答、微博、推特文章等等。
未来这些资料会可以由用户们自己上传,优化程序的准确性。
盘古的数据库能将整合这些资料,熟悉每一个句子的语境,然后整理出数据模型(模拟出汉语和英语等人类思维表达方式的模型)。
这些数据会帮助“词向量”在不同的语境和语法中出现在合适的位置,如此翻译会更加准确。
这项工作最大的难点就是编译量非常大!
所以现今市面上现存的翻译软件都是采用语言学家总结的语法库,即便有少部分软件有自我学习功能,也不能做到了解和统计当今所有的语言习惯并对其作出分析。这也是现有翻译软件机械不智能错误百出的原因。
剩下的一些接口,萧铭将其接入全国各地的免费直播间,直播间主播有用普通话有用地方语言,也属于口语的表达,最具有代表性。
盘古语言将搜集各地的语音和语气将其归类编译,最后形成语音数据库和文字库相对应。
盘古编程使用方式很简单,不需要输入代码,只需要告诉逻辑意图,当萧铭告诉逻辑和方式之后,编程语言就可以明确运行。
然后……
然后计算机卡死了,卡得发烫!
萧铭废了半天功夫心血化为乌有。
劳资……
萧铭购买的笔记本是华硕的普通笔记本,用的是i7
8550u处理器。
笔记本的处理器处理如此大量的数据,不卡死才怪!
萧铭看了下时间,已经凌晨三点。
“我需要一组服务器。”萧铭说道,随后他躺在床上继续思考着语言翻译和英语学习助手软件的逻辑性问题。
接下来的几天,萧铭在学校很沉默。
除了做必要的数学和理综练习题以外,大部分时间都在做英语阅读和语文阅读。
学校小组的成员都知道萧铭在水木大学老师离开之后心情不怎么好,都没有去打扰他。
几天之后,萧铭问老爹要了十万块的经费,直接网购了四组英特尔Xeon
E5-2603v4芯片组建的服务器主机,并且联系人上门安装。又花钱开通了企业光纤专线。
萧铭看着白花花的银子今天时间就花没了,也是肉痛。
两个行业绝对是暴利!
一个是英特尔的芯片行业,一个是电信的通讯行业!
安装服务器的年轻师傅看着几天没睡好觉有些沧桑猥琐的萧铭,偷偷说道:“建直播网站?小兄弟,现在风声紧,服务器好还是租用海外的好点,自己建设风险大!”
萧铭无语,“那你要不要先充个会员?可以一对一。”
师傅嘿嘿笑了两声说道:“不了不了。”
第061章
完爆所有产品
服务器搭建完毕后,萧铭用周六和周末两天时间,再次使用盘古语言编辑程序的逻辑顺序。
而数据的收集则要感谢知识产权保护不严格的夏国网络环境,大量的文献资料都可以从网上免费获取。
在各大免费的直播间,同时都出现了一个叫做盘古带尾标的ID帐号,只看直播从不发言。
在某直播间,一个刚刚直播的新人在直播了一周后终于迎接了一个叫盘古2333的观众。
(盘古进入直播间是按照地域随机进入。)
主播美女一个劲的搔首弄姿叫着盘古哥哥要打赏,就差没脱衣服了。
要是知道盘古只是一个信息收集接口,不知道会不会气把衣服都脱光。
按照家中光纤的传输速度和盘古收集文件以及音频的速度,整个过程预计需要一周左右。
在期间(数据开始收集的前半个小时),萧铭检查过程序的运行。
他给电脑街上耳麦,说道:“松鼠爱干果。”
萧铭研发的还没有完全成熟也没有取名的翻译程序用温柔的女生进行了翻译:“The
squirrel
love
Fuck
fruit。”
萧铭竖起了大拇指!牛掰啊!这个翻译有水平啊!很生猛!
虽然翻译相当不到位,不过从程序的测试可以看出翻译软件的雏形已经完备,这种翻译水平已经达到了某些三四流翻译软件的水平。
数据收集和建模继续着,萧铭也只有继续等待结果。
“萧铭!”周六放学后,郑璇雨喊道。
“一起去喝杯水?”郑璇雨看到萧铭最近的状态不是很好,主动提议道。
奶茶店,郑璇雨点了一杯蜂蜜柚子,萧铭点了一杯香精味浓重原味奶茶。
郑璇雨笑着问道:“你不是说和奶茶不好吗?都是香精勾兑的。”
萧铭狠狠吸了一口说道:“香精比益智口服液管用。”
郑璇雨偷笑一声,说道:“这么多天都过去了,还在想着英语不好被水木大学拒绝的事?不是还有燕京大学兜里嘛。”
萧铭心中其实很感谢郑璇雨,在如此繁忙的复习期间也愿意在自己情绪不稳的时候陪着聊天。
萧铭说道:“郑璇雨,你相不相信最多十年!我就让全国高考取消英语这一科目,让各大高校也不会以英语水平高低作为入学的标准。”
“我信。”郑璇雨充分相信萧铭,还是不忘打趣道:“你不是被燕京大学特招了嘛,怎么还在做英语阅读。”
萧铭笑道:“现在学英语,只是想证明作为全球通用的简单语言,我是可以完全掌握的。”
两人相视一笑心照不宣。
郑璇雨望着窗外已经抽出绿叶的柳树说道:“还有两个月就高考了,我还不知道能考成什么样。”
萧铭给予鼓励,“鲁迅说,伟大的成绩和辛勤劳动是成正比例的,你就放心吧。”
郑璇雨则回复道:“鲁迅还说过,我没有说过上面的话。”
和郑璇雨聊天后,萧铭的心情要好了不少。
回到家中,萧铭照例检查程序的运行情况。
经过一周多的时间,正在运行盘古语言已经装入了千万份资料,也完成了建模工作。
发烫的服务器似乎也证明了盘古语言一周的工作相当繁忙。
编程的最后一项打包程序并命名。
萧铭这个时候才发现,盘古语言真的太贴心了,打包程序可以为WIN系统使用的EXE格式安装文件,也可以是APK格式的安卓程序安装文件和ipa、pxl、deb等支持IOS的安装文件。
萧铭先打包为EXE后为翻译软件随意命名为“译狗”英文名为“EG(Easy
Go)”。
名字不重要,看功能。
运行软件,直接出现一个语音助理,语音助理也是依托于拟人神经网络语言构架的数据库产生的。
先不管语音助理,萧铭随意找了一篇网文的一章,复制粘贴后点击翻译。
为了对比期间,萧铭也打开了有道、白度翻译、爱词霸(金山公司)的翻译软件相互进行对比。
夏国的网文的词语最代表夏国人用语的习惯,很多词句不标准是口语化的表达,但是却能准去的表达意识。
四个软件都是秒译,但是翻译有所区别。