第198章 闹中取静之所(2/2)
基于网络知识的方法利用网页内容和超链接相似度进行计算的话虽然不容易。
但谷/歌的老本行PageRank算法引入到NLP领域后实现的功能本就跟这个差不多。
这样看来,和谷/歌方面的团队有过深度合作关系的伊芙团队忽视基于本体的方法而直接选择基于网络知识的方法也是可以理解的。
说起来基于网络知识方法计算相似度实现起来并不容易。
毕竟网页中知识颗粒度较粗。
说白了就是网页中有用的东西少。
加之部分网页的知识结构化程度较低。
如果直接对所有的网页链接进行分析,会导致知识含量稀疏、计算困难等问题。
因此必须找网页结构高同时知识内容集中的网页才适合开发基于网络知识评估文本相似度的方法。