目前识别率较高的垂直领域,很多都已成为视觉搜索的切入口。例如条码、二维码、人脸、图书、CD封面,这些在iOS版的手机百度APP中都已经作为标配置入了。但这也是垂直品类的细分,生活中的物品千千万,类别是无法穷举的。水果、盆景、树木、昆虫等领域都得一个个分别来,百度的程序猿们也必须得根据使用率来排个优先级,否则从此就可以不用睡觉了。
2.大数据与海量计算
图像识别需要云端积累的海量数据。百度魔图的明星脸识别之所以能运转,最基础的是百度拥拥有海量的明星图片库。“赏花宝典”4人团队中,也有一个成员是专门负责获取花卉图片库。
在视觉搜索的服务器端,数据被聚类提取特征。形成“长这样的是什么”的规律,搜索引擎在获得用户上传的图片并提取出特征后,通过比对来了解这个图片的意义。数据越多,规律越准确越细,识别准确率越高。
从数据信息提取出规律并形成知识,这是“深度学习”技术在做的事情。也就是说,机器像人脑一样思考,自动从海量数据中找出规律来,整个过程中自我完善。有些需要人工纠正干预,有些干脆就是无监督学习。
百度在深度学习方面布局很早,延揽人才之手早已伸向硅谷腹地,国家千人计划学者余凯、Facebook前资深科学家徐伟、新泽西州立大学统计学教授张潼,均被李彦宏招至麾下。深度学习也不是万能的,要有计算能力和大数据做基础,没有这两样,一切都是空谈。好在,百度这两样都有。
3.理解用户意图
视觉搜索当前的流程是上传一张图片,搜索引擎返回结果。这个信息输入往往是不够的。仅仅通过一张图片便知道用户的搜索意图,除了特别信息特别明确的图片,这几乎是机器现阶段难以完成的任务。
视觉搜索目前的处理逻辑有三种:第一种是默认用户要搜索的是:这张图片是什么?例如宠物狗搜索;第二种是只返回相似图片,不提供具体信息,例如百度PC端的图片搜索;第三种是在特定领域提供个性化信息——图书、CD封面和条形码是比价,“PK大咔”是比对明星脸,赏花宝典则进一步提供社交、知道、百科信息。但这三种都还是“猜测搜索意图”。而不是理解用户搜索意图。
如何通过识别图片,进而理解用户搜索意图是当前的难点。这与语音搜索遇到的困难类似,语音转换为文字已经相对成熟,但人机对话目前依然停留在很初级的阶段。这也需要深度学习来解决。只有期望深度学习继续带来惊喜了。
转截请注明:文章来自 pc捍卫者 http://www.pchwz.com
本站发布此文为传递更多信息之目的,不表明pc捍卫者赞同其观点