本文共 2656 字,大约阅读时间需要 8 分钟。
面对大数据业务挑战,AI·OS至多能起到30%的作用,随后是算法解决30%+,其余的靠产品和机缘,只不过AI·OS的30%是个前提条件,AI·OS发展的核心线索是优化算法迭代效率。
TPP推荐业务平台、RTP深度学习预测引擎、HA3搜索召回引擎、DII推荐召回引擎、iGraph图查询引擎
集群物理资源的调度任务:中台容器和隔离技术与搜索工程交汇之地,更是模型训练PAI-TF与实时计算Blink通过AOP成为体系友员的桥头堡。
大数据在线服务框架:
阿里搜索事业部
十年一剑,阿里推荐与搜索引擎平台AI·OS首次公开!
Ha3是搜索体系中的在线部分,在其系统内部,包含Qrs(Query result searcher)和Searcher两种基本的角色。
我们把索引数据的生成过程称作离线过程。Ha3的索引是通过搜索团队开发的Build Service系统生成的。
阿里巴巴搜索引擎平台Ha3揭秘
统计模型,机器学习 -> 离线在线与实时的深度学习与智能决策体系
搜索引擎:对数据的整理、分析、索引产生索引库,如何根据用户输入的关键词在索引倒排表中进行检索,完成商品与检索之间的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制
电商搜索独特性:
搜索算法技术的迭代进步:
阿里搜索事业部
电商搜索算法技术的演进
SimNet是百度自然语言处理部于2013年自主研发的语义匹配框架,该框架在百度各产品上广泛应用,主要包括BOW、CNN、RNN、MM-DNN等核心网络结构形式,同时基于该框架也集成了学术界主流的语义匹配模型,如MatchPyramid、MV-LSTM、K-NRM等模型。SimNet使用PaddleFluid和Tensorflow实现,可方便实现模型扩展。
按照文本语义匹配网络结构, 可将SimNet中实现的网络模型主要分为如下两类:
Representation-based Models
如:BOW, CNN, RNN(LSTM, GRNN) 特点:文本匹配任务的两端输入,分别进行表示,之后将表示进行融合计算相似度;Interaction-based Models
如:MatchPyramid, MV-LSTM, K-NRM, MM-DNN 特点:在得到文本word级别的序列表示之后,根据两个序列表示计算相似度匹配矩阵,融合每个位置上的匹配信息给出最终相似度打分;传统的信息检索算法:BM25 算法通过网页字段对查询字段的覆盖程度来计算两者间的匹配得分
深度语义匹配模型:DSSM(Deep Structured Semantic Model)、CDSSM(Convolutional DSSM)、K-NRM(Kernel based Neural Ranking Model)
最新应用于搜狗搜索的深度学习模型以及强化学习训练框架,分别是 IR-Transformer 和 IRGAN(Information Retrieval Generative Adversarial Network,信息检索生成对抗网络)。
基于IR-transformer、IRGAN模型,解读搜狗语义匹配技术