机器之心原创
作者:徐丹
从音视频的生产、传输到对内容、用户的理解与个性化推荐,再到技术基础设施建设,快手的布局无愧于「科技公司」的称号
11月6日,国民短视频社区快手公布了招股书。
令人惊讶的一个数字是,年上半年快手研发投入高达23亿,占同期总收入比例高达8.9%。
我们一般不会将短视频归入高科技行业之列,但是仔细想想,短视频中的科技应用场景其实非常多。比如视频拍摄特效、千人千面的推荐算法、高速低延时的网络基础设施等。
而快手几乎是从成立初始就开始这些技术布局,从生产与消费的体验,到对音视频内容的理解以及针对用户的个性化推送,再到技术的基础设施建设,布局之深厚超乎想象。
现在,拨开「短视频的第一股」的外表,是时候来重新评估快手这家「技术公司」了。
一、内容生产:自研深度学习推理引擎,AI「飞入寻常百姓家」
用快手拍摄短视频,一个非常大的乐趣是能实现各种各样奇妙的AI特效。
基于强大的图像AI技术,快手在移动端实现了结合自动人像识别、分割、背景生成的实时隐身特效,用户在手机端就可以创作各种有趣的作品。
比如,快手最新上线的「变身童话公主」系列的魔法表情。
再比如,从天而降的「隐身魔法」是结合单图图像修复和帧间图像对齐的视频修复算法,在短视频行业中的首次应用。
基于手机上的摄像头和传感器,快手的移动端混合现实技术几乎可以让每一部手机都变成可以实时感知空间信息的设备,实现虚拟元素和真实环境的自然交互和呈现。
该技术可让快手用户不需要复杂的设备,在手机上就能实现基于空间的创意和沉浸式交互体验。
基于深度学习GAN技术,快手年在国内首发了「娃娃脸」特效,使用该表情就能让脸一键回到幼儿时期。在此基础上还有「变性别」「变手绘」以及即将出现的「变童话」等各种应用。
以上都是快手在短视频行的业首发应用,具有技术先进性。
为保持应用的创新性,快手年就成立了AI实验室Y-tech,招募了许多技术大牛专门负责前沿算法研究,且和魔法表情部门的特效团队合作,加入了产品经理,让技术研究和产品落地无缝对接。
在落地实践上,为克服技术在手机端实时处理的障碍,Y-tech还自研了一套算法压缩模型,能在有限的计算以及内存资源条件下,依然把模型的计算量降到最小,且不影响算法效果。
并且,为让特效在所有的手机上都能运行,Y-tech同时也自主研发了一款深度学习推理引擎YCNN。
YCNN能支持各种型号的CPU、GPU和NPU等底层硬件,且能根据不同的手机算力提供大小不同的特定模型,通过模型下发的方式将设备上的最好算力与相应的模型相匹配。
YCNN整体架构。
在推理引擎优化方面,工程师也会针对不同设备端有针对性地进行算子优化,以最大化利用设备性能。
此外,YCNN引擎还具有完善的AI工具链,支持PyTorch,TF/TFlite模型直接转换为YCNN模型,并支持训练时模型量化与基于硬件的模型结构搜索。综合性能比业界引擎有10%左右的优势。
二、音视频传输:自研传输协议KTP,与直播卡顿较劲
以「拥抱每一种生活」为slogan的快手,用户分布在全球各地。打开App,经常会发现「老铁们」在山沟、田间地头甚至荒野里开直播,但很少出现网络卡顿的情况。
这里面就涉及到快手以「私有传输协议KTP和流式多码率标准LAS」为代表的核心音视频传输技术。
这种技术不仅能保证弱网下作品发布的成功率、直播推流的稳定性与平滑性、视频会议等RTC应用的低延迟与流畅性,还能支持端到端高清P视频的拍摄、制作、上传和播放,并能依据不同用户的网络状态与设备性能,动态选择最佳的清晰度,在观看体验的流畅性、清晰度、低延迟之间取得平衡。
具体解释,媒体内容从生产到被看见必然要经历网络分发的过程。手机将音视频内容经过采集、编码、处理后,传输到媒体服务器,媒体服务器与CDN网络互联,进而由CND分发给快手的用户进行消费。
整个网络传输过程分为上行(媒体内容从主播/创作者到媒体服务器)和下行(媒体内容从CDN到观众),针对上下行,快手分别自研了传输协议KTP与多码率标准LAS来优化端到端的用户体验。
快手传输协议KTP
快手的业务复杂,有作品发布、直播推流、PK/连麦、视频会议、多人互动等等,不同的业务对传输性能的需求各不一样。
例如作品发布要求高吞吐、高可靠、低耗时,直播推流则对低延迟、高平稳性有需求。目前以后的协议与算法,都只