实时互动网 ·

音视频面试题集锦第 32 期｜面试官针对编解码方向的问题

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

本文汇总了音视频技术面试题，涵盖H.264/H.265编解码的熵编码、帧内预测、CTU与CU结构、运动估计及音频编码中的心理声学模型等内容。每道题目提供考察重点、参考答案及评分要点，供面试者参考。

🎯

🔎

在H.264编码中，熵编码方式的选择对性能和压缩率有显著影响。CAVLC适合低复杂度场景，而CABAC则在高压缩比需求下表现更佳。面试者应理解这两者的适用场景，以便在实际项目中做出合理选择。

H.264和H.265中的帧内预测模式对编码器的优化至关重要。H.265提供了更多的预测模式，能够更好地适应不同的图像复杂度。面试者应关注如何利用这些模式提升编码效率，尤其是在高动态场景下的应用。

运动估计是视频编码中的关键环节，优化策略如早停机制和多分辨率搜索能够显著提高编码效率。面试者应具备相关算法的深刻理解，并能够在实际编码中灵活应用这些优化策略，以应对不同的编码需求。

❓

CAVLC适合Baseline Profile，计算复杂度低，压缩效率中等；CABAC适合Main/High Profile，计算复杂度高，压缩效率高，提升10-15%。

CTU最大为64×64，CU可递归四叉树分割，灵活的块大小适应性提升了压缩率，计算复杂度也有所提升。

可以通过早停机制、预测器优化和多分辨率搜索等策略来优化运动估计算法。

H.264有9种亮度模式和4种色度模式，H.265支持35种角度预测模式及多种块大小，优化编码器性能。

心理声学模型基于听觉掩蔽效应、绝对听阈和临界带宽等原理，用于优化AAC编码的音质。

关键因素包括帧内预测模式选择、运动估计优化和熵编码方式的选择。

🏷️