张皓《深度学习视频理解》- 买旧书上有路

第1章绪论1 1.1 引言1 1.2 本书内容5 1.2.1 图像分类7 1.2.2 动作识别9 1.2.3 时序动作定位12 1.2.4 视频 Embedding14 1.3 本章小结15 第2章经典网络结构回顾16 2.1 经典图像分类网络16 2.1.1 LetNet-516 2.1.2 AlexNet18 2.1.3 VGGNet22 2.1.4 GoogLeNet24 2.1.5 Inception V2/V327 2.1.6 ResNet28 2.1.7 preResNet31 2.1.8 WRN32 2.1.9 随机深度网络33 2.1.10 DenseNet35 2.1.11 ResNeXt36 2.1.12 SENet39 2.1.13 MobileNet41 2.1.14 MobileNet V2/V344 2.1.15 ShuffleNet46 2.1.16 ShuffleNet V249 2.2 RNN、LSTM和GRU51 2.2.1 RNN51 2.2.2 梯度爆炸与梯度消失52 2.2.3 LSTM55 2.2.4 GRU58 2.3 本章小结60 第3章基于2D卷积的动作识别62 3.1 平均汇合62 3.2 NetVLAD和NeXtVLAD64 3.2.1 VLAD65 3.2.2 NetVLAD66 3.2.3 NeXtVLAD71 3.2.4 NetFV和其他策略75 3.3 利用RNN融合各帧特征77 3.3.1 2D卷积 RNN的基本结构78 3.3.2 对RNN结构进行改造80 3.4 利用3D卷积融合各帧特征81 3.4.1 什么是3D卷积82 3.4.2 ECO85 3.5 双流法87 3.5.1 什么是光流87 3.5.2 双流法的基本网络结构89 3.5.3 双流法的网络结构优化91 3.6 时序稀疏采样95 3.6.1 TSN95 3.6.2 TSN的实现98 3.6.3 ActionVLAD99 3.6.4 StNet100 3.6.5 TRN102 3.7 利用iDT轨迹104 3.7.1 DT和iDT104 3.7.2 TDD107 3.8 本章小结108 第4章基于3D卷积的动作识别110 4.1 3D卷积基础网络结构110 4.1.1 C3D110 4.1.2 Res3D/3D ResNet113 4.1.3 LTC116 4.2 I3D118 4.2.1 5类动作识别网络118 4.2.2 2D卷积扩展为3D卷积119 4.2.3 5类网络对��121 4.3 3D卷积的低秩近似123 4.3.1 低秩近似的基本原理124 4.3.2 FSTCN125 4.3.3 P3D127 4.3.4 R(2 1)D129 4.3.5 S3D132 4.4 TSM135 4.5 3D卷积 RNN137 4.6 ARTNet139 4.7 Non-Local141 4.7.1 Non-Local 操作141 4.7.2 Non-Local 动作识别网络144 4.8 SlowFast148 4.8.1 Slow分支和Fast分支149 4.8.2 网络结构设计151 4.9 3D卷积神经网络超参数设计152 4.9.1 多网格训练152 4.9.2 X3D154 4.10 本章小结157 第5章时序动作定位159 5.1 基于滑动窗的算法160 5.1.1 S-CNN161 5.1.2 TURN166 5.1.3 CBR169 5.2 基于候选时序区间的算法171 5.2.1 Faster R-CNN 回顾172 5.2.2 R-C3D175 5.2.3 TAL-Net178 5.3 自底向上的时序动作定位算法183 5.3.1 BSN183 5.3.2 TSA-Net187 5.3.3 BMN191 5.4 对时序结构信息建模的算法197 5.4.1 TAG 候选时序区间生成算法198 5.4.2 SSN 网络结构199 5.5 逐帧预测的算法202 5.5.1 CDC层203 5.5.2 CDC 网络结构206 5.6 单阶段算法208 5.6.1 SSAD208 5.6.2 SS-TAD212 5.6.3 GTAN214 5.7 本章小结217 第6章视频Embedding219 6.1 基于视频内容的无监督 Embedding220 6.1.1 编码-解码网络221 6.1.2 视频序列验证222 6.1.3 视频和音频信息224 6.1.4 视频和文本信息225 6.2 Word2Vec229 6.2.1 CBOW和Skip-Gram229 6.2.2 分层 Softmax234 6.2.3 负采样239 6.3 Item2Vec247 6.3.1 Item2Vec 基本形式247 6.3.2 Item2Vec的改进249 6.4 基于图的随机游走252 6.4.1 DeepWalk252 6.4.2 Node2Vec254 6.5 结合一二阶相似度257 6.5.1 LINE258 6.5.2 SDNE262 6.6 基于图的邻居结点265 6.6.1 GCN265 6.6.2 GraphSAGE269 6.6.3 GAT272 6.7 基于多种信息学习视频Embedding274 6.7.1 召回模型276 6.7.2 训练278 6.8 本章小结280 附录A 视频处理常用工具281 A.1 FFmpeg281 A.2 OpenCV284 A.3 Decord291 A.4 Lintel294 参考文献296

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

深度学习视频理解

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户