一、用小波变换及颜色聚类提取的视频图像内中文字幕(论文文献综述)
杨恺[1](2020)在《自然场景图像中汉字的识别研究》文中研究表明随着电子智能设备的普及,人们获取自然场景中的图像越来越方便,研究识别自然场景图像中的汉字也逐渐成为热点问题。针对目前一些方法中识别效率低下、准确率不高、拟合较差等问题,本文从汉字的检测定位与识别两方面进行分析研究。在汉字的检测定位方面,采用边缘增强的最大稳定极值区域方法,用HOG算子来提取自然场景图像中汉字的梯度信息,增强汉字区域的对比度,结合颜色聚类与启发式规则,进一步剔除图像中的背景信息。然后,采用笔画宽度变换的方法对汉字候选区域进行精剪,并对原方法中梯度方向的夹角范围进行调整,再结合形态学中的闭运算,消除汉字内部的微小孔洞。最后,通过计算汉字连通区域中笔画宽度的方差与变异系数,进行汉字连通区域的提取与合并。对比实验结果表明,本文的方法在准确率和召回率方面表现优异,综合F值明显高于其他算法。在汉字的识别方面,先引入减聚类算法来确定K-means算法的初始聚类中心及其个数,再用K-means算法确定RBF神经网络的径向基函数中心,然后用改进后的RBF神经网络设计了一个汉字分类器。之后,设计了一个12层的深度卷积神经网络模型来进行汉字块的识别。最后,在汉字识别的后处理过程中,把前面的结果进行综合调整修正。两组对比实验结果表明,本文的汉字分类器有着较高的准确率,同时,深度卷积神经网络模型对汉字也具有更好的拟合性。
刘畅[2](2016)在《分布式相似音视频检索》文中研究说明随着互联网多媒体内容的日渐丰富,网络带宽的提高,人们在日常生活中对多媒体内容的需求也在增加。相对于传统的文字检索引擎,多媒体内容检索一直难以取得良好的效果。在多媒体内容中又以视频和音频为主,如何设计实现合理有效的音视频检索系统是计算机视觉领域值得研究的课题之一。论文的主要工作包括:1.提出了一种基于图像局部特征描述的图像检索方法,通过视频帧级别的相似度计算来衡量视频片段间的相似度。将传统的SIFT+BOW和基于兴趣点的二进制描述方法结合来描述图像的局部特征。实验结果通过比较召回率和准确率验证了所提方法的有效性;2.改进了原有的基于Audio Spectrum Flatness(ASF)特征的音频检索系统,包括音频输入格式的归一化、利用Open Multi-Processing(OpenMP)技术给算法增加多线程功能,局部敏感哈希索引结构的参数调整等。通过对大量现实互联网数据测试,召回率和准确率均高于90%;3.将本文提出的视频检索方法移植到具有分布式计算能力的Hadoop平台上。通过对库视频的分片来进行任务的分解,分化到集群内的每个节点上进行。通过不同节点数的配置的实验结果来看,分布式处理方式提高了系统的检索速度;4.提出了一种基于基线结构的维语字幕快速检索方法。经过实验证明在二值化良好的图像上检测准确率高于95%。
李丽洁[3](2012)在《视频中文本信息提取技术研究》文中研究表明视频是一种综合图像、文本、声音多种模态信息的媒体数据,具有数据量大、信息丰富的特点。随着计算技术、多媒体处理技术、网络技术的发展,视频数据急剧膨胀,传统的基于人工标注的视频内容分析技术已经无法满足海量视频数据的管理和检索需求,人们希望计算机能实现视频内容的自动提取,随之基于内容的视频检索技术应运而生。然而视频文件具有非结构化的数据组织方式,是以像素的形式存储目标对象的颜色、亮度和位置等低层信息,缺乏对高层语义信息的直观描述,而且数据量巨大、表现内容多样,因此关于如何实现计算机自动从视频数据中提取高层语义内容的研究成为了视频数据的自动化、智能化管理和检索领域的热点。视频中的文本不仅与视频内容高度相关,为视频内容的自动理解提供了非常重要的线索,而且相比于其它信息更易于提取,因此实现视频中文本信息的自动提取识别对于基于内容的视频数据检索研究具有重要的意义。实现视频中文本信息的自动提取并非易事,文本通常嵌在复杂的背景当中,即使在同一视频中,文本的语言、字体、颜色也表现多样化。本文针对视频中文本信息提取的关键技术进行了深入研究,包括视频图像中文本区域的检测、定位,连续多帧出现的同一文本区域的跟踪,以及文本字符的分割。针对视频中文本的检测和定位问题,提出了一种融合小波特征和局部二值模式特征由粗检测到精确定位实现的视频文本检测定位的方法。首先结合边缘和角点在视频图像中完成潜在文本区域的检测,然后融合小波特征和局部二值模式特征描述纹理并运用基于流行学习的等距离映射法(Isometric mapping, ISOMAP)进行特征降维,最后采用支持向量机(Support Vector Machine, SVM)方法实现文本区域的精确分类并基于梯度密度图实现单个文本行的精确定位。算法通过多特征、多步骤实现视频中文本区域的检测和定位。为了提高视频中文本区域检测定位的效率,提出一种基于模版匹配的视频文本区域跟踪算法。文本区域图像经小波重构所得的边缘图像作为匹配模版,利用基于相关性的归一化的互相关(Normalized Cross-correlation, NCC)测度作为模版匹配度量标准实现视频文本的跟踪,同时应用金字塔匹配策略进行分层次匹配。有效地利用视频中文本的时间冗余特性,实现快速高效的文本区域跟踪,可以避免在每一帧中都执行文本区域检测定位,加快整个视频文本信息提取的速度。视频中的文本通常处于复杂背景当中,本文提出了一种基于多帧融合的视频文本分割算法。首先选择同一文本图像序列中背景简单的图像进行融合,极性判断后得到适合OCR软件的反对色文本图像。针对字符笔画结构多样性的特点,综合考虑字符的灰度特性和边缘特性,对传统的二维最大条件熵进行改进,将基于非降采样Contourlet变换(Non-subsampled Contourlet Transform, NSCT)的最大二维条件熵作为适应度评价函数,利用细菌觅食优化(Bacterial Foraging Optimization, BFO)算法高效的全局寻优能力计算图像分割的最佳阈值。算法有效地减少了复杂背景对文本分割的影响,提高了分割阈值的精确性和视频文本的识别率。另外,本文还提出了一种基于脉冲耦合神经网络(Pulse Coupled Neural Network,PCNN)的视频文本分割算法。充分研究了PCNN在图像分割应用中的优良特性,针对视频文本分割具体应用,对简化的PCNN网络模型的参数和输出标准进行改进,在文本分割过程中,基于PCNN的方法不同于传统的阈值分割方法,能够有效地缩小灰度值相近的相邻像素的差别。本文的视频文本分割方法有效可行,对于复杂背景同样具有较强的鲁棒性。
张阳,王嘉梅[4](2011)在《一种改进的小波变换域的字符定位方法》文中研究指明在分析图像中字符特点的基础上,研究其在小波变换域中的特征,依据这些特征,分析频率加权阈值法和利用块间信息的平均阈值法的优缺点,将二者结合进行图像字符定位。实验表明,该算法可进行图像中的字符定位,同时又可以弥补两种方法定位时的不足。
刘凯[5](2010)在《电视图像中的字幕检测算法》文中研究表明如今,电视节目数量的飞速增长给电视台职员的工作带来更多的压力以及体力上的消耗,有些岗位要求每天24小时不间断监看电视画面,有些岗位要求不断地审核视频图像资料。电视台每天在对视频图像资料的审核、监看以及搜索中花费了大量的人力物力,那么如何对视频图像资料进行科学有效地管理,如何提高视频监控的效率,必将是一个非常有应用价值的课题。同时,与课题相关的技术同样能应用于社会的其他行业,如:车辆车牌号码识别、图书馆多媒体资料管理、比赛现场的数据记录等等。他们的共性都是在多媒体图像中进行文字检测与识别。电视台的工作中需要大量对视频图像中的字幕进行检测和处理,这些工作目前都是由人工去完成,效率相对较低,而且造成一大部分资源的浪费。本文从实际工作需要出发,立足于电视图像中的字幕检测这一课题展开研究和讨论,最终得到一种快速高效的图像字幕检测实现算法。本文首先介绍了目前国内外在此领域的研究现状以及使用的各种技术,然后分析总结出目前我国电视图像中字幕的几类特性,并根据这些特性提出了本文的算法,算法首先基于边缘检测提取字幕特征,然后依据文字分布特性进行判别并形成字幕区域,最后利用字幕灰度值和颜色信息进行文字与背景分离。算法最终实现了预期的功能,并取得了较好的效果。
赵爱群[6](2010)在《视频文本提取算法》文中进行了进一步梳理数字视频在教育、娱乐及其它多媒体应用中发挥着重要作用。为了满足需求,各种各样的视频分析、检索技术被提出,其中,视频文本包含了丰富的高层语义信息,可用来对视频进行语义标注。本文研究从视频文件中提取出字幕文本的方法。首先从视频文件中自动截取若干视频帧,对每幅视频帧采用基于Sobel算子的最大梯度算法检测文本边缘;再利用文字丰富的边缘信息,使用方差投影定位文本区域;然后通过计算区域边缘密度过滤虚假文本区域;最后利用数学形态学处理文字边缘图像,通过计算颜色标准差获得文本的颜色信息,从而分割出文本图像。实验表明,本文提出的方法不但可以比较准确地定位视频文本,过滤虚假文本区域,还可以有效去除文字区域的背景图像,提高文字识别率。
昝蕊[7](2010)在《数字视频中字幕的检测与提取》文中指出对数字视频中的字幕进行检测及提取是基于字幕的视频检索的重要组成部分。利用字幕进行检索可以大大降低视频检索的复杂度,提高视频检索的速度和准确性,因此,自动地从视频中检测及提取出字幕,对基于内容的视频检索有着重要的意义。字幕存在于视频的图像帧中,要进行字幕提取,首先要对视频进行镜头分段,再针对每段镜头提取出字幕帧,接着对字幕帧图像进行字幕区定位,最后提取出字幕并送入OCR软件进行识别。本文主要完成以下内容:1.镜头分段部分,对双重比较镜头分段算法进行改进,将阈值的选取自适应化。通过软件编程,运用此算法实现了镜头的突变和渐变检测,实验表明此方法具有一定的实用性。2.字幕帧检测部分,对基于内容分析的关键帧提取算法进行改进,将关键帧提取与字幕帧检测相结合,选取关键帧中最大亮度方差的一帧作为字幕帧。改进后的算法主要针对的是新闻视频中的字幕帧检测,具有针对性,但缺乏通用性。3.字幕区域定位部分,提出了基于小波的视频字幕定位算法。首先对字幕帧图像进行灰度化,并进行小波加权重构,再运用二值形态学处理去除非字幕块,然后运用多尺度边缘检测加强边缘,最后通过投影定位出字幕区域。该算法创新在于将多尺度边缘检测用于字幕区定位,提高了查全率。仿真实验表明此方法对阈值的设定不敏感,在复杂多变的视频背景下,仍然有比较好的效果。4.字幕识别部分,首先对提取出的字幕进行插值放大,提高分辨率,采用全局阈值法二值化字幕,用投影方法分割出字幕,送入OCR软件进行识别。大量实验表明,此方法效果比较满意。
王宏松[8](2009)在《辅助虚拟布景的视频字幕实时分离系统设计与实现》文中进行了进一步梳理对视频字幕的处理在不同的应用环境中有不同的要求。在视频检索系统中,字幕的分割、提取和识别都是基于软件的,算法都是在软件环境中实现的。软件系统具有成本低、易于维护的优点。它的缺点是实时性不好,尤其是有的算法本身决定了无法到达视频实时输出的处理要求;而且由于运行软件的平台是通用计算机,通常具有许多附加的强大功能但实际当中并不使用,因此造成资源浪费,使成本提高。随着多媒体应用技术的发展和网速时代的来临,每天都会出现大量的视频内容。人们面对海量内容的视频信息需要更快速地甚至实时地处理。集成电路产业的飞速发展,使新的技术工艺逐步成熟,器件集成度更高、速度更快、成本更低,许多以前不易在硬件上实现的算法,现在可以轻松实现了,而且具有成本低、可靠性高、速度快等优点。因此,本文根据目前视频字幕检索技术的基本原理和基本思想,提出了一种视频字幕的实时分离算法,并在软件进行算法验证的基础上,设计出了一个基于硬件实现的KTV实时视频字幕分离系统。该系统采用数字视频编解码芯片和可编程逻辑器件,使算法在硬件基础上设计实现,可解决数字视频处理的速度问题和可靠性的问题。首先,研究了视频字幕的分割算法和背景修复算法。针对具体的应用背景,对KTV视频字幕的特点进行了分析,然后对现有的视频字幕分割提取算法进行分析、比较,提出易于硬件实现、速度较快的一些算法,并在软件环境下进行了验证、仿真,以保证算法的正确和有效。然后设计了硬件系统,包括系统整体结构设计、电路设计和印制电路板设计。根据功能需求,在整体上考虑硬件系统各个部分的组成和结构,定义了每个部分相应的功能规范。在电路设计中,兼顾较新的技术实现和较低的成本考虑,进行器件选型、电路结构的设计。在印制电路板的设计中考虑了设计规则的定义、元件布局、布线原则、规则检查和原理图对比,还有电路调试的基本手段说明。最后在硬件系统上对算法进行了功能实现。在规格制定中,明确了系统功能和基本的性能指标,然后定义了功能模块以及模块之间的接口。在硬件描述语言的设计中,考虑了数字视频信号的特点,在兼顾速度的同时降低了逻辑电路的复杂度,控制了设计面积。在调试后期,与数字色键合成系统进行了联机应用测试,效果令人满意,达到了设计的要求。
唐伟伟[9](2009)在《视频图像中文本定位与提取的方法研究》文中提出文本是视频图像中重要的内容信息。视频图像中文本的检测和识别在视频分析过程中起到很大的作用。文本可以作为视频图像的内容标识和索引,例如在视频监控中出现的车牌号码,如同身份证般具有唯一性,可用于视频资料的检索以确定目标车辆。所以对视频图像中文本的检测和分析是视频分析的重要内容。可见,如何从背景复杂的视频图像中快速而准确地定位和提取文本,一直是这些年来国际上热门的研究课题。针对图形文本的角点信息较为丰富的特点,本文给出了一种基于角点检测和形态学的文本定位方法。我们注意到,视频图像中的文本一般都与背景有着颜色与亮度的强度对比,这使得文本区域包含了丰富的角点信息。利用这个特征,可先检测出图像的角点信息,接着就能通过形态学的方法定位出候选文本区域。实验表明,该方法可以提取出大部分的文本区域,特别是对于背景简单的图像或视频帧,具有较高的准确性。随后,本文讨论了阈值分割技术,并成功实现了基于小波变换跟支持向量机、小波变换跟K均值聚类两种文本分割方法,实验结果显示:在复杂背景下,即便是对于字体、大小和位置都不确定的文本信息,该方法仍然具有良好的分割效果。文章在最后还简要地介绍了字符识别原理以及几种常用的字符识别方法。
唐思源[10](2009)在《视频帧中的文本检测与提取技术》文中提出随着计算机和通信技术、宽带网络技术、音视频压缩技术以及计算机硬件技术的发展,图像和视频中的文本信息对索引、检索及高层语义的自动理解等具有重要价值。本文主要研究如何从视频帧中检测、提取与识别人工添加的文本信息。论文的主要工作如下:首先,根据文本的特征以及目前存在视频图像的文本定位和提取算法,实现了一种基于边缘检测的文本定位方法。实现主要流程包括:对选取的视频帧图像进行灰度化处理、边缘检测、边缘图像二值化及数学形态学操作,最后定位文本区域。实验表明该方法实现简单,并且可以定位出大部分的文本区域,但当图像或视频帧中背景本身包含了丰富的边缘信息时,则定位文本区域就不够准确。其次,对定位好的文本区域进行提取与识别,本文应用基于阈值分割方法来提取文本。在处理简单或者单一背景色的文字图像时,使用经典的阈值分割算法中的最大类间方差法(OTSU),该方法计算简单、稳定有效。在复杂背景下提取文字时,本文使用了局部自适应的阈值化方法。经过实验测试,得到了很好的分割效果。最后,对提取出的文本进行去噪声等处理,最大限度地去除文本的背景,为OCR识别系统提供完整清晰的二值输入文本图像。经“尚书七号”文字识别软件对文本图像进行识别后,结果证明文字的正确识别率能达到80%左右。
二、用小波变换及颜色聚类提取的视频图像内中文字幕(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、用小波变换及颜色聚类提取的视频图像内中文字幕(论文提纲范文)
(1)自然场景图像中汉字的识别研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景 |
1.2 课题研究现状 |
1.2.1 基于纹理特征的方法 |
1.2.2 基于边缘特征的方法 |
1.2.3 基于连通区域的方法 |
1.2.4 基于机器学习的方法 |
1.3 本文主要研究内容 |
1.4 本文组织结构 |
第2章 相关技术 |
2.1 图像的倾斜矫正与汉字切分 |
2.1.1 倾斜矫正 |
2.1.2 透视变形矫正 |
2.1.3 汉字切分 |
2.2 汉字连通区域的预处理 |
2.2.1 平滑滤波 |
2.2.2 高斯模糊 |
2.2.3 汉字的骨架提取 |
2.3 数学形态学的图像处理 |
2.3.1 膨胀运算 |
2.3.2 腐蚀运算 |
2.3.3 开、闭运算 |
2.4 本章小结 |
第3章 自然场景图像中汉字的检测定位 |
3.1 基于最大稳定极值区域的汉字定位 |
3.1.1 MSER原理介绍 |
3.1.2 MSER的数学定义 |
3.1.3 基于边缘增强的MSER检测 |
3.1.4 基于颜色聚类的汉字检测定位 |
3.2 基于笔画宽度的汉字候选区域精剪 |
3.2.1 笔画宽度变换算法原理 |
3.2.2 改进的笔画宽度变换算法 |
3.3 汉字连通区域的提取与合并 |
3.4 实验结果及分析 |
3.4.1 汉字检测定位对比实验 |
3.5 本章小结 |
第4章 自然场景图像中汉字的识别 |
4.1 汉字分类器的设计 |
4.1.1 传统的RBF神经网络 |
4.1.2 K-means算法 |
4.1.3 减聚类算法 |
4.1.4 改进的RBF神经网络算法 |
4.2 深度卷积神经网络模型 |
4.2.1 传统的卷积神经网络 |
4.2.2 深度卷积神经网络设计 |
4.3 汉字识别的后处理 |
4.4 实验结果及分析 |
4.4.1 汉字分类对比实验 |
4.4.2 汉字识别对比实验 |
4.5 本章小结 |
第5章 总结与展望 |
5.1 论文总结 |
5.2 工作展望 |
参考文献 |
攻读硕士学位期间发表的论文及参与的科研项目 |
致谢 |
(2)分布式相似音视频检索(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题研究背景和意义 |
1.1.1 分布式音视频检索 |
1.1.2 维语字幕检测 |
1.2 国内外研究现状 |
1.2.1 分布式音视频检索的研究现状 |
1.2.2 维语字幕检测的研究现状 |
1.3 本文的工作和安排 |
1.3.1 主要研究内容 |
1.3.2 论文结构安排 |
第二章 视频检索 |
2.1 引言 |
2.2 视频检索中的关键技术 |
2.2.1 视频特征提取 |
2.2.2 索引结构 |
2.3 视频检索算法流程图 |
2.4 特征提取 |
2.4.1 SIFT描述子 |
2.4.2 “词袋”模型与汉明嵌入编码 |
2.4.3 基于SIFT兴趣点的二值特征 |
2.4.4 视频特征文件 |
2.5 视频相似度计算 |
2.5.1 SIFT兴趣点间相似度计算 |
2.5.2 基于自相似度加权的图像相似度计算 |
2.5.3 视频片段相似度计算 |
2.6 检索结构与排序 |
2.6.1 “词袋”算法中的倒排索引 |
2.6.2 汉明嵌入编码中的倒排索引 |
2.7 实验结果与分析 |
2.7.1 实验数据集 |
2.7.2 评测标准 |
2.7.3 实验结果 |
2.7.4 实验分析 |
2.8 本章总结 |
第三章 音频检索 |
3.1 引言 |
3.2 音频检索系统概述 |
3.3 音频特征提取 |
3.3.1 预处理 |
3.3.2 ASF特征 |
3.4 索引结构与匹配方式 |
3.5 实验结果与分析 |
3.6 本章总结 |
第四章 分布式视频检索 |
4.1 引言 |
4.2 Hadoopp平台 |
4.3 视频检索的封装与移植 |
4.4 实验结果与分析 |
4.5 本章总结 |
第五章 视频图像中的维语字幕检测 |
5.1 引言 |
5.2 视频图像中字幕区域的检测 |
5.3 文字图像的二值化 |
5.4 维语基线结构 |
5.5 实验结果与分析 |
5.5.1 文字区域检测 |
5.5.2 维语字幕检测 |
5.5.3 实验结果分析 |
5.6 本章总结 |
第六章 总结与展望 |
6.1 论文总结 |
6.2 工作展望 |
参考文献 |
致谢 |
(3)视频中文本信息提取技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景及意义 |
1.2 视频文本信息提取相关知识 |
1.2.1 视频文本信息提取系统 |
1.2.2 视频文本的分类及特点 |
1.3 国内外研究现状 |
1.3.1 视频文本检测定位研究现状 |
1.3.2 视频文本跟踪研究现状 |
1.3.3 视频文本增强和分割研究现状 |
1.3.4 视频文本信息提取研究存在的困难 |
1.4 论文的主要工作与组织结构 |
第2章 视频中文本信息提取相关技术 |
2.1 基于内容的视频检索 |
2.2 文本对象纹理提取相关技术 |
2.2.1 文本对象纹理特征分析与描述 |
2.2.2 小波变换原理 |
2.2.3 非降采样 Contourlet 变换原理 |
2.3 高维特征降维技术 |
2.4 文本对象纹理分类技术 |
2.5 本章小结 |
第3章 视频文本检测与定位 |
3.1 引言 |
3.2 基于边缘和角点密度的潜在文本区域粗检测 |
3.2.1 边缘和角点特征提取 |
3.2.2 潜在文本区域粗检测 |
3.3 基于纹理特征的文本区域精确定位 |
3.3.1 小波分解及多尺度特征提取 |
3.3.2 局部二值模式特征提取 |
3.3.3 基于 IOSMAP 的高维特征向量降维 |
3.3.4 SVM 文本分类器训练和分类 |
3.4 文本行定位 |
3.5 实验结果及分析 |
3.6 本章小结 |
第4章 基于多帧的视频文本跟踪和分割 |
4.1 引言 |
4.2 基于模版匹配的视频文本跟踪 |
4.2.1 基于小波重构的文本匹配模版 |
4.2.2 文本模版匹配度量标准 |
4.2.3 金字塔分层匹配 |
4.2.4 基于 NCC 测度模版匹配的文本跟踪 |
4.3 多帧融合文本区域增强与极性判断 |
4.4 基于改进的二维条件熵的视频文本分割 |
4.4.1 基于 NSCT 的改进二维条件最大熵 |
4.4.2 BFO 算法原理 |
4.4.3 基于 NSCT 最大熵和 BFO 的文本分割 |
4.5 实验结果及分析 |
4.5.1 文本跟踪实验结果及分析 |
4.5.2 文本分割实验结果及分析 |
4.6 本章小结 |
第5章 基于改进 PCNN 的视频文本分割 |
5.1 引言 |
5.2 PCNN 模型基本原理及应用 |
5.2.1 PCNN 模型及原理特性 |
5.2.2 PCNN 在图像分割中的应用 |
5.3 基于改进 PCNN 模型的文本分割方法 |
5.3.1 改进的 PCNN 模型及参数设置 |
5.3.2 基于最大类间方差的输出选择标准 |
5.4 实验结果及分析 |
5.5 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文和取得的科研成果 |
个人简历 |
致谢 |
(4)一种改进的小波变换域的字符定位方法(论文提纲范文)
1 小波变换域能量表征及分类 |
2 小波变换域中确定图像字符坐标方法 |
3 实验结果及讨论 |
(5)电视图像中的字幕检测算法(论文提纲范文)
摘要 |
ABSTRACT |
第一章 绪论 |
1.1 课题背景 |
1.2 课题目的和意义 |
1.3 国内外研究现状 |
1.4 论文组织结构 |
1.5 本章小结 |
第二章 算法总体思想 |
2.1 引言 |
2.2 研究内容 |
2.3 算法流程图 |
2.4 本章小结 |
第三章 文字区域预定位 |
3.1 引言 |
3.2 边缘检测提取特征 |
3.2.1 Sobel算子运算 |
3.2.2 电视字幕特征 |
3.2.3 利用特征初过滤 |
3.3 文字分布特性判断 |
3.3.1 数学形态学运算 |
3.3.2 字幕特性过滤 |
3.3.3 形成初步文字区域 |
3.4 本章小结 |
第四章 文字与背景分离 |
4.1 引言 |
4.2 利用灰度信息进行初分离 |
4.3 利用颜色信息进行分层分离 |
4.4 字幕区域标记 |
4.5 细化图像 |
4.6 本章小结 |
第五章 实验结果及分析 |
5.1 实验环境 |
5.2 测试集 |
5.3 实验结果与讨论 |
5.4 本章小结 |
结论 |
参考文献 |
致谢 |
(6)视频文本提取算法(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.3 本文的工作 |
第2章 视频文本提取系统概述 |
2.1 视频文本分析 |
2.1.1 视频文本分类 |
2.1.2 视频文本特征 |
2.2 视频文本提取技术 |
2.2.1 技术介绍 |
2.2.2 视频文本提取存在的困难 |
第3章 基于边缘检测与方差投影的视频文本定位算法 |
3.1 引言 |
3.2 边缘检测算法对比分析 |
3.3 提取最大梯度边缘图像 |
3.4 方差投影定位视频文本区域 |
3.5 过滤虚假文本区域 |
第4章 基于颜色信息的视频文本分割算法 |
4.1 引言 |
4.2 提取文本像素位置 |
4.3 提取文本颜色阈值 |
4.4 去除视频文本图像噪声 |
第5章 实验结果与分析 |
5.1 实验结果 |
5.2 实验分析 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 未来工作展望 |
参考文献 |
致谢 |
攻读学位期间取得的科研成果 |
(7)数字视频中字幕的检测与提取(论文提纲范文)
摘要 |
Abstract |
目录 |
第一章 绪论 |
1.1 引言 |
1.2 论文研究的背景和意义 |
1.3 国内外有关研究现状 |
1.3.1 国外研究情况 |
1.3.2 国内研究情况 |
1.4 论文的主要工作和内容安排 |
1.4.1 主要工作 |
1.4.2 内容安排 |
第二章 数字视频中字幕帧的检测 |
2.1 基本概念 |
2.1.1 字幕事件的类型 |
2.2 镜头分段 |
2.2.1 镜头分段的概念 |
2.2.2 常用的镜头分段方法 |
2.2.3 一种改进的双重比较镜头分段算法 |
2.2.4 实验结果 |
2.3 字幕帧的检测方法 |
2.3.1 典型关键帧提取算法 |
2.3.2 基于内容分析的关键帧提取 |
2.3.3 本文字幕帧的检测方法 |
2.3.4 实验结果 |
第三章 数字视频中字幕的定位 |
3.1 小波变换理论 |
3.1.1 小波变换的基本概念 |
3.1.2 连续小波变换 |
3.1.3 离散小波变换 |
3.2 多分辨分析理论 |
3.2.1 一维正交多分辨分析 |
3.2.2 二维正交多分辨分析 |
3.2.3 二维正交Mallat塔式算法 |
3.3 基于小波总能量的视频字幕定位方法 |
3.3.1 数字视频字幕的特点 |
3.3.2 纹理能量的计算 |
3.3.3 字幕行定位 |
3.3.4 字幕列定位 |
3.3.5 字幕区域提取 |
3.3.6 实验结果分析 |
3.4 本文基于小波的视频字幕定位方法 |
3.4.1 灰度化 |
3.4.2 小波加权重构 |
3.4.3 形态学处理 |
3.4.4 多尺度边缘检测 |
3.4.5 字幕区域定位 |
3.4.6 实验及结果分析 |
第四章 数字视频中字幕的识别 |
4.1 字幕的二值化 |
4.1.1 字幕的插值算法 |
4.1.2 字幕的二值化 |
4.2 字幕的分割 |
4.2.1 投影分割法 |
4.2.2 错误分割的几种情况 |
4.3 字幕的识别 |
4.3.1 光学字符识别(OCR)软件 |
4.3.2 字符识别技术 |
4.3.3 字幕的识别 |
4.4 实验结果分析 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 展望 |
致谢 |
参考文献 |
攻读硕士期间研究成果 |
(8)辅助虚拟布景的视频字幕实时分离系统设计与实现(论文提纲范文)
摘要 |
ABSTRACT |
符号与标记 |
第一章 绪论 |
1.1 引言 |
1.2 虚拟布景的视频合成系统介绍 |
1.3 国内外视频检索及其应用的研究现状 |
1.3.1 字幕检测 |
1.3.2 字幕提取 |
1.3.3 文字识别 |
1.3.4 视频检索应用 |
1.3.5 与字幕处理相关的图像技术 |
1.4 本文的主要内容和论文结构 |
1.5 本章小结 |
第二章 算法研究 |
2.1 KTV 视频字幕的特点 |
2.2 算法的基本思路 |
2.3 软件环境下的验证 |
2.3.1 标记含字幕的帧 |
2.3.2 记录字幕行的位置 |
2.3.3 标记字幕文字的区域 |
2.3.4 文字与背景的分割 |
2.3.5 字幕修复处理 |
2.4 本章小结 |
第三章、硬件系统设计 |
3.1 系统框图 |
3.2 主要器件的选型 |
3.3 电路原理图设计 |
3.3.1 信号输入接口 |
3.3.2 存储器接口 |
3.3.3 信号输出接口 |
3.3.4 电源电路 |
3.4 PCB 设计 |
3.4.1 设计规则 |
3.4.2 元件库和元件布局 |
3.4.3 电源区域和地平面的划分 |
3.4.4 布线和DRC、LVS 检查 |
3.5 电路调试和器件配置 |
3.5.1 MCU 编程 |
3.5.2 Decoder/Encoder 的配置 |
3.5.3 FPGA 和CPLD 的配置 |
3.6 本章小结 |
第四章、算法的硬件实现 |
4.1 需要考虑的问题 |
4.1.1 基本功能和特性 |
4.1.2 模块的划分 |
4.2 视频数据流向 |
4.3 代码设计 |
4.3.1 主状态机 |
4.3.2 关键模块的接口定义 |
4.3.3 过滤模板的生成 |
4.4 调试过程及结果 |
4.5 实时性改进及比较 |
4.6 与数字色键系统结合的尝试 |
4.7 本章小结 |
第五章、全文总结 |
5.1 本文的主要工作 |
5.2 取得的成果及应用情况 |
5.3 本文不足之处和下一步的工作 |
参考文献 |
致谢 |
攻读硕士学位期间已发表或录用的论文 |
(9)视频图像中文本定位与提取的方法研究(论文提纲范文)
摘要 |
ABSTRACT |
1 绪论 |
1.1 课题的研究意义和目的 |
1.2 国内外研究现状 |
1.3 文本的分类 |
1.4 文本的特征 |
1.5 文本的提取流程 |
1.6 论文的研究内容及组织安排 |
2 相关方法综述 |
2.1 引言 |
2.2 方法的分类综述 |
2.2.1 基于边缘的方法 |
2.2.2 基于纹理的方法 |
2.2.3 基于区域的方法 |
2.2.4 基于学习的方法 |
2.2.5 综合性方法 |
2.2.6 其他方法 |
2.3 小结 |
3 基于角点检测和形态学的文本定位 |
3.1 引言 |
3.2 角点检测算法 |
3.3 数学形态学 |
3.4 图像预处理知识 |
3.4.1 灰度化处理 |
3.4.2 图像增强 |
3.4.3 图像滤波 |
3.4.4 边缘检测 |
3.5 基于角点检测和形态学的文本定位 |
3.5.1 角点检测 |
3.5.2 角点滤波 |
3.5.3 候选文本区域 |
3.5.4 文本区域验证 |
3.6 实验结果分析 |
4 文本图像分割 |
4.1 引言 |
4.2 阈值分割 |
4.2.1 全局阈值法 |
4.2.2 局部阈值法 |
4.3 基于小波变换的文本分割 |
4.3.1 基于小波变换的前期处理 |
4.3.1.1 小波变换 |
4.3.1.2 基于小波的图像分解 |
4.3.1.3 特征提取 |
4.3.2 基于支持向量机的文本区域分割 |
4.3.2.1 支持向量机基本理论 |
4.3.2.2 SVM训练与检测 |
4.3.2.3 形态学后期处理 |
4.3.2.4 实验结果分析 |
4.3.3 基于K均值聚类的文本区域分割 |
4.3.3.1 K均值聚类原理 |
4.3.3.2 文本区域分割 |
4.3.3.3 实验结果分析 |
5 字符识别 |
5.1 引言 |
5.2 字符图像预处理 |
5.3 基于形态学的文字细化处理 |
5.4 字符识别常见方法 |
5.4.1 模板匹配法 |
5.4.2 基于字符特征的识别方法 |
5.4.3 神经网络方法 |
5.5 小结 |
6 总结与展望 |
6.1 全文总结 |
6.2 工作展望 |
致谢 |
参考文献 |
(10)视频帧中的文本检测与提取技术(论文提纲范文)
中文摘要 |
ABSTRACT |
第一章 绪论 |
1.1 研究的背景及意义 |
1.2 研究现状 |
1.2.1 国外的研究情况 |
1.2.2 国内的研究情况 |
1.3 文本的分类 |
1.4 文本的特征 |
1.5 论文面临的困难及研究内容 |
1.6 论文的组织安排 |
第二章 图像处理技术 |
2.1 彩色图像的灰度化处理 |
2.2 图像边缘检测 |
2.2.1 Roberts 边缘检测算子 |
2.2.2 Sobel 算子 |
2.2.3 拉普拉斯(Laplacian)算子 |
2.2.4 Prewitt 算子 |
2.2.5 LOG 算子 |
2.3 数学形态学操作 |
2.3.1 灰度腐蚀 |
2.3.2 灰度膨胀 |
2.3.3 开运算 |
2.3.4 闭运算 |
2.4 图像增强技术 |
2.4.1 图像的平滑 |
2.4.2 图像的锐化 |
2.5 图像分割技术 |
2.5.1 直方图阈值分割法 |
2.5.2 区域跟踪分割法 |
2.5.3 图像中字幕分割技术 |
2.6 二值化 |
2.7 OCR 软件识别 |
第三章 基于边缘信息的文本区域定位方法 |
3.1 引言 |
3.2 字幕检测方法分类分析 |
3.2.1 基于区域的方法 |
3.2.2 基于边缘的方法 |
3.2.3 基于纹理的方法 |
3.2.4 基于时域特征的方法 |
3.2.5 基于学习的方法 |
3.2.6 小结 |
3.3 边缘检测算法的提出 |
3.3.1 灰度化处理及边缘检测 |
3.3.2 边缘图的二值化 |
3.3.3 边缘图的形态学操作 |
3.3.4 文字区域的定位 |
3.3.5 去除孤立噪声点 |
3.3.6 文字尺寸的限制 |
3.4 实验结果与分析 |
3.5 本章小结 |
第四章 文本区域的提取与识别 |
4.1 文字分割问题的定义 |
4.2 现有的文本分割方法 |
4.2.1 阈值分割法 |
4.2.2 聚类法 |
4.2.3 Bernsen 算法 |
4.2.4 字符提取滤波器法 |
4.2.5 文本分割方法的总结 |
4.3 本文采用的字幕分割方法 |
4.3.1 图像预处理及分割流程图 |
4.3.2 单一背景色与复杂背景色的区分 |
4.3.2.1 绘制图像的直方图 |
4.3.2.2 生成图像的直方图 |
4.3.3 单一背景色中文字的提取 |
4.3.3.1 阈值的选取 |
4.3.3.2 文本区域的提取 |
4.3.3.3 积分投影函数的原理及应用 |
4.3.3.4 单字分割 |
4.3.3.5 字符图像二值化 |
4.3.3.6 降噪处理 |
4.3.4 复杂背景色中文字的提取 |
4.4 文本识别 |
4.5 实验结果与分析 |
4.6 本章小结 |
第五章 总结与展望 |
5.1 论文总结 |
5.2 未来研究展望 |
参考文献 |
攻读学位期间发表的学术论文 |
参与的科研项目 |
致谢 |
四、用小波变换及颜色聚类提取的视频图像内中文字幕(论文参考文献)
- [1]自然场景图像中汉字的识别研究[D]. 杨恺. 江苏科技大学, 2020(01)
- [2]分布式相似音视频检索[D]. 刘畅. 北京邮电大学, 2016(04)
- [3]视频中文本信息提取技术研究[D]. 李丽洁. 哈尔滨工程大学, 2012(01)
- [4]一种改进的小波变换域的字符定位方法[J]. 张阳,王嘉梅. 微型机与应用, 2011(18)
- [5]电视图像中的字幕检测算法[D]. 刘凯. 华南理工大学, 2010(06)
- [6]视频文本提取算法[D]. 赵爱群. 河北大学, 2010(10)
- [7]数字视频中字幕的检测与提取[D]. 昝蕊. 长春工业大学, 2010(03)
- [8]辅助虚拟布景的视频字幕实时分离系统设计与实现[D]. 王宏松. 上海交通大学, 2009(S2)
- [9]视频图像中文本定位与提取的方法研究[D]. 唐伟伟. 南京理工大学, 2009(01)
- [10]视频帧中的文本检测与提取技术[D]. 唐思源. 内蒙古师范大学, 2009(06)