望麓自卑—湖南大学最具潜力的校园传媒

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 1396|回复: 1

多功能感知机(转载)

[复制链接]
发表于 2004-9-15 22:18:04 | 显示全部楼层 |阅读模式
多功能感知机

--------------------------------------------------------------------------------

多媒体并行加速系统
--面向多功能感知的集成多媒体系统

  成果简要说明及主要指标


      本课题是在国家八六三高技术发展计划的支持下完成的。
      本课题所完成的系统是由包括人脸图象的检测、跟踪、识别、基元合成、面部表情
分析与合成、语音合成、语音合成伴随的面部运动合成、话者识别、语音识别、自然语言理
解、文本校正、机器翻译、手势识别、字符识别、印鉴识别、以及多媒体数据压缩等功能子
系统所组成的
可在网络环境下运行的集成多媒体系统。该系统不仅提供了图象、文字、语音处理与识别等
多种可以直接应用的子系统,还提供了网络环境的包括语音与图象采集与处理、多媒体数据
库等工具和图象、语音等研究开发环境。该环境支持面向多功能感知(图象感知、语音感知
、自然语言理
解、人体语言理解)的研究、支持虚拟现实(VR)系统的研究与开发、支持各种与上述功能
有关的应用系统的研究与开发。
      各子系统的主要技术指标如下:
      1. 支持Text-Speech的人脸图象模型合成子系统实现了所有一级、二级汉字库内
文字对应口形的人脸部合成及语音合成,并提供了语速等参数调整的用户界面;
      2. 基于照片图象的人脸图象识别子系统能准确完成面部图象的分割、对准与识别
,人脸图象的正确识别率不低于95%;
      3. 人脸图象合成子系统提供了人脸基元部件管理、优化拼接手段,可根据描述选
取人脸图象基元并迅速准确地完成合乎要求的面部合成;
      4. 独立语义单位的手势识别子系统实现了手势的实时自动截取和识别,对十三种
基本手势的正确识别率不低于92%;
      5. 人脸图象检测与跟踪子系统能够从任意背景下检测出所有的面部图象并能对所
检测出的面部图象进行跟踪,检测率为100%;
      6. 印鉴鉴别子系统实现了印鉴图象的管理,提供了自动与交互两种鉴别手段,自
动鉴别正确率不低于92%;
      7. 多媒体数据压缩子系统提供了多种不同的压缩方法,其中在应用小波变换时,
在压缩比为100倍时,信噪比不低于25.9;
      8. 手写体汉字识别的后处理子系统能够对汉字识别系统的输出结果进行校正处理
,将识别正确率平均提高15%;
      9. 汉语文本校正子系统可对多种键盘输入方式输入的文本进行校正,查错率为40
%~60%,改错率为20%~30%;
     10. 汉英900句机器翻译子系统可对基于900多种句型的任意文本进行高质量的翻译
输出;
     11. 语音处理环境及话者识别子系统提供了多种语音处理功能,话者识别部分对近2
00人在样本长度超过40字时的识别率为100%;
     12. 虚拟现实中宇宙空间模拟子系统能够完成对理想空间中的球体及虚拟手模型进
行刚体碰撞的模拟。

  特点:
      1. 环境完整。提供了分别在工作站和微机上运行的包括语音、图象、文字等多种
功能子系统,为多功能感知中多通道模型智能接口研究提供了一个平台和环境。
    2. 思想先进。研究了人类语言的分类和自然化人机通讯的方法和技术,研究问题包
括人面图象的检测、跟踪、识别、合成、语音合成、非限定词汇的话者识别以及印鉴识别,
机器翻译,文本校正处理等,成功的将AI技术与多媒体技术相结合。
    3. 组合自由。系统可以根据研究的要求灵活构成具有部分或全部功能的感知系统,
并可在网络环境下运行。
    4. 界面友好。系统所提供的多媒化的通道输入输出功能以自然友好的方式与用户交
流信息。
    5. 应用前景广阔。系统可望应用于包括机场、银行、医院、办公室及各种需要自然
化输入输出的场合。其成果在国内外均有相当大的潜在市场。
住处如语言和
图象的融合等,软件系统的设计采用面向智能体的方式,此外为了有效地处理图象和语言住
处还设计并实现了一个基于微机平台的后端机系统。
  系统的主要技术指标如下:
     (1) 基于DSP阵列的后端处理平台可以提供120MFLOPS(即一亿两千万次浮占领运算/
秒)的浮点运算能力(由二个DSP构成):提供了良好的基于高级语言(C语言)的软件开发
环境。
     (2) 多功能感知贡软件系统提供了对操作者的检测,识别(通过语音和证件跟踪,
表情分析,简单手语识别,变化手势识别,话者识别以及手语语音及对应口型合成
   (3) 方式进行系统输出等功能,系统提供了不同以往键盘鼠标的输入方式通过手运动操
纵计算机,以点长和摇头方式对重要命令进行克认,系统实现了不同感知手段问的交互与融
合,其中:
   A面部检测与跟踪部分可以实现在任意背景一定荡围内(自由度变化〈+-30〉正面人脆
弱的检测,在PENTIUM133上平均响时间小于是秒
   B在头部运动检测识别部分可以正确地区分人类与非人脸的运动,以及肯定与否定的头
部动作,平均积累时间〈2秒,
   C手势识别部分对联3种静态手势的识别率大于对岸种变化手势均力敌识别率大于95%
   D面部表情分析部分可以识别七种典型的表情,对相对夸张表情的正确识别率大于95%
   E话者识别部分可实现在线识别,在话者集大于300人,外界背景噪DB时,识别率达以上

   F合成部分提供了手语,表情,口型以及话音等多种表达手段,提供了手语描述语言及
其开发工具,手语库包含水量700多个常用词江,手语合成自然;可以合成七种基本口型以
住处如语言和
图象的融合等,软件系统的设计采用面向智能体的方式,此外为了有效地处理图象和语言住
处还设计并实现了一个基于微机平台的后端机系统。
  系统的主要技术指标如下:
     (1) 基于DSP阵列的后端处理平台可以提供120MFLOPS(即一亿两千万次浮占领运算/
秒)的浮点运算能力(由二个DSP构成):提供了良好的基于高级语言(C语言)的软件开发
环境。
     (2) 多功能感知贡软件系统提供了对操作者的检测,识别(通过语音和证件跟踪,
表情分析,简单手语识别,变化手势识别,话者识别以及手语语音及对应口型合成
   (3) 方式进行系统输出等功能,系统提供了不同以往键盘鼠标的输入方式通过手运动操
纵计算机,以点长和摇头方式对重要命令进行克认,系统实现了不同感知手段问的交互与融
合,其中:
   A面部检测与跟踪部分可以实现在任意背景一定荡围内(自由度变化〈+-30〉正面人脆
弱的检测,在PENTIUM133上平均响时间小于是秒
   B在头部运动检测识别部分可以正确地区分人类与非人脸的运动,以及肯定与否定的头
部动作,平均积累时间〈2秒,
   C手势识别部分对联3种静态手势的识别率大于对岸种变化手势均力敌识别率大于95%
   D面部表情分析部分可以识别七种典型的表情,对相对夸张表情的正确识别率大于95%
   E话者识别部分可实现在线识别,在话者集大于300人,外界背景噪DB时,识别率达以上

   F合成部分提供了手语,表情,口型以及话音等多种表达手段,提供了手语描述语言及
其开发工具,手语库包含水量700多个常用词江,手语合成自然;可以合成七种基本口型以
及七种表情,合成部分提供了同步机制。

 主要特点有:
   1.设计思想先进。基于对人类语言分类和人体语言的研究,提出了旨在提供具有更高智
能的自然化人机交互的多功能感知机系统总体设计思想,对体势语言理解和合成,以及对多
种住处的融合等言面的研究有较大的创新。
      2.系统功能丰富,不仅包括智能化的多通道人机交互软件系统而且包括了基于DSP
阵列的后端多处理平台,提供了高级语言开发环境。在输入方式上集成了面部检测与跟踪,
头部运动检测与识别,面部表情分析,变化手势及简单手语识别,语音识别。证件识别等功
能;系统还提
供了手语合成,表情合成,口型合成及语音合成等到输出 交互方式。
   3.系统组合灵活。界面友好。由于采用了面向AGENT的设计方法,各模块间具有简单而
明确的关系,因而可以方便的裁剪组合。系统提供的多通道输入/输出功能,能以自然友好
的方式进行人机交互。

 推广应用前景及效益预测
   该项目的完成为采用自然化方式进行人机交互提供了技术上的可行性保证,可望用于需
要自然化输入/输出的场合。例如,基于证件照片的识别可用于机场,户籍管理等;话者识
别可用于保密部门;人脸检测与头势均力敌识别可用于构造新型人机接口部分代替鼠标和键
盘等的作用;手
语识别与合成可用于新闻广播,哑语教学等。目前这一条纹的部分功能已用于机场安检和哑
语教学可以为国家节约大量保安以及训练哑语教师的费用。具有广阔的应用前景。
 楼主| 发表于 2004-9-15 22:18:04 | 显示全部楼层 |阅读模式
多功能感知机

--------------------------------------------------------------------------------

多媒体并行加速系统
--面向多功能感知的集成多媒体系统

  成果简要说明及主要指标


      本课题是在国家八六三高技术发展计划的支持下完成的。
      本课题所完成的系统是由包括人脸图象的检测、跟踪、识别、基元合成、面部表情
分析与合成、语音合成、语音合成伴随的面部运动合成、话者识别、语音识别、自然语言理
解、文本校正、机器翻译、手势识别、字符识别、印鉴识别、以及多媒体数据压缩等功能子
系统所组成的
可在网络环境下运行的集成多媒体系统。该系统不仅提供了图象、文字、语音处理与识别等
多种可以直接应用的子系统,还提供了网络环境的包括语音与图象采集与处理、多媒体数据
库等工具和图象、语音等研究开发环境。该环境支持面向多功能感知(图象感知、语音感知
、自然语言理
解、人体语言理解)的研究、支持虚拟现实(VR)系统的研究与开发、支持各种与上述功能
有关的应用系统的研究与开发。
      各子系统的主要技术指标如下:
      1. 支持Text-Speech的人脸图象模型合成子系统实现了所有一级、二级汉字库内
文字对应口形的人脸部合成及语音合成,并提供了语速等参数调整的用户界面;
      2. 基于照片图象的人脸图象识别子系统能准确完成面部图象的分割、对准与识别
,人脸图象的正确识别率不低于95%;
      3. 人脸图象合成子系统提供了人脸基元部件管理、优化拼接手段,可根据描述选
取人脸图象基元并迅速准确地完成合乎要求的面部合成;
      4. 独立语义单位的手势识别子系统实现了手势的实时自动截取和识别,对十三种
基本手势的正确识别率不低于92%;
      5. 人脸图象检测与跟踪子系统能够从任意背景下检测出所有的面部图象并能对所
检测出的面部图象进行跟踪,检测率为100%;
      6. 印鉴鉴别子系统实现了印鉴图象的管理,提供了自动与交互两种鉴别手段,自
动鉴别正确率不低于92%;
      7. 多媒体数据压缩子系统提供了多种不同的压缩方法,其中在应用小波变换时,
在压缩比为100倍时,信噪比不低于25.9;
      8. 手写体汉字识别的后处理子系统能够对汉字识别系统的输出结果进行校正处理
,将识别正确率平均提高15%;
      9. 汉语文本校正子系统可对多种键盘输入方式输入的文本进行校正,查错率为40
%~60%,改错率为20%~30%;
     10. 汉英900句机器翻译子系统可对基于900多种句型的任意文本进行高质量的翻译
输出;
     11. 语音处理环境及话者识别子系统提供了多种语音处理功能,话者识别部分对近2
00人在样本长度超过40字时的识别率为100%;
     12. 虚拟现实中宇宙空间模拟子系统能够完成对理想空间中的球体及虚拟手模型进
行刚体碰撞的模拟。

  特点:
      1. 环境完整。提供了分别在工作站和微机上运行的包括语音、图象、文字等多种
功能子系统,为多功能感知中多通道模型智能接口研究提供了一个平台和环境。
    2. 思想先进。研究了人类语言的分类和自然化人机通讯的方法和技术,研究问题包
括人面图象的检测、跟踪、识别、合成、语音合成、非限定词汇的话者识别以及印鉴识别,
机器翻译,文本校正处理等,成功的将AI技术与多媒体技术相结合。
    3. 组合自由。系统可以根据研究的要求灵活构成具有部分或全部功能的感知系统,
并可在网络环境下运行。
    4. 界面友好。系统所提供的多媒化的通道输入输出功能以自然友好的方式与用户交
流信息。
    5. 应用前景广阔。系统可望应用于包括机场、银行、医院、办公室及各种需要自然
化输入输出的场合。其成果在国内外均有相当大的潜在市场。
住处如语言和
图象的融合等,软件系统的设计采用面向智能体的方式,此外为了有效地处理图象和语言住
处还设计并实现了一个基于微机平台的后端机系统。
  系统的主要技术指标如下:
     (1) 基于DSP阵列的后端处理平台可以提供120MFLOPS(即一亿两千万次浮占领运算/
秒)的浮点运算能力(由二个DSP构成):提供了良好的基于高级语言(C语言)的软件开发
环境。
     (2) 多功能感知贡软件系统提供了对操作者的检测,识别(通过语音和证件跟踪,
表情分析,简单手语识别,变化手势识别,话者识别以及手语语音及对应口型合成
   (3) 方式进行系统输出等功能,系统提供了不同以往键盘鼠标的输入方式通过手运动操
纵计算机,以点长和摇头方式对重要命令进行克认,系统实现了不同感知手段问的交互与融
合,其中:
   A面部检测与跟踪部分可以实现在任意背景一定荡围内(自由度变化〈+-30〉正面人脆
弱的检测,在PENTIUM133上平均响时间小于是秒
   B在头部运动检测识别部分可以正确地区分人类与非人脸的运动,以及肯定与否定的头
部动作,平均积累时间〈2秒,
   C手势识别部分对联3种静态手势的识别率大于对岸种变化手势均力敌识别率大于95%
   D面部表情分析部分可以识别七种典型的表情,对相对夸张表情的正确识别率大于95%
   E话者识别部分可实现在线识别,在话者集大于300人,外界背景噪DB时,识别率达以上

   F合成部分提供了手语,表情,口型以及话音等多种表达手段,提供了手语描述语言及
其开发工具,手语库包含水量700多个常用词江,手语合成自然;可以合成七种基本口型以
住处如语言和
图象的融合等,软件系统的设计采用面向智能体的方式,此外为了有效地处理图象和语言住
处还设计并实现了一个基于微机平台的后端机系统。
  系统的主要技术指标如下:
     (1) 基于DSP阵列的后端处理平台可以提供120MFLOPS(即一亿两千万次浮占领运算/
秒)的浮点运算能力(由二个DSP构成):提供了良好的基于高级语言(C语言)的软件开发
环境。
     (2) 多功能感知贡软件系统提供了对操作者的检测,识别(通过语音和证件跟踪,
表情分析,简单手语识别,变化手势识别,话者识别以及手语语音及对应口型合成
   (3) 方式进行系统输出等功能,系统提供了不同以往键盘鼠标的输入方式通过手运动操
纵计算机,以点长和摇头方式对重要命令进行克认,系统实现了不同感知手段问的交互与融
合,其中:
   A面部检测与跟踪部分可以实现在任意背景一定荡围内(自由度变化〈+-30〉正面人脆
弱的检测,在PENTIUM133上平均响时间小于是秒
   B在头部运动检测识别部分可以正确地区分人类与非人脸的运动,以及肯定与否定的头
部动作,平均积累时间〈2秒,
   C手势识别部分对联3种静态手势的识别率大于对岸种变化手势均力敌识别率大于95%
   D面部表情分析部分可以识别七种典型的表情,对相对夸张表情的正确识别率大于95%
   E话者识别部分可实现在线识别,在话者集大于300人,外界背景噪DB时,识别率达以上

   F合成部分提供了手语,表情,口型以及话音等多种表达手段,提供了手语描述语言及
其开发工具,手语库包含水量700多个常用词江,手语合成自然;可以合成七种基本口型以
及七种表情,合成部分提供了同步机制。

 主要特点有:
   1.设计思想先进。基于对人类语言分类和人体语言的研究,提出了旨在提供具有更高智
能的自然化人机交互的多功能感知机系统总体设计思想,对体势语言理解和合成,以及对多
种住处的融合等言面的研究有较大的创新。
      2.系统功能丰富,不仅包括智能化的多通道人机交互软件系统而且包括了基于DSP
阵列的后端多处理平台,提供了高级语言开发环境。在输入方式上集成了面部检测与跟踪,
头部运动检测与识别,面部表情分析,变化手势及简单手语识别,语音识别。证件识别等功
能;系统还提
供了手语合成,表情合成,口型合成及语音合成等到输出 交互方式。
   3.系统组合灵活。界面友好。由于采用了面向AGENT的设计方法,各模块间具有简单而
明确的关系,因而可以方便的裁剪组合。系统提供的多通道输入/输出功能,能以自然友好
的方式进行人机交互。

 推广应用前景及效益预测
   该项目的完成为采用自然化方式进行人机交互提供了技术上的可行性保证,可望用于需
要自然化输入/输出的场合。例如,基于证件照片的识别可用于机场,户籍管理等;话者识
别可用于保密部门;人脸检测与头势均力敌识别可用于构造新型人机接口部分代替鼠标和键
盘等的作用;手
语识别与合成可用于新闻广播,哑语教学等。目前这一条纹的部分功能已用于机场安检和哑
语教学可以为国家节约大量保安以及训练哑语教师的费用。具有广阔的应用前景。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

每日推荐上一条 /1 下一条

小黑屋|手机版|湖南大学望麓自卑校园传媒 ( 湘ICP备14014987号 )

GMT+8, 2024-11-27 18:54 , Processed in 0.116234 second(s), 24 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表