当前位置:论文网 > 论文宝库 > 信息科技类 > 信息技术论文 > 正文

电子语音存储电路

来源:UC论文网2015-11-10 15:43

摘要:

摘要 目前基于单片微机的语音系统的应用越来越广泛,如电脑语音钟、语音型数字万用表、手机话费查询系统、排队机、监控系统语音报警以及公共汽车报站器等等。本文作者用Flash单

 摘要

  目前基于单片微机的语音系统的应用越来越广泛,如电脑语音钟、语音型数字万用表、手机话费查询系统、排队机、监控系统语音报警以及公共汽车报站器等等。本文作者用Flash单片机AT89C2051和数码语音芯片ISD2500设计了一套智能语音录放系统,实现了语音的分段录取、组合回放,通过软件的修改还可以实现整段录取,循环播放。

  本文在分析了ISD语音处理器件在工作机制的基础上,介绍了用单片机跟踪各语音段的地址变化和记录各段起止地址以及根据各段的地址进行随机组合放音的方法。介绍了由Flash单片机AT89C2051及数码语音芯片ISD2500组成的电脑语音系统。设计出了系统的硬件电路,给出了录、放音实用的源程序。提出了通用的硬件设计方案,给出了实际应用的电路图和软件流程。

  关键词:AT89C2051单片机 ISD2000语音芯片 分段录音 组合回放

  Based on the current single-chip computer voice system of more extensive, such as the computer voice bell, voice, digital multimeter, phone calls enquiry system, Queue, voice alarm and monitoring system at the bus station, etc.. The author used Flash Microcontroller AT89C2051 and digital voice ISD2500 chips designed a smart voice recording system and realized the voice of the Sub-taking, portfolio intervals, through software changes can also realize the whole admission, the loop.

  Based on the analysis of the ISD voice processor in the working mechanism on the basis on the track with the voice of the SCM address change and record the beginning and end of the address and the address in accordance with paragraphs random playback combination of methods. Introduced by Flash Microcontroller AT89C2051 and digital voice chip ISD2500 voice of the computer system. To design the system hardware circuit, is given, for playing practical source. Put forward a common hardware design, given the practical application of the circuit and software processes.

  Key words: AT89C2051 ISD2500 subsection record combination return play

  1、前言

  现代电子、电器产品及设备的智能化水平不断提高,在人机界面设计上不但有了文字标识、发光管指示、显像屏显示等视觉表达,而且还有各种听觉表达,如最简单的“滴滴、嘟嘟”讯响声、稍丰富些的音乐声,甚至用人的语言直接对用户“说话”等。用简单的数码语音集成电路可以实现一句或多句语言的播放,如掩模芯片中的“欢迎光临”、“有电危险、请勿靠近”等,还有如ISD系列、APR9600(IVS1560)等芯片可由开发人员或用户任意录制、播放需要的一段或几段语音等。在听觉表达中最复杂的就是语音的组合,它是将用户预存的多段语音选择顺序连续播放,将字或词素组合成一句话、甚至一段话播放出来,从而实现最准确、定量的语义表达,例如“嘟,现在温度37.5度,温度偏高”、“现在时间五点二十五分三十三秒”等。

  传统语音组合电路的设计十分复杂,开发工具十分昂贵,语音录制及软件编制工作量巨大,而且组合出来的语音效果也不甚理想,尤其在投资不大的产品、系统中最为突出,从而制约了这一技术的应用和发展。只在近一、两年来,模拟存储语音技术的ISD芯片及其廉价的开发编辑工具问世后,情况才大为改观。现在已有专业公司开发出通用ISD语音组合模块,用户只需要在ISD语音芯片中分段录入要求的词素,即可方便地用单片机控制输出这些词素的任意组合成句、成段,词素的语音容量从20秒至480秒甚至更长,以至可以容纳所有的中文汉字发音。下面介绍一种用途最广泛的通用语音组合模板的设计与应用。

  2、语音电路概述

  2.1.语音电路介绍

  语音电路是什么? 自然的语音、声音是稍纵即逝的,人类想了很多办法来留存它们, 这样可以在任何需要的时候重复播放出来。这种保留原声的媒介曾有过钢丝、黑胶唱片、胶片、磁带、激光唱片等等,这些媒介都需要精密复杂的机械传动装置来配合,大多体积比较大,耗电大,控制不够灵活,有介质磨损,使用寿命有限。 现在, 我们可以采用数码电子技术将纯的无任何机械的半导体集成电路(IC)去完成语音信号的存储和还原, 这样一类经过存储而还原播放的语言、声音,我们称为数码语音。 这类保存着数码语音的集成电路我们称为数码语音电路,或语音IC。

  有了这些语音IC,声音就能保留和还原,而且能被选择性地反复播放,也就能让不会说话的各种物品发出声音或开口说话。 语音IC具有体积小、耗电少、可控制性能好、永无磨损、永久寿命等特点。它是采用电子处理技术将复杂的语音信号“切分”成很多份,以最小的单位存储在自己内部的存储器里。当需要时,再把这些小份拼接成完整的语音信号播放出来。 经由语音IC的处理、保存再回放出来的声音效果会比原声有一定的失真,现在还原声音最好的是激光唱片方式,它的声音取样频率是44.1kHz,取样位数是24位,简单的说就是把一秒钟的语音信号横着切24份,再竖着切4万4千多份,累计把一秒钟的信号切成了约100万份分别存储在激光唱片上,等播放时再拼在一起还原出来,因此有较好的还原度。而语音IC因为制造技术和成本问题,其能够使用的存储器容量比较小,大多数的语音IC都采用6kHz、5位采样,即大约把一秒种的信号切成3万份,因此还原效果就要差不少。但随着技术的发展,这一差距正在减少。 语音IC的成本主要取决于内部电路的复杂程度和存储器的容量,在短时间语音长度的产品中,语音IC的性能价格比是非常高,有的种类的语音IC价格低廉到仅几分钱,这是任何其它数码语音还原设备无法比拟的。

  2.2.语音IC种类

  语音IC有很多种类,大体可以分为以下几种:

  1、随录随放型

  和磁带机一样,可以自由地通过话筒或模拟音频线路来进行录音,通过驱动喇叭放音。这其中又分几种类型。

  (1)、怕断电的,语音保存需要比较大的电流,象复读机里的复读芯片, 这种电路以DRAM动态存储器IC为介质,一断电内部存储的语音就全部丢失了。要保存住其中的语音还需要比较大的电流消耗。特点是价格便宜。

  (2)、怕断电的,语音保存需要很小的电流,象一些录音贺卡,它以SRAM静态存储器IC为介质,断电声音丢失,保存电流很小。在录音贺卡等录音礼品中常将几粒扣式电池嵌入到产品中,这样可以保存录音几个月甚至一年多。特点是可以较长期保存语音。

  (3)、不怕断电的,象一些数码录音笔,它以FLASHRAM闪烁存储器IC为介质,完全断电后语音还能保存十年以上。特点是价格较高。 ★美国ISD公司的ISD系列就是这类产品。它生产从10秒至16分钟的一系列语音芯片产品。

  2、编程录入的只放型

  象MP3随身听播放机一样,它的语音(音乐歌曲)录入需通过电脑、软件和专用数字接口来完成,不能简单地通过话筒录入,因此其成本价格较前者低。这其中根据使用存储器的种类不同又分以下几种类型,性能有所不同,但其生产成本却相差不大。

  (1)一次编程OTP型, 芯片内部是PROM结构存储器, 可以通过外部数字接口将语音文件或程序文件烧录进去, 但只能烧录一次, 以后不能修改不能更换。 ★ISSI公司的22C012/022/040(台湾公司的编号分别为A8108A、8208A、840N),还有一些OTP型的语音单片机都是此类。

  (2)多次编程EPROM型,电路中用EPROM来存储语音数据,它需要专用的烧录工具把语音数据放置在芯片中, 这种芯片可以反复烧录,寿命在几十次, 次数多了以后就会有一定的单元损坏。 ★这是比较早期的数码语音电路构成方式,通常是语音处理器UM5100加上外挂的EPROM,老式的公交车语音报站系统多采用这种方式。

  (3)反复编程FLASHRAM型,电路中用FLASHRAM来存储语音数据,它需要专用的烧录工具或专用数字接口把语音数据放置在芯片中,这种芯片可以反复烧录,寿命可达到1万次以上。 ★这是最新的数码语音电路构成方式, 现在流行的MP3播放器就是这种方式。中青世纪公司新开发的PM50、PM64系列也是这一类。

  3、掩膜生产的只放型

  和CD机一样,拿到手的就是定制好的语音,自己不能更改,只能播放。这类产品的成本最低。在客户需求方面可以分两类:

  (1)标准声源型, 这是指在电子市场上可以买到的通用语音芯片,例如各种警报声、“倒车倒车请注意”、“这张是假币”等等。它们是大批量生产出来的标准品,价格非常便宜。如果用户能确认可用,将是投资最少、见效最快的选择,只是不能根据自己的情况做任何变动,包括语音的音调、音质、触发控制方式等。

  (2)定制声源型,这是用户有自己的特殊要求而专门制作生产的,需要经过设计开发,制作样片,确认样品,几万片起做的芯片投单,确认芯片,交货等几个过程,制作和生产周期约45天,一次投资一般大约在15万元(人民币)以上,投资均摊在每个芯片上,数量越大价格越低。 ★一直以来,这类芯片的开发和投产对用户和开发商都存在比较大的风险,因为它不能小量快速生产,没有一个小批量的生产测试和市场投放的过程,而且开发商提供的实验样品和最后交付的产品有一定的差别(音质、管脚、电性能等),因而容易出现用户拒绝收货的情况。给双方都造成很大损失。

  2.3现在市场上的主流语音IC

  最近的十五年是电子行业突飞猛进的时期,语音IC的发展也见证了这一过程,十几年前的产品几乎都被淘汰出局了,期间也曾有几十种语音IC不断被开发出来,总的方向是集成度越来越高、功能越来越强大、音质效果越来越好、成本越来越低。

  一是OTP芯片A8108A、8208A、840N系列。

  这款芯片是美国ISSI公司大约在1992年开发的,内部有PROM存储器,只能烧写一次。原设计只是掩膜语音芯片的开发工程样片。过去用户在要求投产MASKROM语音芯片前,都希望厂家提供实验用的工程样片,但大多数厂家都是提供一个由很复杂的分立器件电路搭建的开发评估板——直到今天大多数厂家仍然如此。这板子很大,只能和用户的电路接口模拟使用,不能装入用户的产品中,更不能让用户小批量生产试投产,而且投产出来的掩膜片与评估板的音质、管脚、电性能都有所不同,令用户风险很高。ISSI公司就开发了这一款芯片,而且设计了该芯片的开发工具,可以一起卖给用户做实验和小批量生产,等试验成熟后再投大量而便宜的掩膜芯片。可以说它只是作为推销ISSI公司掩膜芯片的一个促销手段来设计的,但是OTP芯片的快速开发、简单易控制等特性引起很多设计工程师的青睐,一直使用至今。 另外,随着个性化时代的到来,产品的设计日益多样化,生产也朝着多品种、少数量的方向发展,再加上市场的风云变幻加快,一般厂家用户越来越不敢动辄几万、几十万地投产掩膜芯片,几乎都是先拿OTP片试打市场,看市场反应和接受程度再来定夺。因此该系列产品的销量近年来反而增大了很多。 美国ISSI公司在2002年停止了该系列产品的生产,目前由台湾的一家公司提供兼容的产品。

  二是ISD系列产品。

  这款是美国ISD公司大约在1994年开发的,内部有EEPROM存储器,可以反复擦写。ISD的这款产品具有划时代的意义,因为它采用所谓“模拟存储技术”实现了极好的语音还原效果,而且能录能放,控制简单灵活,同时有很强的智能控制,令人耳目一新。该系列芯片经过原珠海特思高公司、原深圳矽源公司、原北京泰思特研究所、北京中青世纪公司近十年的努力推广,目前已经是通用语音产品市场的主流。其中值得一提的是,由于ISD芯片的控制有一定的复杂性,在1996年前有两项比较大的难点阻碍其应用发展。一是ISD的技术资料一直只有很厚的英文资料和很简单的中文资料;二是美国ISD公司提供的编程开发系统价格贵达1. 8万元/套,都令开发技术人员寸步难行。1996年上述几家公司联合起来翻译、编写、出版了《ISD全系列单片语音录放电路设计与应用汇编》。同年北京中青世纪公司自行开发成功了ISD1425、ISD3340K编程拷贝系统,价格降低到不足2000元/套,而且操作非常简单方便。这两项工作的完成对ISD在国内的应用和推广起了关键性的作用。另外上述几家公司都开发了很多围绕ISD设计的开发实验板、功能板等配套产品,也为技术人员快速开发ISD语音产品提供了很大的帮助。

  美国ISD公司大约在1999年被台湾的华邦公司收购,成为其一个子公司。这几年ISD公司还推出了一些长时间的新产品,但在现在看来都不太成功。其原开发的ISD1100、1400、2500、4000系列产品,语音长度涵盖10秒至16分钟,非常经典。2002年ISD公司又开发完成ISD1800系列产品,语音长度在6~20秒,以高音质、低价格主打礼品玩具等低端市场,销售成绩非常显著。

  第三 是2003年底刚诞生的PM50系列产品。

  这是北京中青世纪公司委托台湾设计公司开发的新款语音IC系列。该公司一直是ISD产品在国内的最大技术支持单位,非常熟悉电子市场和技术人员的需求,根据大量客户对OTP芯片和ISD芯片的需求反应专门开发了这款新的语音芯片。其特点是采用单片机+语音处理器+FLASHRAM结构,能反复擦写,控制较ISD简单方便,有20秒~200秒一系列产品较OTP芯片齐全等,更重要的是开发人员用编程好的文件既能够烧写FLASHRAM版本的PM50产品,也能交给厂家原样生产几个极为低廉的掩膜版本的PM50产品,两者完全互换性能一致,这意味着国内的任何普通技术人员也能自己设计、开发掩膜语音芯片。这也是数码语音电路发展历史上划时代的事件。 目前,中青世纪公司开发并投放市场的PM50系列20/50/100秒几种和ISD芯片一样也是标准28脚双列封装,系列的其余品种将视客户需要设计,另外还有PM64系列是3分钟~27分钟的品种也正在开发实验中。

  2.4几种主流语音IC的在产品设计中的选择

  电子产品都进入了智能化阶段,如果多一颗语音IC就能实现产品自己开口说话,会令产品的人性化、智能化更加提高,语音IC的应用已成为很多产品先声夺人、出其制胜的法宝。 不同产品的功能设计和市场需求就要求采用不同的语音IC相适应。 首先要明确产品定单的情况如何。这里分几种情况:

  (1) 2万件以上的生产定单,可以直接选用掩膜芯片;

  (2) 大笔定单的样品,可以选用PM50系列芯片。客户想怎么改语音都可以,等客户封样、定单、打信用证后再投PM50的掩膜单;

  (3) 5000件/批的生产定单,可以选用OTP、PM50芯片。语音内容可以调整。

  (4) 1000件/批以下的生产定单,可以选用OTP、ISD、PM50芯片。 第二就是看产品设计中是否有单片机。如果有,几种芯片都可以选择;如果没有,就只能选择OTP和PM50。 第三就是看产品的市场需求潜力如何。需求潜力大的产品宜选择PM50,前期少量生产时用PM50的FLASHRAM版本,一旦上大批量、客户压低价格时可以直接去投产PM50的MASKROM掩膜片,产品电路结构、性能、音质完全不变,而成本隐性下降一半以上,虽然售价低了,利润反而高了。如果选用ISD,一旦上大批量客户压低价格就会出现两个痛苦的选择,一是继续使用ISD芯片,但利润被挤得非常薄;二是换用掩膜芯片,但电路的硬件软件都要重新改换,而且音质都没有ISD好,令客户有质量下降的感觉,定单可能都危险。 第四才是看产品的实际性能需求,如语音时间需要多长、分多少段、是否要用户自己录音或修改、可靠性要求如何、单片机预留的口线有多少等,再在几个产品系列中寻找合适的一款。

  3、系统框图

  语言系统主要有录音、标准放音、SP放音、SSP放音、暂停、书签等操作方式,其中SP、SSP放音是自动断句放音,系统自动识别一个语句的开始位置,遇到静音区后暂停,暂停时间为句子放音时间长度的1.5倍,然后自动继续下一语句或自动重复该语句两遍后系统继续下一语句;书签功能是可记忆5个位置,按相应的书签按键可从该位置开始放音。

  主程序软件框图如图2所示,上电后进入系统主程序,初始化各种参数,系统等待键盘操作或主控机的命令;收到命令后进入相应的工作模式,完成任务再返回到命令等待模式。

  4、系统核心芯片介绍

  4.1 ISD系列语音电路介绍

  过去,数码语音的开发设计不但结构设计复杂、编程录制麻烦、开发生产成本高,而且音质欠佳,难以实用。现在,一切都发生了彻底的改变:单芯片设计、任意语言音乐随录随放、断电语音不丢失、音质接近磁带效果、控制功能强大、价格低廉……等等,这一切就是ISD数码语音电路给我们带来的变革。在多媒体技术广泛应用、市场竞争日益激烈的今天,几乎所有的产品都更注重人机界面的友好性、易用性和安全性,人性化的语音提示是最自然、最廉价、最有效的手段,它可以为您设计的产品升级换代,让您的新产品“开口说话”,使它更具说服力、竞争力。

  ISD系列语音电路是美国ISD(Information Storage Device)公司的专利新产品,它打破了传统的先A/D再D/A的模式,而采用独特的直接存储模拟信号技术,从而大大提高了存储密度,且使模拟信号得到永久保存。ISD系列电路以其音质自然、使用方便、单片存储、反复录放、低功耗、抗断电等众多优点立即在语音应用领域确立了其不可争辩的霸主地位,它在通讯设备、智能仪表、治安报警、语音报站、报数报价、语音讲解、语音记录、语音复读、教学仪器、智能玩具、电子礼品等场合获得了广泛的应用。

  4.2 电路特点与性能

  •无需开发系统,随录随放

  •自动节电,维持电流0.5-1uA

  •不耗电信息保存100年(典型值)

  •100,000次录音周期(典型值)

  •5V或3V单电源工作

  •DIP、COB、SOIC民级及工业级封装

  •使用方便的10秒至16分钟语音录放

  •多段信息处理,可分1至800段

  •高质量、自然的语音还原技术

  •片内免调时钟,可选外部时钟  •边沿/电平触发放音兼容

  •手动控制/微处理器控制兼容

  •多片直接级联,延长录放时间

  ISD语音电路主要有1200、1400、2500、3300、4000五大系列产品,它们的主要存贮时间及性能如下表所示:

  器件型号 存储时间 采样频率 最大段数 控制方式 电压

  ISD1210 10秒 6.4 80 地址并行 5V

  ISD1420 20秒 6.4 160 地址并行 5V

  ISD2560/90/120 60/90/120秒 8.0/5.3/4.0 600/600/600 地址并行 5V

  ISD33060/120/240 60/120/240秒 8.0/8.0/4.0 400/800/800 SPI串行 3V

  ISD4002-2/3/4 2/3/4分钟 8.0/5.3/4.0 600 SPI串行 3V

  ISD4003-4/6/8 4/6/8分钟 8.0/5.3/4.0 1200 SPI串行 3V

  ISD2500-8/12/16 8/12/16分钟 8.0/5.3/4.0 2400 SPI串行 3V

  美国ISD公司的2500芯片,按录放时间60秒、75秒、90秒和120秒分成ISD2560、2575、2590和25120四个品种。

  ISD2500系列和1400系列语音电路一样,具有抗断电、音质好,使用方便等优点。它的最大特点在于片内E2PROM容量为480K(1400系列为128K),所以录放时间长;有10个地址输入端(1400系列仅为8个),寻址能力可达1024位;最多能分600段;设有OVF(溢出)端,便于多个器件级联。

  4.3 ISD2500系列管脚说明

  电源(VCCA,VCCD): 芯片内部的模拟和数字电路使用不同的电源总线,并且分别引到外封装上,这样可使噪声最小。模拟和数字电源最好分别走线,尽可能在靠近供电源处相连,而去耦电容应尽量靠近芯片。地线(VSSA,VSSD): 芯片内部的模拟和数字电路也使用不同的地线,这两脚最好在引脚焊盘上相连。

  节电控制(PD): 本端拉高使芯片停止工作,进入节电状态。芯片发生溢出,即/OVF端输出低电平后,要将本端短暂变高复位芯片,才能使之再次工作。

  片选(/CE): 本端变低后(而且PD为低),进行录放操作。在本端的下降沿锁存地址线和P/-R端的状态。

  录放模式(R/-R): 本端状态在/CE的下降沿锁存。高电平放音,低电平录音。录音时,由地址端提供起始地址,录音持续到/CE或PD变高,或内存溢出;

  如果是前一种情况,会自动在录音结束时写入EOM标志。放音时,由地址端提供起始地址,放音持续到EOM标志。如/CE一直为低,或电路工作在某些操作模式,放音会忽略EOM,继续进行下去。

  信息结尾标志(/EOM): EOM标志在录音时自动插入到该信息的结尾。放音遇到EOM时,本端输出低电平脉冲。芯片内部会检测电源电压以维护信息的完整性,当电压低于3.5v时,本端变低,芯片只能放音。

  溢出标志(/OVF): 处于存储空间末尾时,本端输出低电平脉冲表示溢出,之后,本端状态跟随/CE端的状态,直到PD端变高。本端可用于级联。

  话筒输入(MIC): 本端连至前置放大器。自动增益控制电路(AGC)将前置增益控制在到-15至24db。外接话筒应通过串联电容耦合到本端。 耦合电容值和本端的10KΩ输入阻抗决定了芯片频带的低频截止点。

  话筒参考(MIC REF): 本端是前置放大器的反向输入,当以差分形式连接话筒时,可减小噪声,提高共模抑制比。

  自动增益控制(AGC): AGC动态调整前置增益以补偿话筒输入电平的宽幅变化,使得录制变化很大的音量(从耳语到喧嚣声)时失真都能保持最小。响应时间取决于本端的5 KΩ输入阻抗和外接的对地电容(即线路图中C2)的时间常数。释放时间取决于本端外接的并联对地电容和电阻(即线路图中R2和C2)的时间常数。470 KΩ 和4.7UF的标称值在绝大多数场合下可获得满意的效果。

  模式输出(ANA OUT): 前置放大器输出。前置电压增益取决于AGC端电平。

  模拟输入(ANA IN): 本端为芯片录音信号输入。对话筒输入来说,ANA OUT端应通过外接电容连至本端。该电容和本端的3 KΩ输入阻抗给出了芯片频带的附加低端截止频率。其它音源可通过交流耦合直接连至本端(绕过了ISD的前置)。

  喇叭输出(SP+,SP-): 这对输出端能驱动16Ω以上的喇叭(内存放音时功率为12.2mw,AUX IN放音时功率为50mW)。单端使用时必须在输出端和喇叭间接耦合电容,而双端输出既不用电容又能将功率提高到4倍。录音和节电模式下,它们保持为低电平。注意:多个芯片的喇叭输出端绝对不能并联,否则可能损坏芯片!不用的喇叭输出端绝对不能接地!

  辅助输入(AUX IN): 当/CE和P/-R为高,放音不进行,或处于放音溢出状态时, 本端的输入信号通过内部功放驱动喇叭输出端。当多个2500芯片级联时,后级的喇叭输出通过本端连接到本级的输出放大器,为防止噪声,建议在放内存信息时,本端不要有驱动信号。

  外部时钟(XCLK): 本端内部有下拉元件,不用时应接地。芯片内部的采样时钟在出厂前已调校,误差在+1%内。商业级芯片在整个温度和电压范围内,频率变化在+2.25%内。工业级芯片在整个温度和电压范围内,频率变化在+5%内,建议使用稳压电源。若要求更高精度或系统同步,可从本端输入外部时钟,频率如前表所示;由于内部的防混淆及平滑滤波器已设定,故上述推荐的时钟频率不应改变。输入时钟的占空比无关紧要,因内部首先进行了分频。

  地址/模式输入(Ax/Mx): 地址端有两个作用,取决于最高两位(MSB)即2532/2540/2548/2564的A7和A8,或2560/2590/25120的A8和A9的状态。当最高两位中有一个为0时,所有输入均解释为地址位,作为当前录放操作的起始地址。地址端只作输入,不输出操作过程中的内部地址信息。地址在/CE的下降沿锁存。

  4.4 AT89C2051

  89C2051是由ATMEL公司推出的一种小型单片机。95年出现在中国市场。其主要特点为采用Flash存贮器技术,降低了制造成本,其软件、硬件与MCS-51完全兼容,可以很快被中国广大用户接受,其程序的电可擦写特性,使得开发与试验比较容易。

核心期刊推荐