JangoAI
diff --git a/‎python_baiduyuyin/1.py‎
Lines changed: 34 additions & 0 deletions b/‎python_baiduyuyin/1.py‎
Lines changed: 34 additions & 0 deletions
diff --git a/‎python_baiduyuyin/1.py~‎ b/‎python_baiduyuyin/1.py~‎
diff --git a/‎python_baiduyuyin/2.py‎
Lines changed: 51 additions & 0 deletions b/‎python_baiduyuyin/2.py‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎python_baiduyuyin/2.py~‎
Lines changed: 51 additions & 0 deletions b/‎python_baiduyuyin/2.py~‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎python_baiduyuyin/2015-12-14_16_11_34.wav‎
156 KB b/‎python_baiduyuyin/2015-12-14_16_11_34.wav‎
156 KB
diff --git a/‎python_baiduyuyin/2015-12-14_16_23_38.wav‎
156 KB b/‎python_baiduyuyin/2015-12-14_16_23_38.wav‎
156 KB
diff --git a/‎python_baiduyuyin/3.py‎
Lines changed: 31 additions & 0 deletions b/‎python_baiduyuyin/3.py‎
Lines changed: 31 additions & 0 deletions
diff --git a/‎python_baiduyuyin/3.py~‎
Lines changed: 30 additions & 0 deletions b/‎python_baiduyuyin/3.py~‎
Lines changed: 30 additions & 0 deletions
diff --git a/‎python_baiduyuyin/4.py‎
Lines changed: 120 additions & 0 deletions b/‎python_baiduyuyin/4.py‎
Lines changed: 120 additions & 0 deletions
diff --git a/‎python_baiduyuyin/4.py~‎ b/‎python_baiduyuyin/4.py~‎
@@ -0,0 +1,34 @@
+#! /usr/bin/env python3
+
+import baidu_oauth
+import uuid
+import base64
+import json
+import urllib.request
+import sys
+asr_server = 'http://vop.baidu.com/server_api'
+baidu_oauth_url = 'https://openapi.baidu.com/oauth/2.0/token/'
+client_id = 'xxx'
+client_secret = 'xxx'
+access_token = baidu_oauth.get_baidu_access_token(baidu_oauth_url, client_id, client_secret)
+mac_address=uuid.UUID(int=uuid.getnode()).hex[-12:]
+def baidu_asr(speech_file):
+     with open(speech_file, 'rb') as f:
+          speech_data = f.read()
+     speech_base64=base64.b64encode(speech_data).decode('utf-8')
+     speech_length=len(speech_data)
+     data_dict = {'format':'wav', 'rate':8000, 'channel':1, 'cuid':mac_address, 'token':access_token, 'lan':'zh', 'speech':speech_base64, 'len':speech_length}
+     json_data = json.dumps(data_dict).encode('utf-8')
+     json_length = len(json_data)
+ 
+     request = urllib.request.Request(url=asr_server)
+     request.add_header("Content-Type", "application/json")
+     request.add_header("Content-Length", json_length)
+     fs = urllib.request.urlopen(url=request, data=json_data)
+ 
+     result_str = fs.read().decode('utf-8')
+     json_resp = json.loads(result_str)
+     return json_resp
+ 
+json_resp = baidu_asr(sys.argv[1])
+print(json_resp)
@@ -0,0 +1,51 @@
+#encoding=utf-8
+
+import wave
+import urllib, urllib2, pycurl
+import base64
+import json
+## get access token by api key & secret key
+
+def get_token():
+    apiKey = "Xv3HXWDAll8EmmZDecHcSgvn"
+    secretKey = "eb46e9ea313aff9f3f200fb33708ae72"
+
+    auth_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=" + apiKey + "&client_secret=" + secretKey;
+
+    res = urllib2.urlopen(auth_url)
+    json_data = res.read()
+    return json.loads(json_data)['access_token']
+
+def dump_res(buf):
+    print buf
+
+
+## post audio to server
+def use_cloud(token):
+    fp = wave.open('vad_0.wav', 'rb')
+    nf = fp.getnframes()
+    f_len = nf * 2
+    audio_data = fp.readframes(nf)
+
+    cuid = "xxxxxxxxxx" #my xiaomi phone MAC
+    srv_url = 'http://vop.baidu.com/server_api' + '?cuid=' + cuid + '&token=' + token
+    http_header = [
+        'Content-Type: audio/pcm; rate=8000',
+        'Content-Length: %d' % f_len
+    ]
+
+    c = pycurl.Curl()
+    c.setopt(pycurl.URL, str(srv_url)) #curl doesn't support unicode
+    #c.setopt(c.RETURNTRANSFER, 1)
+    c.setopt(c.HTTPHEADER, http_header)   #must be list, not dict
+    c.setopt(c.POST, 1)
+    c.setopt(c.CONNECTTIMEOUT, 30)
+    c.setopt(c.TIMEOUT, 30)
+    c.setopt(c.WRITEFUNCTION, dump_res)
+    c.setopt(c.POSTFIELDS, audio_data)
+    c.setopt(c.POSTFIELDSIZE, f_len)
+    c.perform() #pycurl.perform() has no return val
+
+if __name__ == "__main__":
+    token = get_token()
+    use_cloud(token)
@@ -0,0 +1,51 @@
+#encoding=utf-8
+
+import wave
+import urllib, urllib2, pycurl
+import base64
+import json
+## get access token by api key & secret key
+
+def get_token():
+    apiKey = "xxxxxxxx"
+    secretKey = "xxxxxxxxx"
+
+    auth_url = "https://openapi.baidu.com/oauth/2.0/token?grant_type=client_credentials&client_id=" + apiKey + "&client_secret=" + secretKey;
+
+    res = urllib2.urlopen(auth_url)
+    json_data = res.read()
+    return json.loads(json_data)['access_token']
+
+def dump_res(buf):
+    print buf
+
+
+## post audio to server
+def use_cloud(token):
+    fp = wave.open('vad_0.wav', 'rb')
+    nf = fp.getnframes()
+    f_len = nf * 2
+    audio_data = fp.readframes(nf)
+
+    cuid = "xxxxxxxxxx" #my xiaomi phone MAC
+    srv_url = 'http://vop.baidu.com/server_api' + '?cuid=' + cuid + '&token=' + token
+    http_header = [
+        'Content-Type: audio/pcm; rate=8000',
+        'Content-Length: %d' % f_len
+    ]
+
+    c = pycurl.Curl()
+    c.setopt(pycurl.URL, str(srv_url)) #curl doesn't support unicode
+    #c.setopt(c.RETURNTRANSFER, 1)
+    c.setopt(c.HTTPHEADER, http_header)   #must be list, not dict
+    c.setopt(c.POST, 1)
+    c.setopt(c.CONNECTTIMEOUT, 30)
+    c.setopt(c.TIMEOUT, 30)
+    c.setopt(c.WRITEFUNCTION, dump_res)
+    c.setopt(c.POSTFIELDS, audio_data)
+    c.setopt(c.POSTFIELDSIZE, f_len)
+    c.perform() #pycurl.perform() has no return val
+
+if __name__ == "__main__":
+    token = get_token()
+    use_cloud(token)
@@ -0,0 +1,31 @@
+#coding:utf-8
+import wave      #需要导入python的wave module，函数用法参http://docs.python.org/library/wave.html
+import struct      #struct module的用法参见http://docs.python.org/library/struct.html
+from math import sin, pi,pow       
+
+MAX_AMPLITUDE = 32767    #决定sin wave的音量
+SAMPLE_RATE = 44100   #采样频率，由于人听觉在20到20千赫兹，由于Nyquist定律，一般44100（大于20千
+                      # 的两倍）的频率足够满足人耳，再高就浪费文件空间啦，这也是CD通常的采样频率。
+DURATION_SEC = 10       #生成wav的时间为三秒
+SAMPLE_LEN = SAMPLE_RATE * DURATION_SEC       # 乘一下就是要写多少个SAMPLE啦
+filename = 'output.wav'     #起个文件名哈，文件生成后就到这个文件夹找啦
+print "Creating sound file:", filename
+print "Sample rate:", SAMPLE_RATE
+print "Duration (sec):", DURATION_SEC
+print "# samples:", SAMPLE_LEN
+wavefile = wave.open(filename, 'w')  # 'w'写文件，其他还有'r','rb','wb'啥的,详情google之
+wavefile.setparams((2, 2, SAMPLE_RATE, 0, 'NONE', 'not compressed'))   # 设置下wave file的头文件
+samples = []    #建一个tuple用来放好几个channel的
+for i in range(SAMPLE_LEN):
+    t = float(i) / SAMPLE_RATE  # t表示当下滴时间
+    sample = MAX_AMPLITUDE * sin(t * 256 * 2 * pi)  # 就根据sin wave的方程得到当下的amplitude啦，
+                                                     #  这里生成频率为256的音高哟，可以随便改。
+    #print i, t,  sample     # show some generated values. comment out for speed.
+    packed_sample = struct.pack('h', sample)  # 转换成16进制的string
+    samples.append(packed_sample)  # append到samples，作为channel 1
+    samples.append(packed_sample)  # append一个一样的作为channel 2，要是append另一个频率的
+                                    # packed_sample_2,就可以有和声效果啦
+sample_str = ''.join(samples)   # 把samples里所有的值都convert到一个string上
+wavefile.writeframes(sample_str)        # 终于要写waveframe啦！
+wavefile.close()    #最后别忘了关掉文件，不然会出错滴
+print "Done writing file."          #大告成功！
@@ -0,0 +1,30 @@
+import wave      #需要导入python的wave module，函数用法参http://docs.python.org/library/wave.html
+import struct      #struct module的用法参见http://docs.python.org/library/struct.html
+from math import sin, pi, pow       
+
+MAX_AMPLITUDE = 32767    #决定sin wave的音量
+SAMPLE_RATE = 44100   #采样频率，由于人听觉在20到20千赫兹，由于Nyquist定律，一般44100（大于20千
+                       的两倍）的频率足够满足人耳，再高就浪费文件空间啦，这也是CD通常的采样频率。
+DURATION_SEC = 3       #生成wav的时间为三秒
+SAMPLE_LEN = SAMPLE_RATE * DURATION_SEC       # 乘一下就是要写多少个SAMPLE啦
+filename = '/Users/rongjin/Desktop/output.wav'     #起个文件名哈，文件生成后就到这个文件夹找啦
+print "Creating sound file:", filename
+print "Sample rate:", SAMPLE_RATE
+print "Duration (sec):", DURATION_SEC
+print "# samples:", SAMPLE_LEN
+wavefile = wave.open(filename, 'w')  # 'w'写文件，其他还有'r','rb','wb'啥的,详情google之
+wavefile.setparams((2, 2, SAMPLE_RATE, 0, 'NONE', 'not compressed'))   # 设置下wave file的头文件
+samples = []    #建一个tuple用来放好几个channel的
+for i in range(SAMPLE_LEN):
+    t = float(i) / SAMPLE_RATE  # t表示当下滴时间
+    sample = MAX_AMPLITUDE * sin(t * 256 * 2 * pi)  # 就根据sin wave的方程得到当下的amplitude啦，
+                                                       这里生成频率为256的音高哟，可以随便改。
+    #print i, t,  sample     # show some generated values. comment out for speed.
+    packed_sample = struct.pack('h', sample)  # 转换成16进制的string
+    samples.append(packed_sample)  # append到samples，作为channel 1
+    samples.append(packed_sample)  # append一个一样的作为channel 2，要是append另一个频率的
+                                     packed_sample_2,就可以有和声效果啦
+sample_str = ''.join(samples)   # 把samples里所有的值都convert到一个string上
+wavefile.writeframes(sample_str)        # 终于要写waveframe啦！
+wavefile.close()    #最后别忘了关掉文件，不然会出错滴
+print "Done writing file."          #大告成功！
@@ -0,0 +1,120 @@
+from sys import byteorder
+from array import array
+from struct import pack
+ 
+import pyaudio
+import wave
+ 
+THRESHOLD = 500
+CHUNK_SIZE = 1024
+FORMAT = pyaudio.paInt16
+RATE = 44100
+ 
+def is_si<a href="https://www.baidu.com/s?wd=len&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">len</a>t(snd_data):
+    "Returns 'True' if below the 'si<a href="https://www.baidu.com/s?wd=len&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">len</a>t' threshold"
+    return <a href="https://www.baidu.com/s?wd=max&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">max</a>(snd_data) < THRESHOLD
+ 
+def normalize(snd_data):
+    "Average the volume out"
+    <a href="https://www.baidu.com/s?wd=MAX&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">MAX</a>IMUM = 16384
+    times = float(<a href="https://www.baidu.com/s?wd=MAX&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">MAX</a>IMUM)/max(<a href="https://www.baidu.com/s?wd=abs&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">abs</a>(i) for i in snd_data)
+ 
+    r = array('h')
+    for i in snd_data:
+        r.app<a href="https://www.baidu.com/s?wd=end&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">end</a>(int(i*times))
+    return r
+ 
+def trim(snd_data):
+    "Trim the blank spots at the start and <a href="https://www.baidu.com/s?wd=end&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">end</a>"
+    def _trim(snd_data):
+        snd_started = False
+        r = array('h')
+ 
+        for i in snd_data:
+            if not snd_started and <a href="https://www.baidu.com/s?wd=abs&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">abs</a>(i)>THRESHOLD:
+                snd_started = True
+                r.app<a href="https://www.baidu.com/s?wd=end&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">end</a>(i)
+ 
+            elif snd_started:
+                r.append(i)
+        return r
+ 
+    # Trim to the left
+    snd_data = _trim(snd_data)
+ 
+    # Trim to the right
+    snd_data.reverse()
+    snd_data = _trim(snd_data)
+    snd_data.reverse()
+    return snd_data
+ 
+def add_si<a href="https://www.baidu.com/s?wd=len&tn=44039180_cpr&fenlei=mv6quAkxTZn0IZRqIHckPjm4nH00T1Y3m1bvnhPBuWuhmhN-nHTd0AP8IA3qPjfsn1bkrjKxmLKz0ZNzUjdCIZwsrBtEXh9GuA7EQhF9pywdQhPEUiqkIyN1IA-EUBtkPWbsnHcznjn4nW6Lnj0krjc3" target="_blank" class="baidu-highlight">len</a>ce(snd_data, seconds):
+    "Add silence to the start and end of 'snd_data' of length 'seconds' (float)"
+    r = array('h', [0 for i in xrange(int(seconds*RATE))])
+    r.extend(snd_data)
+    r.extend([0 for i in xrange(int(seconds*RATE))])
+    return r
+ 
+def record():
+    """
+    Record a word or words from the microphone and 
+    return the data as an array of signed shorts.
+ 
+    Normalizes the audio, trims silence from the 
+    start and end, and pads with 0.5 seconds of 
+    blank sound to make sure VLC et al can play 
+    it without getting chopped off.
+    """
+    p = pyaudio.PyAudio()
+    stream = p.open(format=FORMAT, channels=1, rate=RATE,
+        input=True, output=True,
+        frames_per_buffer=CHUNK_SIZE)
+ 
+    num_silent = 0
+    snd_started = False
+ 
+    r = array('h')
+ 
+    while 1:
+        # little endian, signed short
+        snd_data = array('h', stream.read(CHUNK_SIZE))
+        if byteorder == 'big':
+            snd_data.byteswap()
+        r.extend(snd_data)
+ 
+        silent = is_silent(snd_data)
+ 
+        if silent and snd_started:
+            num_silent += 1
+        elif not silent and not snd_started:
+            snd_started = True
+ 
+        if snd_started and num_silent > 30:
+            break
+ 
+    sample_width = p.get_sample_size(FORMAT)
+    stream.stop_stream()
+    stream.close()
+    p.terminate()
+ 
+    r = normalize(r)
+    r = trim(r)
+    r = add_silence(r, 0.5)
+    return sample_width, r
+ 
+def record_to_file(path):
+    "Records from the microphone and outputs the resulting data to 'path'"
+    sample_width, data = record()
+    data = pack('<' + ('h'*len(data)), *data)
+ 
+    wf = wave.open(path, 'wb')
+    wf.setnchannels(1)
+    wf.setsampwidth(sample_width)
+    wf.setframerate(RATE)
+    wf.writeframes(data)
+    wf.close()
+ 
+if __name__ == '__main__':
+    print("please speak a word into the microphone")
+    record_to_file('demo.wav')
+    print("done - result written to demo.wav")