1.4 머신러닝의 주요 도전 과제 1) 나쁜 데이터 1.4.1 충분하지 않은 양의 훈련 데이터간단한 문제에서도 수천 개의 데이터가 필요(훈련 데이터를 추가로 모으는 것이 항상 쉽거나 저렴하지 않음) 1.4.2 대표성 없는 훈련 데이터추가적인 데이터 샘플링 편향이 발생 1.4.3 낮은 품질의 데이터특성이 빠져 있기도 함. 아예 무시할지, 빠진 값만 채울지 고려 1.4.4 관련 없는 특성GIGO로 훈련에 사용할 좋은 특성을 찾는 것. 특성 공학유용한 특성을 선택하고, 특성을 결합하여 더 유용한 특성, 새로운 데이터로 새 특성 2) 나쁜 알고리즘1.4.5 훈련 데이터 과대적합일반화 주의! 훈련 데이터에 더 잘 맞더라도 실제로 예측을 믿기는 어려움. 특성을 줄이거나, 모델에 제약, 파라미터 수가 적은 모델 적용..
김경화 씨는 2000년 MBC 아나운서로 데뷔했습니다. 2015년까지 MBC에서 근무하다가 그해 9월 오랜 파업 끝에 MBC를 떠나 프리랜서로 전향했습니다.방송인 김경화 씨는 남편과의 결혼에 대해 이야기하면서 눈물을 흘렸습니다. 5월 31일, MBN의 '리얼 마켓 토크, 카트쇼2(RealMarketTalk, CartShow2)'에서 김경화와 김미경이 출연했습니다. 김경화 씨는 집에서 하는 운동인 홈 케어를 통해 몸매를 가꾸고 있다고 말했습니다.김경화 씨는 건강에 대해 집에서 흐트러 지지 않으려고 노력한다며 남편은 나보다 10배는 더 엄격하다고 말했습니다. 예전에 캐릭터가 그려진 드레스를 입고 편안하게 다가갔는데 남편이 밀어내는 바람에 마음이 아팠어요. "제 남편은 즉시 사과를 했지만, 우리는 아직도 그것..
1.3.3 사례 기반 학습과 모델 기반 학습(일반화 기준) 예측을 만드는 것입니다. 다시 말해, 주어진 훈련 데이터로 학습하여, 훈련 데이터에서는 본적 없는 새로운 데이터로 일반화되어야 한다는 뜻입니다. 훈련 데이터에서 높은 성능을 내는 것이 좋지만 그게 전부는 아닙니다. 새로운 샘플에서 잘 작동하는 모델이 목표입니다. 1) 사례 기반 학습가장 간단한 형태의 학습은 단순히 기억하는 것. 스팸 필터를 이러한 방식으로 만들면 사용자가 스팸이라고 지정한 메일과 동일한 모든 메일을 스팸으로 분류합니다. 최악은 아니라도 최선이라고 할 수 없습니다. 스팸 메일과 동일한 메일은 스팸이라고 지정하는 대신 스팸 메일과 매우 유사한 메일을 구분하도록 스팸 필터를 프로그램할 수 있습니다. 유사도 측정입니다. 공통으로 포함한..
3) 준지도 학습(Semisupervised Learning)레이블이 있는 데이터가 아주 조금있는 경우ex) 구글 포토 호스팅 서비스가족사진 중 사람A가 사진 1,5,7에 사람B가 사진 3,4,5에 있음을 인식대부분 준지도 학습은 지도 학습과 비지도 학습의 조합으로 이루어져 있으며, 심층 신뢰 신경망은 여러 겹으로 쌓은 제한된 볼츠만 머신이라고 불리는 비지도 학습에 기초합니다. RBM으로 훈련된 다음 전체 시스템이 지도 학습 방식으로 세밀하게 조정하는 방식입니다. 4) 강화 학습(Reinforcement Learning)학습하는 시스템 = 에이전트환경을 관찰해서 행동으로 실행하고 그 결과로 보상 또는 벌점을 받는 방식시간이 지나면서 가장 큰 보상을 얻는‘정책’ = ‘최상의 전략’을 스스로 학습함. 정책 ..
1.3 머신러닝 시스템의 종류(사람의 감독, 실시간 점진 학습, 사례or모델) 1.3.1 지도학습과 비지도 학습학습하는 동안의 감독 형태나 정보량으로 분류하는 기준으로 지도 학습, 비지도 학습, 준지도 학습, 강화 학습으로 네 가지 주요 범주가 있음. 1) 지도학습(Supervised Learning)알고리즘에 주입하는 훈련 데이터에 레이블이라는 원하는 답이 포함ex) 훈련세트 : 신용카드(스팸), For U(스팸), 이력서(non스팸) → 새 샘플분류(classification): 전형적인 지도 학습 작업(스팸 필터)회귀(regression): 예측 변수를 통해서 타겟 수치를 예측(주행거리, 연식, 브랜드 등)을 통해 (중고차 가격) 예측 책에서 다루는 지도 학습 알고리즘k-최근접 이웃선형 회귀로지스틱..
1.1 머신러닝? 데이터로부터 학습하도록 컴퓨터를 프로그래밍하는 과학 기술명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 분야-아서 사무엘 1959w)훈련 세트(training set) = 학습하는 데 사용하는 example훈련 사례(training instance) = 각 훈련의 데이터 - 공학적 정의 이해작업T를 수행하는 프로그램의 성능을 P로 측정경험E로 성능 향상됐다면, 이 컴퓨터 프로그램은 작업T와 성능 측정 P에 대해 경험E로 학습-톰 미첼 1997ex) 스팸메일 필터 프로그램작업T = 새로운 메일이 스팸인지 구분경험E = 훈련 데이터성능 측정P = 정확하게 분류된 메일 비율(정확도accuracy, 기준은 직접 정의) 1.2 머신러닝 사용 이유? 일반 문제 해결 방식(규칙 작성이..
"이평선(MA) 차트 그리기" 스터디자료6. 파이썬으로 배우는 알고리즘 투자 import pandas as pdimport pandas_datareader.data as web import matplotlib.pyplot as plt # Get GS Data from Yahoo gs = web.DataReader("078930.KS", "yahoo", "2015-01-01", "2018-05-06") new_gs = gs[gs['Volume']!=0] # Moving average ma5 = new_gs['Adj Close'].rolling(window=5).mean() ma20 = new_gs['Adj Close'].rolling(window=20).mean() ma60 = new_gs['Adj Clo..
# 주가 분석 중 이동평균선(Moving Avergae Line : MA) 분석이 가장 유명하고 많이 쓰입니다. # 알고리즘 투자에 적용할 때는 이러한 전략이 실제로 효과가 있었는지에 대해서 테스트하고 비교해서 # 초과 수익이 나는 요소를 파악하여 적용하는 것이 중요합니다. # 대표적인 기술적 분석인 이동평균선 계산해 봅시다. import pandas as pd import pandas_datareader.data as web import datetime start = datetime.datetime(2015, 1, 2) end = datetime.datetime(2018, 5, 4) gs = web.DataReader("078930.KS", 'yahoo', start, end) # 잘 가져왔는지 확인해..
# Pandas DataFrame (스터디자료3. 파이썬으로 배우는 알고리즘 트레이딩)# pandas의 Series가 1차원 자료구조라면 DataFrame은 여러개의 열로 구성된 2차원 형태의 자료구조입니다. # 일자 시가 저가 고가 종가 전일비 등락률 거래량 # 2.26 11,250 11,100 11,850 11,800 +600 4.6% 335,587 # 2.25 10,900 10,500 11,450 11,200 +300 2.6% 125,484 # 위와 같은 자료를 DataFrame을 이용해서 2차원 구조의 데이터를 쉽게 저장하고 조작할 수 있습니다. # DataFrame 객체를 생성하는 가장 쉬운 방법은 파이썬의 딕셔너리를 사용하는 것입니다. # 딕셔너리를 통해 각 칼럼에 대한 데이터를 저장한 후 #..
Letter QueueIn computer science, a queue is a particular kind of data type in which the entities in the collection are kept in order and the principal operations on the collection are the addition of entities to the rear terminal position (enqueue or push), and removal of entities from the front terminal position (dequeue or pop). 오늘도 열심히 엠파이어 코드를 하면서 파이썬 공부를 하고 있습니다. 컴퓨터에서 큐가 선입 선출(선입 선출)데이터 구조..